きしだのHatenaのフィード｜テックブログRSS

きしだのHatena

https://nowokay.hatenablog.com/

きしだのHatena

フィード

きしだのHatena

いままでの流れモデル実際の比較量子化の中身ハードウェア高速化技法 MINISFORUM M2 ミニPC インテル Core Ultra 7 356H DDR5-5600MHz 32GB 1TB SSD Windows 11 Pro 2.5G LAN × 2 Wi-Fi 7 BT5.4 HDMI 2.1 DP USB4 小型デスクトップPCMINISFORUMAmazon

10時間前

ローカルでコーディングエージェントするために使えるLLM

きしだのHatena

ローカルでコーディングエージェントするために使えるLLMもまとめておきます。モデルと傾向いまコーディングエージェントで使えるかなというモデルはこのくらい。モデル総パラメータ数アクティブアテンション Qwen3.6 27B Dense 線形 Qwen3.6 35B A3B 線形 Gemma 4 26B A4B スライド Gemma 4 31B Dense スライド Qwen3.5 122B A10B 線形 MiniMax M2.7 230B A10B フル DeepSeek V4 Flash 284B A13B スパース MiMo-V2.5 310B A15B スライド GLM-5.…

10時間前

2023年からの3年でおうちで動くLLMはどう変わったか

きしだのHatena

ちょっと、おうちで動くLLMを振り返ってみます。年間を通してではなく、毎年の3-4月くらい、16GB VRAMのGPUで動くくらいのモデルがどんな状況だったかをみてまとめるとこんな変遷動いてえらい(2023)->返答がまとも(2024)->返答が使える(2025)->こだわらなければ使える(2026) 2023 最初に動かしたのはChatRWKVというモデルですね。TransformerではなくRNNを使うモデル。おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena こんな感じ。「寿司は好き？」って聞いたら英語でそれっぽい返事してくれてる。いろいろ出て…

14時間前

ローカルLLMを動かすハードウェア

きしだのHatena

LLMを動かすハードウェア、軽くまとめておきます。 SoC LLMを動かそうとしたら、まず候補にしたいのはCPU+NPU+GPUのSoCが載ったマシン。 GPUカードのようなパフォーマンスは出ないけど、現実的な値段で大きいモデルが動かせます。 Ryzen AI Max+ 395搭載の128GBのEVO-X2が48万円、と思ったら品切れ・・・ ※追記本家に「在庫たっぷり」と売ってあった。 GMKtec EVO-X2 AMD Ryzen™ AI Max+ 395 ミニPC – GMKtec JP GMKtec EVO-X2 AIミニPC AMD Ryzen AI Max+ 395搭載（16コア3…

14時間前

LLMの推論を速くする投機的デコードMTPは想定ユースケースに近いかどうかが重要？

きしだのHatena

Qwen3.6-27BのMTP対応GGUFがUnslothさんのところから出ていたので試してみたところ、出力内容によって性能変わったので、ドラフトモデルの想定ユースケースに近いことが大事かもしれない、って話 MTP(multi-token prediction)は、軽いモデルにあらかじめ3トークンくらい出力させておいて、本番モデルで確認して当たればラッキー、外れてもそんなに損しない、なので推論が速くなるよって仕組みです。 Multi-token-prediction in Gemma 4 で、UnslothさんがMTP対応のQwen3.6を出していたので試していました。 https://hug…

15時間前

ggufの歩き方 - LLMの構造をみてみる -

きしだのHatena

ggufはLLM推論エンジンllama.cppの重みデータフォーマットですが、Hugging Faceではモデルの構造が確認できます。ということで、Hugging Faceでモデルの構造を見てみます。コードやアルゴリズムを見てLLMを学ぶというアプローチはよくみますが、実際のモデルの構造をみてLLMを学ぶというのもいいんじゃないかと。モデルを探すまずはモデルのリポジトリ「モデル名 + GGUF」で検索します。たとえばQwen3.6-27Bであればこんな感じモデルのファイルを確認 Files and versionsにいきます。そうすると、量子化ごとにファイルがあります。大きいモ…

1日前

なぜ「ループは2重まで」が実務的にまわるのか

きしだのHatena

「ループの変数、i, jのあと悩むよね」「ループは2重まで。問題ない」というネタ的やりとりがあったのだけど、実際に「ループは2重まで」というのはコーディングの基準として割と受け入れられて、そしてそれで実務的にまわりがち。でなぜか。多くのアプリケーションの範囲では、まとまりのあるループとしては2重までがほとんどで、3重ループというのはあまり出てこないんじゃなかろうか。つまり、 for (i) { for (j) { なにか処理 } } のように、ループの一番内側までアプリケーション的な処理がない、あっても前処理後処理的なもの、というのはだいたい2重まででは、という仮説。まとまりのある3重…

2日前

ds4.cでDeepSeek V4 Flashを試したら結構いい

きしだのHatena

ゴールデンウィーク前にDeepSeek V4が出ていたのですが、機構がこれまでと違いすぎてなかなかllama.cppなどに入らなくて試しにくかったところ、Redis創設者のAntirezさんがコンパクトな推論エンジンds4.cをApple Silicon専用でつくっていたので試してみました。 ※ 5/12追記名前がDwarf Star 4になって、CUDAにも対応しています。 DeepSeek V4には1.6T-A49BのProと284B-A13BのFlashがありますが、今回はFlashに対応しています。 deepseek-ai/DeepSeek-V4-Flash · Hugging Fa…

2日前

プログラミング言語は絶滅しない

きしだのHatena

「AIしかコードを書かず人間が理解できる必要がないのであれば、プログラミング言語を使う必要がなく消滅し、機械語のコードをAIが出力すればいい」という趣旨の記事があった。プログラミング系技術専門サイトであれば、「プログラミング言語というのはこういう役割であり、現在のAIはこういう特性であるから、AIが直接機械コードを出すことはない」という話を本来はやってほしいところだけど、ここでまとめておく。プログラミング言語の基礎概念 ((ライブラリ情報学コア・テキスト))作者:五十嵐淳サイエンス社Amazon AIが直接バイナリを吐くようにはならないで、バイナリを吐くようにはならないという話はここ…

3日前

AIが書くならMarkdownじゃなくHTMLのほうがいいのでは、という話

きしだのHatena

たしかに～となった。 Markdownは人間が書きやすくするために表現力を落としてる。でもAIが書くのであれば、わざわざ表現力を落としたMarkdownを使う必要がない、という話。 ※ 補足 AIが「設計確認して」って出してくるMarkdownを読むのはつらい、全部よまないよね、HTMLであればより読みやすい形、インタラクティブな形になって確認しやすいよね、AIが書くならHTMLでいいよね、という文脈。確認モレで余計な生成が行われるより、ちょっとリッチに確認しやすい文書だしてもらって、意図通りの生成が走るほうがトータルのトークン数も節約できると思う。補足おわり ※ もうひとつ追記いまの…

4日前

AIには「人間であるとはどのようなことか」を考えることはできない

きしだのHatena

今後AIの発展が進んだ時に、人間にしかできない知的活動は何なんだろう、という話が流れてきた。「感情や認識がどのように生まれるかを内省的に考えること。人間の思考の仕組みについて考えること。」と書いてみた。いろいろ考えて、「新たな概念に対して意味をつけて共有し言葉にすること」のようなことは5年やそこらでは難しそう。感情がどのように発生して、認識をどのように行うかというのは、その本人にしか観察することができない。感情が発生したときになんらか観測できる外部信号や、認識を書きだしたり話したりしたものをもとに観察はできる。でも、それは感情や認識そのものではない。そして、そういった観測手法も、感…

8日前

Qwen3.6とGemma 4を比較。コーディングだとQwen3.6。デバッグだけGemma 4か

きしだのHatena

Qwen3.6とGemma 4についてコーディング以外の比較をやってみたので、ここではコーディングについて比較してみます。 Qwen3.6はコーディングというタスクについてよく学習しています。一方でGemma 4はプログラミングの基礎はしっかりしていてQwen3.6より書けそうです。けれども、コーディングというタスクやアプリケーション開発の作業をあまり知らないですね。なので、コーディングで使うなら基本的にはQwen3.6のほうがよさそう。デバッグでQwen3.6の手にあまるときにGemma 4にやらせるのがいいかもしれません。プログラミングの基礎 ((Computer Science Li…

16日前

ローカルLLMコーディングエージェントは重くて賢いモデルと軽くて新しいモデルを組み合わせるようになるんでは

きしだのHatena

このところ1T近くの大きさのいろんなLLMがオープンウェイトで公開されていますが、果たしてこれからもこのようなサイズのモデルが高頻度に更新されていくんだろうか、という気持ちにもなります。また、なんだかんだで1Tじゃないにしろでかいモデルは動かすのが重いです。ところで、Qwen3.6やGemma 4の26B-35Bといったモデルでも、小規模のコード、特に新規書き起こしのコードでは十分になってきています。こちらも。 Qwen3.6やGemma 4に手書きのデザインを見せてゲームを作ってもらう - きしだのHatena Qwen3.6-27BにRPGを作ってもらったらすごすぎた - きしだのH…

16日前

Qwen3.6とGemma 4を比較。コーディング以外の用途だとGemma 4か

きしだのHatena

Qwen3.6とGemma 4、同じ時期に同じようなサイズのモデルが出ていたので比べてみます。 Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model Gemma 4 モデルカード | Google AI for Developers Gemma 4 31BだけQ4_K_Mで、他はQ4_K_XL-UDで試しています。モデル公開日 4K 36K 260K 入力出力 Qwen3.6-35B-A3B 4/15 23.7GB 24.…

16日前

Qwen3.6-27BにRPGを作ってもらったらすごすぎた

きしだのHatena

布留川さんがGPT-5.5にRPGを作らせていたので、同じプロンプトをQwen3.6-27Bに渡すとどうなるかなと試してみたら、ちゃんとRPGを作ってびっくりした。こんな感じ。壁のテクスチャやモンスターはJSで描画してる。3D描画もライブラリを使わず自前実装。操作性などを修正してもらったけど、基本的には出てきたままです。ここで遊べます。 https://kishida.github.io/webdemos/rpg/rpg.html ダンジョンズ&ドラゴンズモンスター・マニュアル第4版 (ダンジョンズ&ドラゴンズ基本ルールブック)作者:マイクミアルス,スティーヴンシューバート,ジェ…

17日前

Qwen3.6やGemma 4に手書きのデザインを見せてゲームを作ってもらう

きしだのHatena

Qwen3.6は画像を読み取れるので、手描きでゲームデザイン書いたら作ってくれるかなぁと思って試してみました。そしたら想像以上にちゃんと作ってくれたので、Gemma 4でも試したり、他のゲームつくったりやってみました。結局Claudeさんに作ってもらったけど、Qwen3.6やGemma 4でも十分にゲーム作ってくれます。安定感はなくて調整が多く必要だけど、指示も割とちゃんときいてくれるので、バグにハマらなければ結構いけます。コードに関しては小さいゲームの範囲であればどちらも性能十分だけど、ゲームデザインや手書きの文字の読み取りなどはQwen3.6がいいです。特にデザインやゲーム的な処理…

17日前

Qwen3.6-35B-A3Bの動作環境と設定、出力速度まとめ

きしだのHatena

Qwen3.6-35B-A3Bを動かしたときの量子化や設定、出力速度をまとめておきます。 Qwen3.6-35B-A3Bでコーディングエージェントを試してみる。小規模なら十分いける - きしだのHatena 基本はこの3環境 RTX 4060 Ti 16GB(+RTX 3050 6GB) M4 Pro 48GB M3 Ultra 512GB 量子化は4つ。メモリ使用量はLM Studioでの予測。量子化ファイル 4000tok 262K tok unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_XL 24.1GB 23.77GB 28.66GB unsloth/Qwen3…

24日前

Qwen3.6-35B-A3Bでコーディングエージェントを試してみる。小規模なら十分いける

きしだのHatena

Qwen3.6-35B-A3Bが昨日出ていました。性能が高いといわれるQwen3.5-27Bをベンチマークで上回ってるということでコーディングエージェントを試したら、かなり実用的だった。 Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All JS版ブロック崩し、テトリス、Java版ブロック崩し、OpenCodeでSpring Boot版TODO管理、フレームワークなしWebTODO管理をやってもらいました。コーディングエージェントでも、変更指示に適切に対応して、安定したコード操作で、gitでのコミットなども行って、セッションを新しくして…

1ヶ月前

WebLLMやtransformer.jsでブラウザでLLMを動かして翻訳する

きしだのHatena

ブラウザ上でLLMを動かすのを試すために、翻訳用LLMでローカル翻訳やってみました。ここで動かせます。 https://kishida.github.io/webdemos/translator/offline-translator.html Claudeのチャットで「webllmと軽量翻訳モデルを使ってオフライン翻訳を試したい」とすると、WebLLM+WebGPUでの概形をつくってくれたので、「LiquidAI/LFM2-350M-ENJP-MT に対応して」とするとtransformers.js+ONNXでも動くようにしてくれました。 LFM2-350M-ENJP-MTは350M(0.3…

1ヶ月前

TranslateGemmaをLM Studioで翻訳サーバーにする

きしだのHatena

Gemma 3ベースの翻訳モデルTranslateGemmaが年明けに出ていたのだけど、設定が割と面倒なので動かさずにいたのを、ちょっと話題に出たので試してみた。 55言語対応で、4B、12B、27Bがある。4Bでも汎用12Bより翻訳性能が高い、という話。 TranslateGemma: A new family of open translation models たしかに、Gemma 4 E2B(5B)が誤訳したところでも、TranslateGemma 4Bは正しく訳していたし、Qwen3.5 4Bに比べてもちゃんと訳す印象。チャットテンプレートが特殊なので面倒。以前にPLaMo翻訳を…

1ヶ月前

Gemma 4でうれしいのはシステムプロンプト厳守。チャット用モデルに最適かも

きしだのHatena

Gemma 4がリリースされていました。ちょっと触る感じ、性能的にQwen3.5と比べると微妙かも、と思うのだけど、日本語表現力の高さは健在。そして、一番の特徴はシステムプロンプトを守るよう訓練されてるところだと思います。モデルカードに次のような記述があります。ネイティブシステムプロンプトのサポート - Gemma 4 では system ロールのネイティブサポートが導入され、より構造化された制御可能な会話が可能になります Gemma 4 モデルカード | Google AI for Developers これは、システムプロンプト厳守を強く学習してるということです。それでどうな…

1ヶ月前

完全主観：ChatGPT、Gemini、Claudeに対応するオープンモデルは何か

きしだのHatena

オープンモデルの性能もあがってきて、フロンティアモデルと呼ばれる代表的なモデルとの比較もできるようになってきました。ということで、フロンティアモデルに対応するオープンモデルを完全に主観で選んでみました。フロンティアモデルの代表的なものはChatGPT(GPT)、Gemini、Claudeがあります。それぞれの特徴として一番わかりやすいのがClaudeだと思います。コーディングが強いですね。それとは逆で考えるとわかりやすいのがGeminiで、これはコーディングがフロンティアモデルとしては弱い。けれども、要約や表現は強いと思います。で、残るのがChatGPTだけど、これは総合力が高いです…

1ヶ月前

imatrix付きで量子化したGGUFを作るメモ

きしだのHatena

日本語を含んだファイルでimatrixを作ってGGUFを作ると日本語性能があがる。必要な手順を全部まとめてるところがなかったので、ここにメモ出力されたファイルはmodel.ggufのようなファイル名だったりするので都度適当に変更してる。 llama.cppのビルド clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp cmake -B build -DGGML_CUDA=ON cmake --build build --config Release とりあえずbf16でGGUF化 python convert_hf_to_…

2ヶ月前

GGUFでのトークナイズを確認しやすくする

きしだのHatena

AIがどのようにトークナイズするかを確認するときに、OpenAIのトークナイザで確認していたのだけど、個別のモデルがどのようにトークナイズしてるかという話をするときには、ちゃんとそのモデルでのトークナイズを確認する必要があります。 llama.cppのllama-tokenizeコマンドで確認できるのだけど、いろいろな文章のトークナイズを確認したり、モデルのファイルがどこにあるかを探すのがめんどい。ということで、ClaudeさんにUI作ってもらいました。 Pythonコードのソースはこちら。llama.cppが必要です。 https://gist.github.com/kishida/ce9…

2ヶ月前

RakutenAI-3.0はDeepSeek V3に比べて新しい知識を持ち日本語が流暢でコードも書ける

きしだのHatena

RakutenAI-3.0はDeepSeek-V3の追加学習モデルでは、という噂があるので、Q4_K_MをLM Studioで動かして比べてみました。 RakutenAI-3.0はmmngaさん、DeepSeek-V3はUnslothさんのところのGGUFを使っています。 ※ https://ai.rakuten.co.jp/chat でのモデルは画像対応でもありRakutenAIではないようです。 ai.rakuten.co.jpで動いてるのはSonnet？->GPT系っぽい - きしだのHatena 知識の更新、日本語理解や表現の向上、コーディング能力の向上などが実際に確認できました。 D…

2ヶ月前

Kimi-K2.5をおうちで動かしてさくらのAI Engineと比べる。Roo Codeも問題ないけども…

きしだのHatena

さくらのAI EngineでKimi-K2.5を動かしたらとてもいい感じだったけどThinkingの挙動が使いづらいので、Mac Studio 512GBでUnslothさんのところのQ2_K_XLをLM Studioで動かして比べてみました。 Kimi-K2.5をさくらのAI Engineで試したら1Tパラメータの実力を感じた - きしだのHatena APIでのThinkingを見てみる APIがThinkingを分けてれるかどうかみてみます。さくらさんのだと、本文としてThinkingが出て、途中に</think>が入ってます。なのでRoo Codeがうまく動かなかったりしていました…

2ヶ月前

業務システムでも保守運用より構築スピードが大切になっている

きしだのHatena

前回の続きというか、その背景。 3日50万円で作れるシステムに4ヵ月800万円かけれなくなっている - きしだのHatena 業務システムが効率化のためのものから事業をまわして売上や利益を生むためのものになっているので「システム構築の柔軟性やスピードへの要求が高まった」というのがあって「3日でできるものに4ヵ月かけるというのが受け入れにくく」ということになっています。時間をかけて確実に作り切ってあとは保守運用というのではなく、速くつくって常に改善しつづけることが大切になっているわけです。前のエントリで運用が、保守が、というコメントが結構ついてますが、SIの価値が運用や保守であるなら、どんど…

2ヶ月前

Kimi-K2.5をさくらのAI Engineで試したら1Tパラメータの実力を感じた

きしだのHatena

Kimi K2.5が「さくらのAI Engine」でパブリックプレビューとして使えるようになっていたので試してみました。さくらのAI Engineにてマルチモーダルモデル「Kimi-K2.5」のパブリックプレビューを開始しました | さくらのクラウドニュース Thinkingの問題があって使いにくい面はありますが、性能的にはかなり高いです。さすが1Tトークン。コーディングはGLM-5のほうがよさそうではある。 Thinkingについてはなんらか対処してほしいところ。 ※ 3/25 対策されて、Open WebUIやOpenCodeでは問題なくなりました。Roo Codeに関しては調査中との…

2ヶ月前

3日50万円で作れるシステムに4ヵ月800万円かけれなくなっている

きしだのHatena

SIerに発注したら4ヵ月800万円という見積もりだったものをAI駆使してつくったら3日で50万円でできた、という話が話題になってました。そこで、SIerでは作るものをちゃんと保証したりしていて文書化は大切である、みたいな指摘が入ってたりした。でも、よく考えると、それって外注-受託において、作ると言ったものをちゃんと作ってもらったり、作ると言って作ったものにちゃんとお金を払ってもらったりするための、SI構造を維持するためのコストだったりします。いまAIは、「800万の見積もりのものが3日でできた」ということ以上に、社会構造を変えようとしています。そうすると、そんな変化の中で、800万円…

2ヶ月前

独自LLMを作るには事業会社なら10兆円企業が必要？

きしだのHatena

楽天がRakutenAI-3.0を出しましたが、DeepSeek V3アーキテクチャモデルの追加学習モデルのようで、ちょっとそこが話題になってましたね。見せ方の問題もあって、フルスクラッチではないのかと。 https://huggingface.co/Rakuten/RakutenAI-3.0 一応、非公開ではあるけどベースモデルがあることは否定してない模様。楽天の最新AI、ベースは“中国DeepSeek製”？担当者に聞いた（1/2 ページ） - ITmedia AI＋で、気になったので、フルスクラッチで独自LLMを作れる企業の規模はどんなものか調べてみました。日本でフルスクラッチで作…

2ヶ月前