きしだのHatena

フィード

記事のアイキャッチ画像
コーディングエージェント前提での開発教育はどのようになるか
きしだのHatena
コーディングエージェントがコードを書いてくれるので、プログラミング言語とかコーディングの勉強の必要性は下がっているわけですが、それでもちゃんと開発を行うための能力というのは必要です。 で、それを勉強しようとしたとき、どう変わるか。 まず、コーディングエージェントを使って入門をしようとすることを考えます。 ここで、「ブロック崩しつくって」のような単純なものだと一発で作ってくれて人間の能力が不要なので、入門題材に使えません。 Hello world的な、開発環境の動作確認であれば問題ないけど、開発能力を鍛えようとすると使えません。 なんなりか躓きポイントがあるほうがいいのだけど、最近のAIさんを躓…
8日前
記事のアイキャッチ画像
Gemma 4-12B、日常使いによさそう
きしだのHatena
なんか出てた。メモリがそんなにないしコード書かないし、というところにちょうどよさそうなので、UnslothさんのところのQ4_K_XLで試してみたんだけど、要約や翻訳、ロールプレイなど、コーディング以外で使うには結構よさそう。 Qwen3.5はよかったけど9Bは少したりず、Qwen3.6やGemma 4が4月に出たときは性能十分ってなったけど26B以上は手軽に動かせず、というところに12Bというのはとてもいいサイズ。 最初は壊れていたけど「寝て起きたらなんか直ってめちゃ使えるってなるのに期待」と書いて寝て起きたら直ってた。なので、内容はあわせて16時に更新しています。 google/gemma…
25日前
記事のアイキャッチ画像
AIが発達しても人間にわからないコードを書くようにはならない
きしだのHatena
「AIが人間にわからないコードを書くようになる」という話、割とよくみかけるので書いておきますね。 これ、「AI専用の言語があらわれる」「AIが直接バイナリを吐く」の亜流です。 AI専用の言語があらわれない話はここ。 AI専用のプログラミング言語は現れない - きしだのHatena AIがバイナリを吐くようにならない話はここ。 AIがバイナリを直接吐くようにはならない - きしだのHatena というか、AIが読み書きするコードも読みやすいほうがいいという話をすでに書いていた。 AIが読み書きするコードも読みやすいほうがいい(トランスフォーマの特性の考慮やリーダブルコードについて追記) - きし…
1ヶ月前
記事のアイキャッチ画像
ローカルLLMでコーディングエージェントするときのエントリまとめ
きしだのHatena
いままでの流れ モデル 実際の比較 量子化の中身 ハードウェア 高速化技法 MINISFORUM M2 ミニPC インテル Core Ultra 7 356H DDR5-5600MHz 32GB 1TB SSD Windows 11 Pro 2.5G LAN × 2 Wi-Fi 7 BT5.4 HDMI 2.1 DP USB4 小型デスクトップPCMINISFORUMAmazon
2ヶ月前
記事のアイキャッチ画像
ローカルでコーディングエージェントするために使えるLLM
きしだのHatena
ローカルでコーディングエージェントするために使えるLLMもまとめておきます。 モデルと傾向 いまコーディングエージェントで使えるかなというモデルはこのくらい。 モデル パラメータ アクティブ アテンション 層 埋め込み Qwen3.6 27B Dense 線形 64 5120 Qwen3.6 35B A3B 線形 40 2048 Gemma 4 26B A4B スライド 30 2816 Gemma 4 31B Dense スライド 60 5376 Qwen3.5 122B A10B 線形 48 3072 Step 3.7 Flash 198B A11B MiniMax M2.7 230B A1…
2ヶ月前
記事のアイキャッチ画像
2023年からの3年でおうちで動くLLMはどう変わったか
きしだのHatena
ちょっと、おうちで動くLLMを振り返ってみます。 年間を通してではなく、毎年の3-4月くらい、16GB VRAMのGPUで動くくらいのモデルがどんな状況だったかをみてまとめるとこんな変遷 動いてえらい(2023)->返答がまとも(2024)->返答が使える(2025)->こだわらなければ使える(2026) 2023「動いてえらい」 最初に動かしたのはChatRWKVというモデルですね。TransformerではなくRNNを使うモデル。 おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena こんな感じ。「寿司は好き?」って聞いたら英語でそれっぽい返事してくれてる…
2ヶ月前
記事のアイキャッチ画像
ローカルLLMを動かすハードウェア
きしだのHatena
LLMを動かすハードウェア、軽くまとめておきます。 SoC LLMを動かそうとしたら、まず候補にしたいのはCPU+NPU+GPUのSoCが載ったマシン。 GPUカードのようなパフォーマンスは出ないけど、現実的な値段で大きいモデルが動かせます。 ※ 追記(2026/5/14) 現状ではMacだけ普通で他は特別なマシンという感じですが、インテルも対応した今後は「パソコンを買ったらLLMが動かせる。せっかくLLM動かすならちょっとお金を足して30Bが動く程度にメモリ積もう」となるんじゃないかと思います。 Ryzen AI Max+ 395搭載の128GBのEVO-X2が48万円、と思ったら品切れ・・…
2ヶ月前
記事のアイキャッチ画像
LLMの推論を速くする投機的デコードMTPは想定ユースケースに近いかどうかが重要?
きしだのHatena
Qwen3.6-27BのMTP対応GGUFがUnslothさんのところから出ていたので試してみたところ、出力内容によって性能変わったので、ドラフトモデルの想定ユースケースに近いことが大事かもしれない、って話 MTP(multi-token prediction)は、軽いモデルにあらかじめ3トークンくらい出力させておいて、本番モデルで確認して当たればラッキー、外れてもそんなに損しない、なので推論が速くなるよって仕組みです。 Multi-token-prediction in Gemma 4 で、UnslothさんがMTP対応のQwen3.6を出していたので試していました。 https://hug…
2ヶ月前
記事のアイキャッチ画像
ggufの歩き方 - LLMの構造をみてみる -
きしだのHatena
ggufはLLM推論エンジンllama.cppの重みデータフォーマットですが、Hugging Faceではモデルの構造が確認できます。 ということで、Hugging Faceでモデルの構造を見てみます。 コードやアルゴリズムを見てLLMを学ぶというアプローチはよくみますが、実際のモデルの構造をみてLLMを学ぶというのもいいんじゃないかと。 モデルを探す まずはモデルのリポジトリ 「モデル名 + GGUF」で検索します。 たとえばQwen3.6-27Bであればこんな感じ モデルのファイルを確認 Files and versionsにいきます。 そうすると、量子化ごとにファイルがあります。大きいモ…
2ヶ月前
記事のアイキャッチ画像
なぜ「ループは2重まで」が実務的にまわるのか
きしだのHatena
「ループの変数、i, jのあと悩むよね」「ループは2重まで。問題ない」というネタ的やりとりがあったのだけど、実際に「ループは2重まで」というのはコーディングの基準として割と受け入れられて、そしてそれで実務的にまわりがち。 でなぜか。 多くのアプリケーションの範囲では、まとまりのあるループとしては2重までがほとんどで、3重ループというのはあまり出てこないんじゃなかろうか。 つまり、 for (i) { for (j) { なにか処理 } } のように、ループの一番内側までアプリケーション的な処理がない、あっても前処理後処理的なもの、というのはだいたい2重まででは、という仮説。 まとまりのある3重…
2ヶ月前
記事のアイキャッチ画像
ds4.cでDeepSeek V4 Flashを試したら結構いい
きしだのHatena
ゴールデンウィーク前にDeepSeek V4が出ていたのですが、機構がこれまでと違いすぎてなかなかllama.cppなどに入らなくて試しにくかったところ、Redis創設者のAntirezさんがコンパクトな推論エンジンds4.cをApple Silicon専用でつくっていたので試してみました。 ※ 5/12追記 名前がDwarf Star 4になって、CUDAにも対応しています。 DeepSeek V4には1.6T-A49BのProと284B-A13BのFlashがありますが、今回はFlashに対応しています。 deepseek-ai/DeepSeek-V4-Flash · Hugging Fa…
2ヶ月前
記事のアイキャッチ画像
プログラミング言語は絶滅しない
きしだのHatena
「AIしかコードを書かず人間が理解できる必要がないのであれば、プログラミング言語を使う必要がなく消滅し、機械語のコードをAIが出力すればいい」という趣旨の記事があった。 プログラミング系技術専門サイトであれば、「プログラミング言語というのはこういう役割であり、現在のAIはこういう特性であるから、AIが直接機械コードを出すことはない」という話を本来は やってほしいところだけど、ここでまとめておく。 プログラミング言語の基礎概念 ((ライブラリ情報学コア・テキスト))作者:五十嵐 淳サイエンス社Amazon AIが直接バイナリを吐くようにはならない で、バイナリを吐くようにはならないという話はここ…
2ヶ月前
記事のアイキャッチ画像
AIが書くならMarkdownじゃなくHTMLのほうがいいのでは、という話
きしだのHatena
たしかに~となった。 Markdownは人間が書きやすくするために表現力を落としてる。でもAIが書くのであれば、わざわざ表現力を落としたMarkdownを使う必要がない、という話。 ※ 補足 AIが「設計確認して」って出してくるMarkdownを読むのはつらい、全部よまないよね、HTMLであれば より読みやすい形、インタラクティブな形になって確認しやすいよね、AIが書くならHTMLでいいよね、という文脈。 確認モレで余計な生成が行われるより、ちょっとリッチに確認しやすい文書だしてもらって、意図通りの生成が走るほうがトータルのトークン数も節約できると思う。 補足おわり ※ もうひとつ追記 いまの…
2ヶ月前
記事のアイキャッチ画像
AIには「人間であるとはどのようなことか」を考えることはできない
きしだのHatena
今後AIの発展が進んだ時に、人間にしかできない知的活動は何なんだろう、という話が流れてきた。 「感情や認識がどのように生まれるかを内省的に考えること。人間の思考の仕組みについて考えること。」と書いてみた。 いろいろ考えて、「新たな概念に対して意味をつけて共有し言葉にすること」のようなことは5年やそこらでは難しそう。 感情がどのように発生して、認識をどのように行うかというのは、その本人にしか観察することができない。 感情が発生したときになんらか観測できる外部信号や、認識を書きだしたり話したりしたものをもとに観察はできる。 でも、それは感情や認識そのものではない。 そして、そういった観測手法も、感…
2ヶ月前
記事のアイキャッチ画像
Qwen3.6とGemma 4を比較。コーディングだとQwen3.6。デバッグだけGemma 4か
きしだのHatena
Qwen3.6とGemma 4についてコーディング以外の比較をやってみたので、ここではコーディングについて比較してみます。 Qwen3.6はコーディングというタスクについてよく学習しています。一方でGemma 4はプログラミングの基礎はしっかりしていてQwen3.6より書けそうです。けれども、コーディングというタスクやアプリケーション開発の作業をあまり知らないですね。 なので、コーディングで使うなら基本的にはQwen3.6のほうがよさそう。デバッグでQwen3.6の手にあまるときにGemma 4にやらせるのがいいかもしれません。 プログラミングの基礎 ((Computer Science Li…
2ヶ月前
記事のアイキャッチ画像
ローカルLLMコーディングエージェントは重くて賢いモデルと軽くて新しいモデルを組み合わせるようになるんでは
きしだのHatena
このところ1T近くの大きさのいろんなLLMがオープンウェイトで公開されていますが、果たしてこれからもこのようなサイズのモデルが高頻度に更新されていくんだろうか、という気持ちにもなります。 また、なんだかんだで1Tじゃないにしろでかいモデルは動かすのが重いです。 ところで、Qwen3.6やGemma 4の26B-35Bといったモデルでも、小規模のコード、特に新規書き起こしのコードでは十分になってきています。 こちらも。 Qwen3.6やGemma 4に手書きのデザインを見せてゲームを作ってもらう - きしだのHatena Qwen3.6-27BにRPGを作ってもらったらすごすぎた - きしだのH…
2ヶ月前
記事のアイキャッチ画像
Qwen3.6とGemma 4を比較。コーディング以外の用途だとGemma 4か
きしだのHatena
Qwen3.6とGemma 4、同じ時期に同じようなサイズのモデルが出ていたので比べてみます。 Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model Gemma 4 モデルカード | Google AI for Developers Gemma 4 31BだけQ4_K_Mで、他はQ4_K_XL-UDで試しています。 モデル 公開日 4K 36K 260K 入力 出力 Qwen3.6-35B-A3B 4/15 23.7GB 24.…
2ヶ月前
記事のアイキャッチ画像
Qwen3.6-27BにRPGを作ってもらったらすごすぎた
きしだのHatena
布留川さんがGPT-5.5にRPGを作らせていたので、同じプロンプトをQwen3.6-27Bに渡すとどうなるかなと試してみたら、ちゃんとRPGを作ってびっくりした。 こんな感じ。 壁のテクスチャやモンスターはJSで描画してる。3D描画もライブラリを使わず自前実装。 操作性などを修正してもらったけど、基本的には出てきたままです。 ここで遊べます。 https://kishida.github.io/webdemos/rpg/rpg.html ダンジョンズ&ドラゴンズ モンスター・マニュアル第4版 (ダンジョンズ&ドラゴンズ基本ルールブック)作者:マイク ミアルス,スティーヴン シューバート,ジェ…
2ヶ月前
記事のアイキャッチ画像
Qwen3.6やGemma 4に手書きのデザインを見せてゲームを作ってもらう
きしだのHatena
Qwen3.6は画像を読み取れるので、手描きでゲームデザイン書いたら作ってくれるかなぁと思って試してみました。 そしたら想像以上にちゃんと作ってくれたので、Gemma 4でも試したり、他のゲームつくったりやってみました。 結局Claudeさんに作ってもらったけど、Qwen3.6やGemma 4でも十分にゲーム作ってくれます。 安定感はなくて調整が多く必要だけど、指示も割とちゃんときいてくれるので、バグにハマらなければ結構いけます。 コードに関しては小さいゲームの範囲であればどちらも性能十分だけど、ゲームデザインや手書きの文字の読み取りなどはQwen3.6がいいです。特にデザインやゲーム的な処理…
2ヶ月前
記事のアイキャッチ画像
Qwen3.6-35B-A3Bの動作環境と設定、出力速度まとめ
きしだのHatena
Qwen3.6-35B-A3Bを動かしたときの量子化や設定、出力速度をまとめておきます。 Qwen3.6-35B-A3Bでコーディングエージェントを試してみる。小規模なら十分いける - きしだのHatena 基本はこの3環境 RTX 4060 Ti 16GB(+RTX 3050 6GB) M4 Pro 48GB M3 Ultra 512GB 量子化は4つ。メモリ使用量はLM Studioでの予測。 量子化 ファイル 4000tok 262K tok unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_XL 24.1GB 23.77GB 28.66GB unsloth/Qwen3…
2ヶ月前
記事のアイキャッチ画像
Qwen3.6-35B-A3Bでコーディングエージェントを試してみる。小規模なら十分いける
きしだのHatena
Qwen3.6-35B-A3Bが昨日出ていました。性能が高いといわれるQwen3.5-27Bをベンチマークで上回ってるということでコーディングエージェントを試したら、かなり実用的だった。 Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All JS版ブロック崩し、テトリス、Java版ブロック崩し、OpenCodeでSpring Boot版TODO管理、フレームワークなしWebTODO管理をやってもらいました。 コーディングエージェントでも、変更指示に適切に対応して、安定したコード操作で、gitでのコミットなども行って、セッションを新しくして…
2ヶ月前
記事のアイキャッチ画像
WebLLMやtransformer.jsでブラウザでLLMを動かして翻訳する
きしだのHatena
ブラウザ上でLLMを動かすのを試すために、翻訳用LLMでローカル翻訳やってみました。 ここで動かせます。 https://kishida.github.io/webdemos/translator/offline-translator.html Claudeのチャットで「webllmと軽量翻訳モデルを使ってオフライン翻訳を試したい」とすると、WebLLM+WebGPUでの概形をつくってくれたので、「LiquidAI/LFM2-350M-ENJP-MT に対応して」とするとtransformers.js+ONNXでも動くようにしてくれました。 LFM2-350M-ENJP-MTは350M(0.3…
2ヶ月前
記事のアイキャッチ画像
TranslateGemmaをLM Studioで翻訳サーバーにする
きしだのHatena
Gemma 3ベースの翻訳モデルTranslateGemmaが年明けに出ていたのだけど、設定が割と面倒なので動かさずにいたのを、ちょっと話題に出たので試してみた。 55言語対応で、4B、12B、27Bがある。4Bでも汎用12Bより翻訳性能が高い、という話。 TranslateGemma: A new family of open translation models たしかに、Gemma 4 E2B(5B)が誤訳したところでも、TranslateGemma 4Bは正しく訳していたし、Qwen3.5 4Bに比べてもちゃんと訳す印象。 チャットテンプレートが特殊なので面倒。 以前にPLaMo翻訳を…
3ヶ月前
記事のアイキャッチ画像
Gemma 4でうれしいのはシステムプロンプト厳守。チャット用モデルに最適かも
きしだのHatena
Gemma 4がリリースされていました。 ちょっと触る感じ、性能的にQwen3.5と比べると微妙かも、と思うのだけど、日本語表現力の高さは健在。そして、一番の特徴はシステムプロンプトを守るよう訓練されてるところだと思います。 モデルカードに次のような記述があります。 ネイティブ システム プロンプトのサポート - Gemma 4 では system ロールのネイティブ サポートが導入され、より構造化された制御可能な会話が可能になります Gemma 4 モデルカード | Google AI for Developers これは、システムプロンプト厳守を強く学習してるということです。 それでどうな…
3ヶ月前
記事のアイキャッチ画像
完全主観:ChatGPT、Gemini、Claudeに対応するオープンモデルは何か
きしだのHatena
オープンモデルの性能もあがってきて、フロンティアモデルと呼ばれる代表的なモデルとの比較もできるようになってきました。 ということで、フロンティアモデルに対応するオープンモデルを完全に主観で選んでみました。 フロンティアモデルの代表的なものはChatGPT(GPT)、Gemini、Claudeがあります。 それぞれの特徴として一番わかりやすいのがClaudeだと思います。コーディングが強いですね。 それとは逆で考えるとわかりやすいのがGeminiで、これはコーディングがフロンティアモデルとしては弱い。けれども、要約や表現は強いと思います。 で、残るのがChatGPTだけど、これは総合力が高いです…
3ヶ月前
記事のアイキャッチ画像
imatrix付きで量子化したGGUFを作るメモ
きしだのHatena
日本語を含んだファイルでimatrixを作ってGGUFを作ると日本語性能があがる。 必要な手順を全部まとめてるところがなかったので、ここにメモ 出力されたファイルはmodel.ggufのようなファイル名だったりするので都度適当に変更してる。 llama.cppのビルド clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp cmake -B build -DGGML_CUDA=ON cmake --build build --config Release とりあえずbf16でGGUF化 python convert_hf_to_…
3ヶ月前
記事のアイキャッチ画像
GGUFでのトークナイズを確認しやすくする
きしだのHatena
AIがどのようにトークナイズするかを確認するときに、OpenAIのトークナイザで確認していたのだけど、個別のモデルがどのようにトークナイズしてるかという話をするときには、ちゃんとそのモデルでのトークナイズを確認する必要があります。 llama.cppのllama-tokenizeコマンドで確認できるのだけど、いろいろな文章のトークナイズを確認したり、モデルのファイルがどこにあるかを探すのがめんどい。 ということで、ClaudeさんにUI作ってもらいました。 Pythonコードのソースはこちら。llama.cppが必要です。 https://gist.github.com/kishida/ce9…
3ヶ月前
記事のアイキャッチ画像
RakutenAI-3.0はDeepSeek V3に比べて新しい知識を持ち日本語が流暢でコードも書ける
きしだのHatena
RakutenAI-3.0はDeepSeek-V3の追加学習モデルでは、という噂があるので、Q4_K_MをLM Studioで動かして比べてみました。 RakutenAI-3.0はmmngaさん、DeepSeek-V3はUnslothさんのところのGGUFを使っています。 ※ https://ai.rakuten.co.jp/chat でのモデルは画像対応でもありRakutenAIではないようです。 ai.rakuten.co.jpで動いてるのはSonnet?->GPT系っぽい - きしだのHatena 知識の更新、日本語理解や表現の向上、コーディング能力の向上などが実際に確認できました。 D…
3ヶ月前
記事のアイキャッチ画像
Kimi-K2.5をおうちで動かして さくらのAI Engineと比べる。Roo Codeも問題ないけども…
きしだのHatena
さくらのAI EngineでKimi-K2.5を動かしたらとてもいい感じだったけどThinkingの挙動が使いづらいので、Mac Studio 512GBでUnslothさんのところのQ2_K_XLをLM Studioで動かして比べてみました。 Kimi-K2.5をさくらのAI Engineで試したら1Tパラメータの実力を感じた - きしだのHatena APIでのThinkingを見てみる APIがThinkingを分けてれるかどうかみてみます。 さくらさんのだと、本文としてThinkingが出て、途中に</think>が入ってます。 なのでRoo Codeがうまく動かなかったりしていました…
3ヶ月前
記事のアイキャッチ画像
業務システムでも保守運用より構築スピードが大切になっている
きしだのHatena
前回の続きというか、その背景。 3日50万円で作れるシステムに4ヵ月800万円かけれなくなっている - きしだのHatena 業務システムが効率化のためのものから事業をまわして売上や利益を生むためのものになっているので「システム構築の柔軟性やスピードへの要求が高まった」というのがあって「3日でできるものに4ヵ月かけるというのが受け入れにくく」ということになっています。 時間をかけて確実に作り切ってあとは保守運用というのではなく、速くつくって常に改善しつづけることが大切になっているわけです。 前のエントリで運用が、保守が、というコメントが結構ついてますが、SIの価値が運用や保守であるなら、どんど…
3ヶ月前