きしだのHatena
https://nowokay.hatenablog.com/
きしだのHatena
フィード

imatrix付きで量子化したGGUFを作るメモ
1
きしだのHatena
日本語を含んだファイルでimatrixを作ってGGUFを作ると日本語性能があがる。 必要な手順を全部まとめてるところがなかったので、ここにメモ 出力されたファイルはmodel.ggufのようなファイル名だったりするので都度適当に変更してる。 llama.cppのビルド clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp cmake -B build -DGGML_CUDA=ON cmake --build build --config Release とりあえずbf16でGGUF化 python convert_hf_to_…
2日前

GGUFでのトークナイズを確認しやすくする
きしだのHatena
AIがどのようにトークナイズするかを確認するときに、OpenAIのトークナイザで確認していたのだけど、個別のモデルがどのようにトークナイズしてるかという話をするときには、ちゃんとそのモデルでのトークナイズを確認する必要があります。 llama.cppのllama-tokenizeコマンドで確認できるのだけど、いろいろな文章のトークナイズを確認したり、モデルのファイルがどこにあるかを探すのがめんどい。 ということで、ClaudeさんにUI作ってもらいました。 Pythonコードのソースはこちら。llama.cppが必要です。 https://gist.github.com/kishida/ce9…
3日前

RakutenAI-3.0はDeepSeek V3に比べて新しい知識を持ち日本語が流暢でコードも書ける
64
きしだのHatena
RakutenAI-3.0はDeepSeek-V3の追加学習モデルでは、という噂があるので、Q4_K_MをLM Studioで動かして比べてみました。 RakutenAI-3.0はmmngaさん、DeepSeek-V3はUnslothさんのところのGGUFを使っています。 ※ https://ai.rakuten.co.jp/chat でのモデルは画像対応でもありRakutenAIではないようです。 ai.rakuten.co.jpで動いてるのはSonnet?->GPT系っぽい - きしだのHatena 知識の更新、日本語理解や表現の向上、コーディング能力の向上などが実際に確認できました。 D…
5日前

Kimi-K2.5をおうちで動かして さくらのAI Engineと比べる。Roo Codeも問題ないけども…
きしだのHatena
さくらのAI EngineでKimi-K2.5を動かしたらとてもいい感じだったけどThinkingの挙動が使いづらいので、Mac Studio 512GBでUnslothさんのところのQ2_K_XLをLM Studioで動かして比べてみました。 Kimi-K2.5をさくらのAI Engineで試したら1Tパラメータの実力を感じた - きしだのHatena APIでのThinkingを見てみる APIがThinkingを分けてれるかどうかみてみます。 さくらさんのだと、本文としてThinkingが出て、途中に</think>が入ってます。 なのでRoo Codeがうまく動かなかったりしていました…
6日前

業務システムでも保守運用より構築スピードが大切になっている
きしだのHatena
前回の続きというか、その背景。 3日50万円で作れるシステムに4ヵ月800万円かけれなくなっている - きしだのHatena 業務システムが効率化のためのものから事業をまわして売上や利益を生むためのものになっているので「システム構築の柔軟性やスピードへの要求が高まった」というのがあって「3日でできるものに4ヵ月かけるというのが受け入れにくく」ということになっています。 時間をかけて確実に作り切ってあとは保守運用というのではなく、速くつくって常に改善しつづけることが大切になっているわけです。 前のエントリで運用が、保守が、というコメントが結構ついてますが、SIの価値が運用や保守であるなら、どんど…
8日前

Kimi-K2.5をさくらのAI Engineで試したら1Tパラメータの実力を感じた
きしだのHatena
Kimi K2.5が「さくらのAI Engine」でパブリックプレビューとして使えるようになっていたので試してみました。 さくらのAI Engineにてマルチモーダルモデル「Kimi-K2.5」のパブリックプレビューを開始しました | さくらのクラウドニュース Thinkingの問題があって使いにくい面はありますが、性能的にはかなり高いです。さすが1Tトークン。 コーディングはGLM-5のほうがよさそうではある。 Thinkingについてはなんらか対処してほしいところ。 ※ 3/25 対策されて、Open WebUIやOpenCodeでは問題なくなりました。Roo Codeに関しては調査中との…
9日前

3日50万円で作れるシステムに4ヵ月800万円かけれなくなっている
きしだのHatena
SIerに発注したら4ヵ月800万円という見積もりだったものをAI駆使してつくったら3日で50万円でできた、という話が話題になってました。 そこで、SIerでは作るものをちゃんと保証したりしていて文書化は大切である、みたいな指摘が入ってたりした。 でも、よく考えると、それって外注-受託において、作ると言ったものをちゃんと作ってもらったり、作ると言って作ったものにちゃんとお金を払ってもらったりするための、SI構造を維持するためのコストだったりします。 いまAIは、「800万の見積もりのものが3日でできた」ということ以上に、社会構造を変えようとしています。 そうすると、そんな変化の中で、800万円…
9日前

独自LLMを作るには事業会社なら10兆円企業が必要?
きしだのHatena
楽天がRakutenAI-3.0を出しましたが、DeepSeek V3アーキテクチャモデルの追加学習モデルのようで、ちょっとそこが話題になってましたね。見せ方の問題もあって、フルスクラッチではないのかと。 https://huggingface.co/Rakuten/RakutenAI-3.0 一応、非公開ではあるけどベースモデルがあることは否定してない模様。 楽天の最新AI、ベースは“中国DeepSeek製”? 担当者に聞いた(1/2 ページ) - ITmedia AI+ で、気になったので、フルスクラッチで独自LLMを作れる企業の規模はどんなものか調べてみました。 日本でフルスクラッチで作…
10日前

Nemotron 3 Nano 4Bを試す。Qwen3.5やQwen3のほうがいいかも
きしだのHatena
Nemotron 3 Nano 4Bというのが出ていたので、Q8_0で試してみます。 Nemotron 3 Nano 4B: A Compact Hybrid Model for Efficient Local AI 結論でいうと、Qwen3-4BやQwen3.5-4Bよりいい点はあまり見当たりませんでした。 知識カットオフは? 2024-6っぽいけど、なかなか・・・ 「きしだ」というのはあってそうだけど、 Qwen3.5-4Bは、石破さんは102代だけどだいたいあってて、知識も新しい。 Qwen3-4Bは読み方以外は正しい。知識はちょい古い。 日本知識 どこのことを言ってる? Qwen3.5…
11日前

ai.rakuten.co.jpで動いてるのはSonnet?->GPT系っぽい
きしだのHatena
楽天からRakutenAI-3.0がApache 2.0ライセンスで公開されていました。DeepSeek V3アーキテクチャの671B-A37Bのモデルです。 https://huggingface.co/Rakuten/RakutenAI-3.0 ということで、とりあえずai.rakutenで試してみようと思ったのですね。自社のフラグシップモデルを使ってるだろうと思って。 https://ai.rakuten.co.jp/chat で、ブロック崩しを作ってもらったら、こういうきれいなブロック崩しを作ってきました。 パーティクルだけ後付け。 「おぉすごい」と思ったのだけど、いろいろ試すと、ちょ…
12日前

Nemotron 3 Superを試す。コードは堅実に書ける。
きしだのHatena
NVIDIAからNemotron 3シリーズの中間サイズ、Superが出ました。120B-A12Bです。 100万トークン対応なのだけど、100万トークン設定でも96GBしか使わない。MoEとMambaのおかげかな。 要約が残念だったり、日本語の扱いは30BのNemotron 3 Nanoのほうがいい気がする。 NVIDIAのLLM、Nemotron 3 Nanoは賢いけどコーディングには向かないかも。Mamba 2の特性が悪く出てる? - きしだのHatena コードはちゃんと書きます。型エラーも出していない。あと、サーバーを実装したらcurlで動作確認をちゃんとやったりします。けど、HTM…
16日前

Windowsのターミナルからエクスプローラーをカレントディレクトリで開く
きしだのHatena
右クリックのメニューにエクスプローラーを開くメニュー欲しいよーと思ってたら「explorer .」で開けた、と書いてたらいろいろ情報が集まったのでまとめます。よいインターネッツだ。 コマンドプロンプト まずコマンドプロンプト。 explorer . explorerコマンドが使える。 そして、「start .」でもいける start . ちなみに今回紹介するコマンドはどれもファイルを指定すると紐づけられたアプリケーションで開く。次のようにhtmlを指定するとブラウザが開く explorer test.html PowerShell WindowsにはPowerShellもある explorer…
17日前

gpt-oss-20bでRoo Codeを動かす
きしだのHatena
前回のQwen3.5でコーディングを試したときに、gpt-oss-20bをRoo Codeで使うときのやりかたで、これどうかなとブックマークコメントに書かれてたので試したら、Roo Code使えるようになりました。 Qwen3.5の中規模モデル(122B/35B/27B/9B)をコーディングエージェントで試してみる - きしだのHatena これです。 GPT-OSS 20B with Cline and Roo Code :: Alde's Blog 構文定義ファイルとして次のようなものを用意して、cline.gbnfとして保存します。 root ::= analysis? start fi…
18日前

Qwen3.5の中規模モデル(122B/35B/27B/9B)をコーディングエージェントで試してみる
きしだのHatena
Qwen3.5の中規模モデル(122B/35B/27B/9B)をコーディングエージェントで試してみます。 結論としては、122Bは使える、27Bはなんとか、35Bはストレスに耐えながら、9Bは全然むり、という感じ。 27Bは修正で関係ないところを壊す、35Bは修正として関係ない作業をする、9Bはコンパイル通るコードを書けなかった。 Qwen3.5シリーズの全体的に、395Bまで含め、難しいコードや問題特定は不得意だけど、サイズ相応にそこそこコーディングにも使える、というところ。 ただ、どのモデルもOpenCodeで問題なく動いていて、エージェント対応は完璧です。 コーディング以外だとどのモデル…
21日前

Qwen3.5の小規模モデル(4B / 2B / 0.8B)がいろいろ使えてすごい
きしだのHatena
Qwen3.5の小規模モデル、4B / 2B / 0.8Bについて試してみます。 画像認識精度の高さもあって、かなり便利に使えそうです。 LM Studio CommunityのGGUFで、Q4_K_Mを試しています。0.8BについてはQ8_0。 画像エンコーダーの影響で2BはQ4_K_MとQ8_0のサイズがあまり変わらないので、Q8_0で試してもよかった。 (9Bに関しては別枠で) Thinkingのオフ 今回、コーディング以外ではThinkingをオフにしてます。 LM Studioで動かす場合だと、35Bと9BはThinkingのON/OFFに対応したモデルが出てるけど、それ以外はプロン…
1ヶ月前

Qwen3.5-397B-A17Bのコーディングを試す。型の扱いは苦手だけど安定感がある
きしだのHatena
Qwen3.5-397B-A17BのUnsloth版Q4_K_MをMac Studio 512GBで試しています。 今回はコーディングについて。 一般性能はこちら。 Qwen3.5-397B-A17Bを試す。日本知識が細かくOCR性能も高く実用的~一般性能編~ - きしだのHatena コードはひととおり書けて安定感はあるけど型や精度の扱いに弱いという感じです。 日常的なコーディング作業なら問題なくこなせそう。 とくに、画像認識との組み合わせができるのも強い。 ブロック崩し ではブロック崩し。 HTML+JS まずHTML+JS版。一発完動で、修正としてパーティクルを出してもらっても問題なく動…
1ヶ月前

Qwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで21tok/secで動かす
きしだのHatena
試しにQwen3-Coder-Next 80BのQ4_K_MをRTX 4060 Ti 16GBで動かしてみたら、21tok/secと実用的な速度がでました。 Qwen3 Nextはアクティブ3Bなので、CPUで動かしてもそれなりの速度が出るはずです。 重いのはアテンションの処理なので、そこはGPUで動かして、FFNだけCPUに任せましょうというのが基本的な考え方。ここで詳しく解説してます。 CPUが得意なことをCPUにまかせて少ないVRAMでも大きめのLLMを速く動かす - きしだのHatena LM Studioでも8月くらいに出来るようになってました。 GPUメモリ4GBあればGPT-os…
1ヶ月前

Qwen3.5-397B-A17Bを試す。日本知識が細かくOCR性能も高く実用的~一般性能編~
きしだのHatena
Qwen3.5-397B-A17Bを手元で試してみました。 397Bで、アクティブ17BのMoEモデルでライセンスはApache 2.0です。 Qwen3.5-397B-A17Bは、Qwen3-Nextと同様にGated DeltaNetworkを使った線形アテンションなモデルです。なのでちょっと不安があったけど、かなりいい感じ。 Qwen3-Nextが2025年9月リリースだったことを考えると、その知見を活かしながら、ある程度並行で開発を行ったんじゃなかろうか。 Mac Studio 512GBでLM Studio、UnslothさんのところのQ4_K_Mを使って試します。 unsloth/…
1ヶ月前

Qwen3.5-397B-A17BのThinkingを抑制する
きしだのHatena
Qwen3.5-397B-A17B、賢くていいですね。常用していいんじゃないかと思うくらいなんだけど、「今日は何日?」と聞くだけで3分考え込んでたり、思考が長すぎて使えないってなります。 「今日は5月23日、いやほんとに正しいか?ダブルチェックだ。5月23日。OK。しかしユーザーは曜日を求めてるのでは?令和で答えたほうが?もっと丁寧に?いやこれは丁寧すぎるのでは?ほんとに日付を求めてるのか?そして日付は正しいか?」みたいに延々と考えてます。 あと2024年5月23日あたりと2026年カットオフという情報をもってるようで、その間で葛藤したりもしますね。 ただ、公式だと「思考」と「高速」を選べるの…
1ヶ月前

ブラウザがGPUメモリを使いすぎるので、サブGPUのRTX3050を使わせる
きしだのHatena
30BくらいまでのLLMはRTX 4060 Ti 16GBを使っていろいろ試すわけですが、ブラウザが4GBくらいGPUを使ったりしていて結構こまりものでした。 で、年末にふとRTX 3050を買っていて、LLM読み込みであふれた分が3050にまわるようにしていました。 VRAMちょい足しにRTX 3050 6GBを追加してみる - きしだのHatena けど、よく考えるとブラウザにRTX 4060 Tiを使わせる理由があまりないので、RTX 3050を使わせるといいのでは、と設定をしてみました。 ブラウザは常駐でそこまでGPU性能を求めないのに常にGPUメモリを使ってるので。 「システム > …
1ヶ月前

コーディングエージェントがブレなくコードを生成できるプロンプトが大切
きしだのHatena
コーディングエージェントはもはや当たり前になってきています。エージェントにコードを作らせるとき、ブレなくコードを生成できるプロンプトを作るのが大事です。 ここでプロンプトには、AGENT.mdなどのファイルも含みます。 コンテキストに乗るもの全てなので、実際にはコンテキストをちゃんと健全に保つことが大事ということになるのですが、入力プロンプトが中でも重要なのでここではプロンプトとしておきます。 最初に与える設計などの情報をちゃんと作るのはもちろんのこと、途中の指示も「この機能いれて」「やっぱこうしよう」「ここは不要だった」のように機能を入れたり削ったり変えたりしていると、エージェントだけではな…
1ヶ月前

Step 3.5 Flashはコードは書けるが不具合対応が下手すぎる
きしだのHatena
Step 3.5 FlashはStepFun AIが開発した196B アクティブ11Bのモデルです。 ここで試せます。 https://stepfun.ai/ 公式サイトで生成がめちゃ速い。 ここではStepFun自身が出しているQ4_K_SをMac Studio 512GBで試しています。 llama.cppではb7964でサポートされていますが、LM Studioのllama.cppはb7950なので、llama.cppを直接使って試しています。 https://github.com/ggml-org/llama.cpp/pull/19283 ローカルでも53tok/secです。 コードは…
1ヶ月前

MiniMax M2.5は日本語があいかわらずダメ
きしだのHatena
MiniMax M2.5も来てました。 https://agent.minimax.io/ 日本語どうなったかなと、異世界小説を作らせてみたら、やっぱダメ 「日本語出るじゃん?」ってなったら、それはGemini 3.0 Proが動いてると思います。 ということで、あとは気がむいたらやる。 終了 LLMの原理、RAG・エージェント開発から読み解く コンテキストエンジニアリング (エンジニア選書)作者:蒲生 弘郷技術評論社Amazon
2ヶ月前

GLM-5の性能がすごい。大手商用モデルに追いついてきた。
きしだのHatena
GLM-5が出ていたので、公式サイトで試してみました。 https://chat.z.ai/ ちょっと触った感じ、かなり賢く、複雑なコードも書け、日本語もうまく表現力が高いです。 これは大手の商用モデルに追いついてきているように思います。 公式ブログはこちら。 https://z.ai/blog/glm-5 問題は、モデルがオープン化されるのかどうか、というところ。 ウェイトも公開されています。744B-A40Bの模様(2:45追記) https://huggingface.co/zai-org/GLM-5 パストレーシング 「HTML+JSでパストレーシングを作って」で、エラーを一回出しただ…
2ヶ月前

LongCat-Flash-Thinking-2601は日本語が得意
きしだのHatena
MeituanのLongCat-Flashのフラグシップモデル。 総パラメータは562Bで、アクティブパラメータが19B-32Bの可変で平均27B。 Mac Studio 512GBでMLX 4bitを試します。 日本語がかなりうまく、そのために使ってもよさそう。 ただ、562Bで重いので、おうちエージェントに使うには厳しい。コードもなんか変なミスをしていた。 Liteの紹介はこちら。 LongCat-Flash-Lite 70Bなら64GB Macで動くし速いがエージェント未対応 - きしだのHatena 小説を作ってもらう 小説をつくってほしい。勇者が力に目覚めて、魔王に捕らえられた姫を助…
2ヶ月前

LongCat-Flash-Lite 70Bなら64GB Macで動くし速いがエージェント未対応
きしだのHatena
LongCat-Flash-Liteは、Uber Eats的な会社、Meituan(美団)が1/30くらいに出した68.5Bでアクティブ3Bのモデルです。ライセンスはMIT。 ということでMac Studio 512GBのLM StudioでMLX 4bitを試したのだけど、速くて日本語表現はかなりいいしコードもちょっと書けるけどコーディングエージェントでは使えなかった。残念。 562BのThinkingの紹介はこちら LongCat-Flash-Thinking-2601は日本語が得意 - きしだのHatena まずは異世界もの小説を作ってもらう 異世界もの作ってもらいます。速い。80tok…
2ヶ月前

VRAM96GB(Unified memory 128GB)でどのLLMが使えるか
きしだのHatena
VRAM96GBが使える環境が増えてきていますね。そんな中、どのLLMを使うのがいいか考えてみます。 候補としては、gpt-oss-120b、GLM-4.6V、Qwen3-Coder-Nextがあります。 で、まあ、安定性のgpt-oss、汎用性のGLM、複雑なコードはQwen3、という感じで使いわけがいいんではないかと。 常用チャットは画像対応のGLM-4.6Vかな。 ※ Llama4 ScoutやQwen3-Nextもありますが、Llama4 Scoutは少し古くて性能が劣るのと、Qwen3-NextはQwen3-Coder-Nextとかぶるので挙げていません。 ※ LongCat-Fla…
2ヶ月前

Qwen3-Coder-Next 80Bがコード書けるけど失敗の質が悪すぎてダメな理由をアーキテクチャから見てみる
きしだのHatena
Qwen3-Coder-Nextが出ていますね。 Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding Qwen3-Next 80B-A3Bをベースにしたコーディングモデルです。80Bで、Activeパラメータは3Bということで、かなり軽快に動きます。 しかし、元になるQwen3-Nextでは一発のコードはかけるものの やりとりすると弱く、あまりコードは書かせれないなと思っていたので、同じアーキテクチャならちょっと不安が。Qwen3-Nextは線形アテンションを取り入れてるけど、コーディングには向かないんじゃなかろうか、…
2ヶ月前

原神広告依頼を装ってアカウントを奪う詐欺
きしだのHatena
こういうDMが来てたんだけど、怪しいし原神とか一回も触れたことないのにこんな投稿しても違和感しかないのでスルーしてた。 どうやら詐欺っぽいということで、試しに返事を返してみたら、こういうリンク付きの返事が。 ちなみに、返事の内容は見てなくて勝手にストーリーが進む系のDMスパムっぽい。 twitter. centerというドメインがダメですね。 リンクを踏むとこういう画面。ここで「Googleでログイン」を押すと「間違い。もう一度試してください。」と出る。 なので、ユーザー名を入力することになる。ユーザー名を入力して「次へ」を押すとパスワード入力へ。 一度は必ず失敗して、二度目の入力で電話番号を…
2ヶ月前

Oracleのソートアルゴリズムの特許が切れていたのでClaudeさんに実装してもらった
きしだのHatena
OracleがもっていたソートアルゴリズムのUS7680791B2特許が昨年11月28日で期限切れとなり開放されました。 US7680791B2 - Method for sorting data using common prefix bytes - Google Patents この記事で紹介されていた。 Expired Oracle Patent Opens Fast Sorting Algorithm to Open Source Databases - InfoQ この記事で、「特許が詳細なのでAIに入れたらすぐ実装できる」みたいなことを書いてあったので、試しにClaudeさんに渡し…
2ヶ月前