Zennの「大規模言語モデル」のフィード
フィード

Sakana AI「Fugu」正式リリース——マルチエージェントを1本のAPIとして届ける新プロダクト
Zennの「大規模言語モデル」のフィード
この記事について約2年前、Sakana AIが公開していた自然言語モデルを使って、商品名のクレンジングタスクを試した記事を書きました。https://zenn.dev/shintaroamaike/articles/fbfd7c0284c01a当時はまだ「面白いアプローチをする研究系スタートアップ」という印象でしたが、2026年6月22日に正式リリースされた「Sakana Fugu」を見ると、その成長ぶりに驚かされます。研究から商用プロダクトへ、そして「AIの使い方そのものを変えよう」というビジョンを持った会社に変貌していました。本記事では、公式情報をもとにFuguがどんなモ...
9時間前

弱いモデルのための足場が、賢いモデルの檻になる話
Zennの「大規模言語モデル」のフィード
この話は、ウルトラマラソンのトレーニング用に作った Intervals.icu × Stryd の MCP サーバ開発から出た話で、LLMに練習計画のレビューをさせていた。https://github.com/methylone/Intervals-MCP-Server-with-STRYD計画は順調に進んでいるか。オーバートレーニングの兆候はないか。安静時心拍、HRV、直近の運動量、主観疲労などを見ながら、次の練習をどう調整するか。そういう判断を、トレーニング理論と日々のデータから推論できないかと思った。最初は、判断をかなり if-then ルールに寄せていた。「安静時心拍が6...
9時間前

AIエージェント時代のSRE — 監視・評価・自律運用設計
Zennの「大規模言語モデル」のフィード
AIエージェントを「動かす」から「運用する」へ。タスク成功率やレイテンシをSLI/SLOに落とし、hallucination率を測り、Evalsで退行を止め、コストを監視し、ツール呼び出しの監査ログから可観測性を得て、人間の承認フローを設計し、multi-agent障害をポストモーテムにつなぐ。SREの実務をエージェント運用に翻訳した実践書。すべてのコード例は標準ライブラリのみで、ビルド時に実行検証している。
10時間前

ContractOps:契約オペレーションのためのサーバーレス・マルチエージェント基盤
Zennの「大規模言語モデル」のフィード
By Satoshi Imai; Finatext Ltd.何を支えるために作り,それをAWS上でどう実装し,その過程でたどり着いた設計思想は何だったのか.この記事はContractOps: A Serverless Multi-Agent System for Contract Operationsの公式日本語訳です. 契約は「生き物」である契約というと,一度締結したらファイルに綴じて終わり,という静的なイメージを持たれがちです.しかし実務における契約は,もっと動的でナマモノです.覚書で内容が変わり,期限が動き,新しいメンバーがプロジェクトに加わってキャッチアップが必要にな...
11時間前

ターミナルを閉じてもタスクが続くOpenCode、その正体はHTTPサーバー
Zennの「大規模言語モデル」のフィード
SSH越しにコーディングエージェントを走らせていて、回線が切れた瞬間に十数分かけた作業ごと消えた、という経験はないだろうか。あるいは特定のモデルに縛られたくないのに、ツールごとに使えるモデルが決め打ちされていて歯がゆい思いをしたことは。OpenCodeはこの2つの不満に、「エージェント本体は端末の中にいない」という設計で答えている。今もっとも勢いのある端末向けコーディングエージェントだが、人気の理由は見た目のかっこよさよりも、この内部構造にある。OpenCodeはターミナルで動くオープンソースのコーディングエージェントだ。ライセンスがMITであることはGitHubリポジトリのメタ情報(...
12時間前

LLMをチートみたいに使う ── 素人のまま“専門家の答え”を引き出す
Zennの「大規模言語モデル」のフィード
多くの人はLLMを検索窓のように扱う。そして「技術的には正しいけれど、当たり障りがなくて、読んだそばから忘れてしまう」答えに首をかしげる。理由はシンプルだ。雑な問いには、平均的な答えしか返らない。 これはモデルの欠陥ではなく、確率的に当然の挙動でしかない。ただし、この記事は直感だけで終わらせない。前半で比喩を使って現象を説明し、後半で研究によって実証されている範囲と、その境界線まで踏み込む。比喩はあくまで入口だ。 知識を一枚の地図だと思ってみる(比喩)モデルの知識を、一枚の地図だと想像してほしい。混み合った中心にあるのは、ありふれた・一般的・平均的な内容だ。雑なプロンプトは...
13時間前

Gemma 4をRTX 4070 12GBで実測した:12B/E4B/26BとQwen3/Phi-4を同一テストで比較
Zennの「大規模言語モデル」のフィード
Gemma 4が公開され、Ollamaでも12B・E4B・26Bを手元で試せるようになりました。そこで今回は、RTX 4070(VRAM 12GB)上で以下の5モデルを同じ条件で動かし、速度・VRAM・正解性を実測しました。Gemma 4 12BGemma 4 E4BQwen3 14BPhi-4-miniGemma 4 26B MoE検証課題は、以前クラウドモデルのClaude Opus 4.8 / Fable 5に投げたものと同じです。SemVer実装、ベイズ推定、画像読取を、同じ採点基準で比較しました。元記事はこちらです。この記事にも主要なグラフと検証スクリーンシ...
13時間前

スマホだけでAI脳になる! 未経験でもAIと作るローカルLLM ~基本のチャット構築編~
Zennの「大規模言語モデル」のフィード
プロローグ近年、スマートフォンのSoC(System on Chip)性能向上に伴い、クラウド(ChatGPTやGeminiのAPIなど)を介さず、スマートフォン端末内で完全に完結して動作する「ローカルLLM」の実装が現実味を帯びてきました。私自身、Androidのネイティブアプリ(Kotlin/Jetpack Compose)の開発経験は全くありませんでした。しかし今回、GoogleのローカルAI推論エンジンである LiteRT-LM(旧 TensorFlow Lite LLM Inference API) を使い、Android上で画像や音声に対応した「マルチモーダルローカル...
14時間前

検査がほぼ無料になった世界の品質保証 ― AI時代のQA設計と「コードは誰が書くか」
Zennの「大規模言語モデル」のフィード
理想のQAは、ずっと「虚構」だった品質保証(QA)と品質管理(QC)の教科書には、昔から「理想形」が書かれていた。全コードの網羅的レビュー、全モジュールへの高密度なレビュー・解析・テスト基準、常に最新で完全なトレーサビリティ、独立した多重検証。だが、それはほぼ常に 実現できなかった。理由は一つ、コストだ。人間の検査は時間も費用も高い。だから現場は妥協してきた——サンプリング、リスクベースの優先順位づけ、「許容できるカバレッジ」、監査の直前に再構築されるトレーサビリティ。つまり私たちが「QA」と呼んで実践してきたものは、理想そのものではなく、理想を労働予算に射影した近似 だった。...
14時間前

scikit-learnのMLパイプラインをLLMエージェントに自律実行させる:AutoML-Agentパターンの概念と実装入門
Zennの「大規模言語モデル」のフィード
AutoML-Agentパターンとは、LLMエージェントがReActループを通じてscikit-learnのMLパイプラインを自律的に実行し、データ探索・モデル選定・ハイパーパラメータ調整・評価を繰り返し行う実装パターンのことです。単発のLLM呼び出しではなく、ツールを使いながらループを回すことで、実データに基づいた試行錯誤を自動化できます。PoCや探索フェーズでの開発速度向上に特に有効なアプローチです。「このデータで一番良いモデルを選んでほしい」と指示したら、エージェントが自分でEDAをして、前処理の方針を決めて、3種類のモデルを試して、評価指標を比較して、「勾配ブースティングが最...
15時間前

AIは安くなっていない。単価が下がっているだけだ
Zennの「大規模言語モデル」のフィード
結論AIのトークン単価は確かに下がり続けている。だがあなたの請求額は下がっていないはずだ。むしろ増えている人が多いのではないか。これは矛盾ではない。単価が下がる裏で、1タスクあたりの消費トークンが構造的に増え続けているからだ。「安くなった」という感覚は罠で、その罠に賢い経営者ほど落ちている——2026年6月、AIコストが一斉に論点化したのはその証拠だ。この記事は、マクロのバブル論(OpenAIは赤字だ、業界は崩壊する)には深入りしない。それはもう語り尽くされている。代わりに、個人開発者がこの逆風をどう生き延びるかを、自分の運用データを開示しながら書く。 第1部: 何が起き...
15時間前

Claude APIのweb検索、消費済み結果をresponse_inclusionで応答から外す
Zennの「大規模言語モデル」のフィード
Claudeのweb検索ツールで調べ物をするエージェントを組むと、トークンの請求が思ったより速く伸びる。理由はわりと単純で、検索結果が一度きりの消費物ではないからだ。Anthropicのドキュメントによれば、会話中に取得した検索結果は入力トークンとして数えられ、しかも「同一ターン内の検索の反復でも、後続の会話ターンでも」カウントされる(Web search tool)。15〜20回検索するリサーチエージェントなら、一度引いた生の結果ブロックが応答に積まれ、次のターンでまた送り返され、と何度も課金対象になる。6月11日に出た更新は、この「積み上がり」をAPIレベルで削るための小さな、しか...
16時間前

ベクトル検索だけでは足りない ― BM25・RRF・ハイブリッド検索(第2回)
Zennの「大規模言語モデル」のフィード
!最先端AIを技術の中身まで読み解く「AIウォッチ」の連載(RAG 全10回・第2回)。初出は本サイトです。 → https://aiwatch-jp.pages.dev/rag-overview-02RAG を作ると、まずベクトル検索を入れたくなります。文章を embedding にして、近いものを探す。意味が似ている文書を拾える。キーワードが完全に一致しなくても、関連する断片を見つけられる。これはたしかに便利です。でも、ここで一つ大きな落とし穴があります。ベクトル検索は「意味が近いもの」を探すのは得意ですが、「まさにその文字列が入っているもの」を探すのは、いつも得意...
16時間前

チャット止まりを抜け出す。非エンジニアのためのClaude Skill入門
Zennの「大規模言語モデル」のフィード
はじめにこんにちは。株式会社MOCHITECでCTOをしている上田(@ryo_u27)です。Claudeに何か頼むとき、こんなことはないでしょうか。「この前と同じ感じで、議事録にして」。でも、"この前と同じ感じ"は、新しいチャットに伝わりません。だから毎回、見出しの順番、表にするか、空欄の書き方を、ひとつずつ説明し直すことになります。この「毎回おなじ説明」を、Claude側に一度だけ覚えさせておく。それが「Skill」です。社内でClaudeを使う人は増えました。ただ、多くはチャットで止まっていて、この一歩先をまだ使っていません。便利なのにもったいないので、社内の、とくにエン...
16時間前

AIエージェントに記憶を持たせると組織はどう変わるか:8体を6ヶ月実運用した観察記録
Zennの「大規模言語モデル」のフィード
はじめに私たちは、AIエージェント8体で構成された「組織」を6ヶ月以上運用しています。各エージェントには役割があり(統括、品質管理、コンテンツ制作、SNS運用、デザインなど)、Discord上で人間のオーナー1人と協働しながら、ブログ・SNS・Webサービスの運営を日次で回しています。cronジョブは約80本、日次の記事公開やデプロイは基本的にエージェントが実行します。この記事は技術解説というより観察記録です。AIエージェントに長期記憶を持たせる前と後で組織がどう変わったか、その過程で起きた事故、機能した仕組みとしなかった仕組みを、できるだけ正直に書きます。記憶の実装自体(Ma...
16時間前

本番エージェント、本当に「黙って壊れてない」? — 4軸で走査したら自分が50点だった
Zennの「大規模言語モデル」のフィード
前回の振り返り前回の記事では、エージェントが本番環境でひっそりと機能不全に陥る、そんな悲劇的なシナリオを物理的に回避する術をご紹介しました。前回の v0.2 記事では、具体的な4つの「黙って壊れる」場面と、それらを防ぐための実践的なパターンを実験的に示しました。では、その対策が本当に機能しているのか、どうやって確認すれば良いのでしょうか?今回は、そのパターンが満たされているかを100点満点で採点する CLI を実装しました。正直なところ、このCLIを開発した我々自身、まさか最初にその洗礼を受けるとは思いませんでしたが、最初に落ちたのがその CLI 自身だったのです。今回は、その衝...
17時間前

A2Aのエージェントカードで子エージェントを探して呼んでみる
Zennの「大規模言語モデル」のフィード
はじめに今回はA2Aプロトコルを利用した 「エージェントカードを検索するツール」 と 「依頼文を送るツール」 を用意し、エージェントがそれらのツールを使って各エージェントに依頼ができるかを確認してみます。!A2A関連の Microsoft.Agents.AI.A2A と A2A .NET SDK は、2026-06-22時点ではpreviewパッケージです。今後の更新でAPIや挙動が変わる可能性があります。この記事では内容を確認します。下記をエージェントから呼べるツールとして定義するA2Aプロトコルを利用したエージェントを検索する仕組み → AgentPool を用...
17時間前

AIスコアで選ぶ 今週のGitHub注目リポジトリ 10選(2026-06-22週)
Zennの「大規模言語モデル」のフィード
リード文(リライト版)毎週AIが自動集計・スコアリングしたGitHub上のAI系リポジトリランキングをお届けします。今週は教育向けRAGシステムの構築に関する「Happy-Chen-CH/Educational_RAG_System」がトップを獲得。業界の最新トレンドを反映した注目プロジェクトTOP10を紹介します。スコアはClaude APIによる独自評価(新規性・成長速度・実用性など7軸・100点満点)です。 今週のランキング順位リポジトリスコア1Happy-Chen-CH/Educational_RAG_System732omnigen...
18時間前

AIは何を覚え、何を忘れるべきか──Claude Codeのメモリ管理から考える
Zennの「大規模言語モデル」のフィード
はじめに:プロンプトの先にある「コンテキスト設計」AIに何かをさせるとき、私たちはつい「どう指示するか(プロンプト)」ばかりを考えがちです。けれど、実際に出力の質を決めているのは、その手前にある 「何を覚えさせ、何を忘れさせ、何を今この瞬間に見せるか」——つまりコンテキストの設計です。これは Context Engineering と呼ばれていて、プロンプトエンジニアリングより少し広い考え方です。プロンプトが「その一回の指示文をどう書くか」だとすると、コンテキストエンジニアリングは「モデルに、どの情報を・どの順番で・どれだけ渡すか」という、もう少し手前の設計の話になります。コー...
19時間前

プロンプト保存はもう限界?AgentFactoryが示す「コードで自己進化する」エージェント導入の是非
Zennの「大規模言語モデル」のフィード
はじめにルミナイR&Dチームの宮脇彰梧です。現在はマルチモーダルAIの研究を行う大学院生として、生成AIやAIエージェントの技術を実践的に探求しています。この記事で学べることエージェントの「記憶」をテキストではなく「コード」で保存する新しいパラダイムAgentFactoryが実現する3段階の自己進化プロセス(Install → Self-Evolve → Deploy)構築したサブエージェントを他のAIシステム(Claude Codeなど)に輸出して使い回す方法記事構成なぜこのテーマを選んだのか?この技術は採用すべき?技術の仕組みと関連調査実装・検...
19時間前