Zennの「大規模言語モデル」のフィード
フィード

新しい session を開くたびに、AI がまた他人になる日のために — Agent Memory を持続的コンテキストとして設計し直す
Zennの「大規模言語モデル」のフィード
はじめに本記事では、LLMアプリケーションやAgentシステムを構築する開発者に向けて、「なぜ現在のAIは記憶を保持できないのか」「なぜRAGや要約では不十分なのか」をシステムアーキテクチャの視点から解き明かす。そして、その場しのぎのパッチワークではなく、システム全体を支える「Memory Layer(記憶層)」をどのように設計すべきか、さらにはそのインフラストラクチャとして注目すべき設計思想について考察していく。 新しい session を開くたびに、AI が「初対面」に戻ってしまう問題AI AgentやCoding Assistantをヘビーに使い込んでいる開発者であれ...
8時間前

モデル評価にいつまでも人手を割けないチームへ — LLM-as-a-Judge論文から学ぶ“LLMでLLMを採点する”設計
Zennの「大規模言語モデル」のフィード
はじめにルミナイR&Dチームの栗原です。LLM アプリを作っていると、ほぼ必ずぶつかるのが 評価のコスト問題 です。新しいプロンプトやモデル設定を試すたびに、人手で比較するのは大変自動指標(BLEU / ROUGE / accuracy など)は、人間の好みをうまく反映しない本番環境では A/B テストもしたいけど、ログの読み解きにも時間がかかるそこで出てきたアイデアが LLM-as-a-Judge です。「強い LLM(例: GPT-4)に、別の LLM の出力を採点してもらえばよいのでは?」この発想を系統立てて検証した代表的な論文が、Lia...
10時間前

なぜ、Claude CodeのせいでIT業界はアニメ業界みたいになったのか?
2
Zennの「大規模言語モデル」のフィード
はじめにClaude CodeやCodexの登場によって、IT業界の開発現場は、単に「プログラミングが速くなった」だけでは説明できない構造変化を起こしています。重要なのは、AIが優秀なプログラマーを完全に代替したことではありません。むしろ、AIによって大量の「それっぽいコード」が短時間で返ってくるようになり、熟練者がそれを監修する構造が強まったことです。これは、アニメ業界における動画、第二原画、外注、作画監督、チーフ原画マンの関係にかなり近いものです。アニメ業界では、すべての絵をトップアニメーターが一枚ずつ描くわけではありません。大量の作業は外部や若手に渡され、返ってきたものを作...
11時間前

【Nishika 論文サク読み 第8回】PHOTON: 階層構造で長文脈LLM推論を高速化
Zennの「大規模言語モデル」のフィード
こんにちは。NishikaでAIエンジニアとしてインターンをしている渡邊です。今回は、普段業務でも検証で様々なLLMを使っているなかでメモリバウンドの問題にはよく直面していたので、その構造的なボトルネックに切り込んだ論文をpickしてみました。簡単に紹介できればと思います。 論文タイトル: PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation出典: arXiv:2512.20687組織: 富士通株式会社 / 理研AIPセ...
11時間前

ローカルLLMって本当に開発に使える?(3)aiderを試してみる
Zennの「大規模言語モデル」のフィード
!この記事の対象プロジェクトM2DX — iOS/macOS 向け MIDI 2.0 対応 DX7 互換 FM シンセサイザーアプリ。TestFlight 公開ベータ で試せるM2DX-Core — M2DX の DX7 互換エンジン部分。Pure Swift、Apache 2.0 で OSS 公開: github.com/hakaru/M2DX-CoreMIDI2Kit — M2DX-Core が依存する Swift 製 MIDI 2.0 ライブラリ。SysEx の受信・バッファ管理・UMP デコードを担う。本記事では「上流ライブラリがどこまで守っているか」を検証する...
12時間前

Cursor の Agent から RubyDex を使う - MCP 経由でコード構造を直接クエリする
Zennの「大規模言語モデル」のフィード
はじめにRubyKaigi 2026 で Shopify の Alexandre Terrasa さんによる 「Blazing-fast Code Indexing for Smarter Ruby Tools」 という発表がありました。RubyLSP・Tapioca・Spoom への統合で、最大 10 倍の高速化と半分以下のメモリ使用量を実現する Rust 製の Ruby コードインデクサー、RubyDex の話です。気になったのは、これを Cursor の Agent から MCP 経由で叩けたらどうなるか、というところでした。普段 Rails モノリスを触っていると、Cur...
19時間前

同じプロンプトなのに毎回答えが変わる——LLMの非決定性という落とし穴
Zennの「大規模言語モデル」のフィード
AI Agentが流行りのワードになって久しいですが、実際に開発しているとその核となるLLMには厄介な性質があることに気づきます。それが「非決定性」、つまり全く同じ入力を与えても出力が変化する性質です。この記事では、そんな非決定性について紐解きつつ、私が開発する中で実際に行なっている対処法を紹介します。 まずは結論からLLMには決定性がないため、全く同じプロンプトとパラメータを与えても実行するたびに出力が変わります。出力させる内容が複雑であればあるほど揺らぎが大きくなるため、何か見逃してはいけない問題を見つけるためのレビューを行わせるといった使い方では注意が必要です。出力の...
21時間前

教育のライフサイクルを支えるAIエージェント入門:学校現場での設定から活用まで
Zennの「大規模言語モデル」のフィード
!この記事は日本語と英語のバイリンガル形式で書かれています。各セクションに日本語・英語の両方を掲載しています。This article is written in bilingual format (Japanese and English). Each section is presented in both languages. はじめに|Introduction 🇯🇵 日本語「AIを授業に使ってみたい」と思っている先生は増えています。しかし、ChatGPTにひとつ質問して終わり、というような使い方では、AIの本当の力はまだ引き出せていません。AIエージェント(A...
21時間前

【MultiRoleChat】8つのLLMに同じ問題を同時に解かせたら、正確さより速さの差が面白かった
Zennの「大規模言語モデル」のフィード
はじめに複数のLLMを使い分けているうちに「同じ問題を一斉に投げたらどうなるか」が気になりました。モデル比較記事はよく見るのですが、同一条件・同一問題・並列実行でやったものが少ないと感じていたので、自作ツールで試してみました。8つのLLMに同じ問題セット(20問)を並列で解かせた正解率は全体的に高く、差が出たのは応答速度だった「fast」を名乗るモデルが速度で下位に沈む逆転劇もあった 1. 実験環境 使ったツール自作の MultiRoleChat.py(Python)。各LLMのAPIを並列呼び出しし、応答が返ってきた順に表示するツールです。quiz mult...
1日前

DeepSeek-V4が出た——100万トークンが「標準装備」になる時代の話
Zennの「大規模言語モデル」のフィード
これ、ずっと言いたかったんですが。オープンソースのLLMって、ここ1年で「使い物になる」から「選択肢として本気で検討できる」に変わってきてるんですよね。その流れを一段階押し進めたのが、2026年4月24日にプレビュー公開されたDeepSeek-V4です。正直に書きます。100万トークンのコンテキストウィンドウをオープンソースで、しかもAPIのデフォルトとして出してきた——これだけで、けっこう大きい話だと思っています。 何が出たのかDeepSeek-V4はProとFlashの2モデル構成です。V4-Proは総パラメータ1.6兆、アクティブパラメータ49B。公式ベンチマークで...
1日前

AIワークフローのテストケースを作る:golden case / regression / incident replay
Zennの「大規模言語モデル」のフィード
はじめにLLM や AI エージェントを本番に入れるとき、どうテストするかはとても悩ましいですね。普通の関数なら、入力と出力を比較できます。expect(add(1, 2)).toBe(3);しかし、LLM アプリケーションでは、出力は主に自然言語です。同じ入力でも、表現が少し変わることがあります。モデルや prompt template を変えると、文章も変わります。RAG の検索結果や policy version によって、挙動も変わります。そのため、AI ワークフローをテストしようとすると、つい次のような話になりがちです。生成文が期待通りかhalluci...
1日前

Claude CoworkをAmazon Bedrock 経由で使ってみた
Zennの「大規模言語モデル」のフィード
はじめにFusicのレオナです。Anthropicのデスクトップアプリ「Claude Desktop」で、推論バックエンドに Amazon Bedrock を利用できる Claude Cowork in Amazon Bedrock が発表されました。Claude Code がエンジニア向けのCLIツールであるのに対し、Claude Cowork はチャットUIベースで非エンジニアでも扱いやすいデスクトップアプリです。本ブログではClaude DesktopからAmazon Bedrockを推論バックエンドに設定する手順を試してみます。 Amazon Bedrock とは...
1日前

LLMとは何か、を有限列挙で証明する:Layer-0 機能必然性定理 v3.0 公開
Zennの「大規模言語モデル」のフィード
LLMとは何か、を有限列挙で証明する:Layer-0 機能必然性定理 v3.0 公開現代のLarge Language Modelは、6つの機能役割を必ず実装する。1つでも、その機能等価物まで含めて欠ければ、それはもうLLMではない。これを定義公理と有限全列挙で証明し、コマンド一発で再現可能にしたパッケージを公開した。GitHub:gatchimuchio/LLM-Layer-0-Functional-Compliance-SpecificationZenodo (v3.0):10.5281/zenodo.19826582ライセンス:コードはMIT、ドキュメントはCC-...
1日前

MTP(Multi-Token Prediction)の系譜とメカニズムを徹底解説
Zennの「大規模言語モデル」のフィード
0. はじめに:なぜこの記事を書いたのか最近、界隈で噂になっているQwen 3.6 27BのDenseモデルをDGX Spark環境で試してみました。しかし、実際に動かしてみるとどうしても推論スピードが遅く、実運用に向けてネックを感じていました。そこで高速化の手法を色々調べてみたところ、「MTP(Multi-Token Prediction)を組み込むと推論が速くなるらしい」という情報に行き着きました。MTPといえば、大きな話題を呼んだDeepSeek-V3やR1などのモデルアーキテクチャでもコア技術として採用されています。本記事では、自分自身の学習と備忘録を兼ねて、このMTP(...
1日前

AIはなぜ間違った投資判断をするのか|投資エージェント実験の出発点
Zennの「大規模言語モデル」のフィード
導入|AIは本当に投資判断できるのか?LLMは「物事を理解しているAI」ではなく、「次に来る言葉を予測するAI」です。それでも、ニュースを読むことができ、企業情報を整理した上で、それっぽい投資判断を出すことはできます。しかしここで1つ疑問があります。LLMが出力したその判断は、本当に正しいのでしょうか?株式投資では、判断を間違えればそのまま損失につながります。「それっぽい判断」では通用しない世界です。一方でLLMは、過去のデータからそれらしい答えを生成しているに過ぎません。それが正しいかどうかは、別の話です。本記事では、シンプルな投資エージェントを構築し、AIがどのよ...
1日前

ローカルLLM|Minecraft自律|踏んだバグ7種
Zennの「大規模言語モデル」のフィード
2026年5月時点の検証内容です。Paper 1.20.1 build 196, mineflayer 4.25, llama.cpp v8870, gemma-4-E4B-it-Q4_K_M, Windows 11 + WSL2 Ubuntu 24.04 環境で検証しています。ローカル LLM Agent を Minecraft 操作タスクに持ち込むと、推論性能ではなく物理層の状態同期で壊れる。Hermes Agent Creative Hackathon (Nous Research × Kimi, 2026-04) で組んだ 3-role 構成を mineflayer + 決定論...
1日前

RHyVE:LLM生成報酬は「いつ」使えるのか?能力感知検証で解く展開問題
Zennの「大規模言語モデル」のフィード
はじめにLLMの強化学習(RLVR)では、人間が報酬関数を設計する代わりに、LLM自身に報酬を生成させるアプローチが主流になりつつある。だが、LLMが生成した報酬は本当に信頼できるのか?——という根本的な問いに対して、これまでの研究はほぼ目を背けてきた。既存のアプローチは「どう報酬候補を生成するか」「どの報酬候補を選ぶか」に注力する一方で、**「いつその報酬を展開する(使う)べきか」**という展開タイミングの問題を放置してきた。Feiyu WuらがarXivに投稿した論文 "RHyVE" は、この盲点を衝く。本稿では、RHyVEがどのように報酬生成問題を**「生成」と「展開」の...
1日前

BookRAGの内部アルゴリズムを解説する
Zennの「大規模言語モデル」のフィード
はじめに皆さんこんにちは。情報工学系男子です。最近、RAGがアツいらしいです。アツいRAG、みんな大好きRAGの中で、ひときわ輝いていたこの論文 BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents をご存じでしょうか。RAGをご存じない方は 【生成AI入門】「RAG」をできるだけわかりやすく解説してみる などを読んでみるとよいと思います。BookRAGの大まかな概要は RAGで非構造データを整理す...
1日前

AI活用の自己申告をAIで一次チェックする証左判定機構を作った話
Zennの「大規模言語モデル」のフィード
TL;DR社内横断でAI活用度を評価するプロジェクトを運営していると、自己申告の内容を裏付ける「証左」の確認が重くなります。数十の対象組織が、十数個の評価項目について自己申告する。さらに高いレベルを申告した項目については、スライド、ドキュメント、スクリーンショット、動画、URLなどの証左を確認する必要がある。これをすべて人間が精読する運用は、すぐに限界が来ます。この記事は、プロジェクト情報をSSOTとして整理してAIが働きやすい状態を作る話の次のステップとして、整理した評価基準を実行可能な判定パイプラインに載せた実装メモです。https://zenn.dev/yukamiya...
1日前

人間とは、本当にパターンマッチ機械にすぎないのか
Zennの「大規模言語モデル」のフィード
LLMは、ヒュームの亡霊を呼び戻した──ただし、ヒュームを証明したわけではないLLMの登場以後、ソフトウェアエンジニアのあいだで、こんな物言いが定着しつつある。LLMを見ていると、人間の知性も結局はパターンマッチなんだと分かる。軽口めいて発される一言だが、軽くはない。これは工学的観察ではない。形而上学的立場の表明であり、David Humeが二百数十年前に書きつけた認識論的懐疑へと、まっすぐ接続している。本稿の主張はこうだ。LLMはヒュームの亡霊を呼び戻した。ただし、ヒュームを証明したわけではない。この一線を見失った瞬間、AI論はいつのまにか粗雑な人間論に化ける。...
1日前