Zennの「LLM」のフィード

フィード

記事のアイキャッチ画像
【実例付き】オレオレ! MCP Server デザインパターン【汎用Agentへの熟練知のプラグイン】
Zennの「LLM」のフィード
!2025/7/24のイベント「MCPは当たり前になるのか? 〜流行から普及への可能性〜」での発表スライドを大きく加筆・再編集したものになりますクライアントの推論能力を借りて思考を伴うタスクを実装できる samplingやhuman in the loopとしての elicitationは面白いな〜と思っているので、よければそこだけでも見てみてください。 1. コンセプト昨今、アプリケーション開発に変化が生じています。(toBの例で考えます。)「ドメインエキスパートの熟練知識をシステムに写す」という面は変わっていませんが、「非定型・非決定論的判断」「実行を伴う知恵寄りの...
8時間前
記事のアイキャッチ画像
RAGをMVP(Minimum Viable Product)を作って試してみた
Zennの「LLM」のフィード
はじめに最近RAGに興味を持ち、勉強がてらllama-indexなどで遊んでいました。しかし、自分用のユースケースを見つけられず、「これは便利!」と感じるものは出来ませんでした。そこで代替案として、エンジニア向けに、こんなサービスがあったら良いだろうなと思うものを考案し、実際にMVPとして試してみたので共有します。 AWSのクラウドデザインパターンというMVPMVP(Minimum Viable Product)という考え方があります。MVPとは、最小限の機能で実際に動作し、ユーザーに価値を提供できる製品のことです。例えば、SNSアプリを作る場合、最初から高度な機能(動...
17時間前
記事のアイキャッチ画像
個人化されたフィードバックから学ぶLLMに関する論文を一緒に読みましょう!
Zennの「LLM」のフィード
Personalized-RLHF (P-RLHF) — 個人化された人間フィードバックから学ぶLLMの新定式化この記事は,「自分の理解を深めたい」という気持ちで書いています.読者のみなさんと同じ目線で,一緒に理解を育てていくスタイルです.僕の理解が及ばない部分があれば,優しく教えていただけると幸いです!著作権の関係で画像は掲載できないので,論文をぜひご一読ください! TL;DR課題:従来のRLHF(およびDPO)は“すべての人間の好みは同じ分布から来る”という一様性仮定を暗に置く.これは多数派の好みを“総意”として学習してしまい,少数派の好みを無視しがち.著者らは...
1日前
記事のアイキャッチ画像
履歴を1つの埋め込みに凝縮して差し込むLLMに関する論文を一緒に読みましょう!
Zennの「LLM」のフィード
Persona-Plug (PPlug) でLLMを個人化:履歴を1つの埋め込みに凝縮して差し込むこの記事は,「自分の理解を深めたい」という気持ちで書いています.読者のみなさんと同じ目線で,一緒に理解を育てていくスタイルです.僕の理解が及ばない部分があれば,優しく教えていただけると幸いです! TL;DRPPlugは,ユーザ履歴全体を1つの“個人埋め込み” に凝縮し,LLMの入力に前置するだけで個人化を実現する枠組み.LLM本体のパラメータは固定のまま(plug-and-play).LaMPベンチマークの6タスクで既存の微調整型やリトリーバル型を +1.4%〜+35....
1日前
記事のアイキャッチ画像
Claude Codeの開発効率を劇的に改善するSuperClaudeフレームワーク完全ガイド
Zennの「LLM」のフィード
1. はじめに 1.1 SuperClaudeとはSuperClaude は、Claude Codeを拡張し、体系的な開発フローを実現するフレームワークです。スラッシュコマンド、ペルソナ(専門家ロール)、MCPサーバ連携などの機能を統合的に提供し、開発プロセス全体の効率化を支援します。主な特徴:統一されたスラッシュコマンド体系: /sc:* 形式で分析・設計・実装・テスト・ドキュメント生成を網羅ペルソナ機能: architect、security、qaなど、各専門領域に特化した応答モードを提供行動モード: 省トークンモード、設計志向モード、調査志向モードなど、タ...
1日前
記事のアイキャッチ画像
spec-kit徹底解剖:AI時代の仕様駆動開発を実現するツールキットの内部構造
はてなブックマークアイコン 1
Zennの「LLM」のフィード
はじめにGitHubが2025年9月にオープンソースとしてリリースした「Spec Kit」は、従来の「コード優先」から「仕様優先」への開発パラダイムシフトを実現するツールキットです。AIコーディングエージェントと連携し、曖昧なプロンプトから明確な仕様、実装計画、タスク分解、そして動作するコードまでを体系的に生成する革新的なアプローチを提供しています。本記事では、spec-kitの内部構造から実装方法論まで、技術者が実践的に活用するための詳細な解説を行います。 spec-kitとは何か? 従来開発手法の課題これまでのAIコーディングでは「vibe-coding」と呼ばれる...
1日前
記事のアイキャッチ画像
初学者向け~SentencePiece完全ガイド:現代LLMを支える多言語トークナイザーの仕組み
Zennの「LLM」のフィード
はじめにChatGPTやLLaMAなど、現代の大規模言語モデル(LLM)が自然に多言語を処理できる背景には、SentencePieceという革新的なトークナイザー技術があります。「トークナイザーなんて、ただ文章を単語に分けるだけでしょ?」と思っていませんか?実は、SentencePieceは従来のトークナイザーとは全く違うアプローチで、AI業界に革命をもたらした技術なのです。この記事では、SentencePieceの基本概念から実装の詳細まで、技術者向けに詳しく解説します。 SentencePieceとは何か? 従来の問題点従来のトークナイザーには深刻な問題がありまし...
1日前
記事のアイキャッチ画像
信頼できるLLM-as-a-Judgeの構築に向けた研究動向
はてなブックマークアイコン 1
Zennの「LLM」のフィード
近年、大規模言語モデル(LLM)は自然言語処理から科学研究、教育、法律、金融まで幅広く応用され、その柔軟な生成能力は社会や研究のあり方を大きく変えている。しかし、その柔軟さゆえに出力の評価は難しい。最も確実なのは専門家によるマニュアル評価だが、コストと時間がかかりスケールしにくいという課題がある。この解決策として注目されているのがLLM-as-a-Judgeである。これは、LLMに「ジャッジ(評価者)」の役割を担わせ、人間のような文脈理解と判断力を活かしつつ自動化によるスケーラビリティを実現するアプローチである。しかし現状のLLM-as-a-Judgeは、まだ「信頼できる評価者」と呼ぶに...
1日前
記事のアイキャッチ画像
最近のMCPの仕様拡張(2025年9月)
はてなブックマークアイコン 1
Zennの「LLM」のフィード
MCPの仕様拡張について調べました。個人的に2つ気になったものがあったので記事に残しておこうと思います。 ① Enhance authorization server discovery with support for OpenID Connect Discovery 1.0. (PR #797)この変更は、「MCP Authorization」の仕様を拡張するものになります。2025-06-18 版の「MCP Authorization」の仕様では、未認可の MCP Client が Authorization Server にアクセスすると Authorization Se...
1日前
記事のアイキャッチ画像
Google公式の Nano Banana プロンプトテンプレートが参考になったので試してみた
はてなブックマークアイコン 306
Zennの「LLM」のフィード
これはなに?Google AI Studio が以下のX投稿で Nano Banana 向けのプロンプトテンプレートを公開していました。個人的に画像生成のPromptingはあまり経験がなく、写経しながら試してみたところ「こんなに詳しく書かないとまともな絵が出てこないのね」と勉強になったので備忘録としてメモを残します📝https://x.com/googleaistudio/status/1962957615262224511以下、ガイドに書かれていた原則、および、日本語で試す際の注意点に少し触れたのち、プロンプトテンプレートの日本語版とそれを実際に僕が試した事例の紹介へと進...
1日前
記事のアイキャッチ画像
オープンな LLM モデルの悪意ある使用のリスクに関する論文を読んだ
Zennの「LLM」のフィード
こんにちは、初めましての方は初めまして。株式会社 Fusic の瓦です。スパルタンレースが二週間後にありますが、あまりに暑すぎてレース中に熱中症で倒れるんじゃないかと戦々兢々としています。少し前に OpenAI から gpt-oss が発表されて話題になっており、ローカルでホストして活用している記事も多く見かけます。今回はその OpenAI が出した ESTIMATING WORST-CASE FRONTIER RISKS OF OPEN-WEIGHT LLMS という論文を読んだので、そのメモを残しておきます。 概要この論文では、gpt-oss に対して悪意のあるファインチュー...
1日前
記事のアイキャッチ画像
与えるタスクを工夫したら、3BクラスのローカルLLMで実用的な医療用問診システムができた話
Zennの「LLM」のフィード
✍️ まえがき医療の現場は、個人情報を扱うため、セキュリティがめちゃくちゃ大事ですよね。chatGPTやGeminiなどのサービスはカンタンに使えて高性能ですが、海外サーバーへ個人情報を含むデータが送信されると、適切な設定をしていなければ 医療情報ガイドライン違反となってしまう可能性があります。外部に情報を送らないローカルLLMではこの問題が解決できるため、大いに期待していました。高度なタスクを任せるには力不足という認識でしたが、今回作った医療用問診システムで小型ローカルLLMの活用方法が見えてきました。同じようなローカルLLMを用いたシステム開発をされている方に参考...
2日前
記事のアイキャッチ画像
Claude Code をブラウザから操作できるクライアントを自作したらめちゃくちゃ捗った
はてなブックマークアイコン 47
Zennの「LLM」のフィード
Claude Code をブラウザから操作できるクライアントを作りました。https://github.com/d-kimuson/claude-code-viewer過去の Claude Code セッションのログを確認したり、Resume するのに便利でかなり捗るようになったので紹介します! 作ったものClaude Code の会話ログファイルは ~/.claude/projects/<project>/<session-id>.jsonl に JSONL 形式でリアルタイムに書き出されています。作ったのはこのログファイルをリアルタイムにパースし、...
2日前
記事のアイキャッチ画像
BigFiveに基づく対話データセットを使ったLLMの性格傾向学習に関する論文を一緒に読みましょう!
Zennの「LLM」のフィード
BIG5-CHAT: 人間由来データでLLMのパーソナリティを“訓練で”形づくるこの記事は,「自分の理解を深めたい」という気持ちで書いています.読者のみなさんと同じ目線で,一緒に理解を育てていくスタイルです.僕の理解が及ばない部分があれば,優しく教えていただけると幸いです! TL;DR何をした? Big Five(ビッグファイブ)に基づく10万件の対話データセット BIG5-CHAT を作成し.SFTとDPOで性格傾向を訓練で付与.プロンプト注入より妥当で人間らしい特性表現を実現.何が効いた? 特にSFTが有効.高い勤勉性・協調性,低い外向性・神経症傾向のモデルは...
2日前
記事のアイキャッチ画像
DeepEval (LLM-as-a-Judge) を PoC してみた & 所感
Zennの「LLM」のフィード
!この記事は、CYBOZU SUMMER BLOG FES '25 の記事です。 はじめに生成 AI を活用した機能の開発では、生成 AI が生成するアウトプットの質を維持・改善するためのタスクに携わることがあります。たとえば、システム内で AI に与える指示(プロンプト)をチューニングしたり、タスクを実行する AI のモデルをより良いものに変更するといったタスクです。一見シンプルに聞こえるタスクですが、実際の作業には想像以上の手間がかかります(本当に)。チューニングやモデル変更によって回答の質が下がるとユーザーに影響が出てしまうため、本当に質が向上しているのか、反対に質が...
2日前
記事のアイキャッチ画像
ステアリングベクトルによるLLM推論の調整に関する論文を一緒に読みましょう!
Zennの「LLM」のフィード
Contrastive Activation Addition で Llama 2 を操る — ステアリング・ベクトルこの記事は,「自分の理解を深めたい」という気持ちで書いています.読者のみなさんと同じ目線で,一緒に理解を育てていくスタイルです.僕の理解が及ばない部分があれば,優しく教えていただけると幸いです! TL;DRContrastive Activation Addition (CAA) は,正負の対比ペアから作ったステアリング・ベクトルを推論中の残差ストリームに足し引きして,おだて(sycophancy)・拒否・ハルシネーションなどの高次の振る舞いを連続量で調整...
2日前
記事のアイキャッチ画像
AWS Bedrockはリージョンごとに利用可能な基盤モデルが異なる
Zennの「LLM」のフィード
はじめにプログデンスの圓佛です。AWS Bedrockを利用するとAWS経由で各社が提供しているAI用の基盤モデルを利用することができます。モデル選択に書かれていますが具体的にはAI21 Labs、Anthropic、Cohere、DeepSeek、Luma AI、Meta、Mistral AI、OpenAIなどを利用することができます。記事公開時点で「Bedrockでリージョンごとに利用可能な基盤モデル一覧」をまとめてみました。 Bedrockでリージョンごとに利用可能な基盤モデル一覧リージョンごとに利用可能な基盤モデル一覧 感想当初は「USリージョンであれば、どこ...
2日前
記事のアイキャッチ画像
「AIはパターンマッチに過ぎない」論の誤解
Zennの「LLM」のフィード
はじめにこの頃Xでは「AIのやっていることはパターンマッチに過ぎない」という類の発言を多く目にします。調べてみるとこれは2025年6月にAppleから公開された"The Illusion of Thinking"をきっかに盛り上がった論調のようです。https://arxiv.org/abs/2506.06941ただ改めてこの論文に目を通したうえで少なくともこの論文を根拠にこの類の主張をすることには危うさがあると感じたのでその話を書きたいと思います。 論文の要約この論文では一般に評価に使用されている数学やコーディングのベンチマークは類似問題によるリークはおきている可能...
3日前
記事のアイキャッチ画像
AIに声援を送ると隠れたパワーが解放される
Zennの「LLM」のフィード
はじめにプロンプトエンジニアリングというワードが広まって久しいですが、未だに重要ですね。以前Courseraで公開されているGoogle Prompting Essentialsを受けました。今回は「開発者のためのプロンプトエンジニアリング」という新しい資料を読んでみて、面白かったので抜粋して紹介します。詳細はリンク先にあるのでそちらをご参照ください。音声解説はこちらhttps://youtu.be/R2CHfL_Nty8?si=yJXUZxz95r11g-Z7 プロンプト エンジニアリングとは 7 つのプロンプト テクニック複数のタスクに分けて処理する...
3日前
記事のアイキャッチ画像
[AI Agent Jump Start 基礎編#7] マルチエージェントAPI 実装答え合わせ
Zennの「LLM」のフィード
✅ マルチエージェントAPI 実装まとめ(答え合わせ編)このパートでは、前回の課題として提示された4つのエージェントファイルの実装例を紹介し、想定される動作と最終的なゴールを振り返ります。 📂 対象ファイル一覧agents_core/agents/├── answer_agent.py # 汎用QAエージェント├── search_agent.py # Web検索エージェント├── mcp_agent.py # 翻訳エージェント(MCP経由)└── router_agent.py # ルーター 🧩 実装のポイントと...
3日前