Zennの「大規模言語モデル」のフィードのフィード

Zennの「大規模言語モデル」のフィード

フィード

決定的推論とLLM的推論で課題を解くアプローチの提案~AI経費承認から見えた最適解

Zennの「大規模言語モデル」のフィード

はじめに「AIで経費承認を自動化しよう」そう意気込んでLLMベースの承認システムに関わらせていただいて早3ヶ月が経とうとしています。が、そんな中、ふと疑問が浮かびました。「これ、全部LLMに解かせる必要ある？」今回は、AI経費承認で解いている課題を述べた後、収集されたテキストデータを分析してみた結果分かったことを共有します。 AI経費承認とはAI経費承認では、以下のような流れで動作します。まず、ご利用いただく事業者ごとに社内規定に基づいた判断基準の言語化を行い、弊社サービスに登録してもらいます。次に、それら判断基準をプロンプトに組み込み、LLMを用いて自動で経費の承...

2時間前

AI開発の生産性爆増！Claudeに永続的な記憶を与える「claude-mem」とは？

Zennの「大規模言語モデル」のフィード

はじめに：AI開発の新たな地平を切り拓く近年、AI技術の進化は目覚ましく、特に大規模言語モデル（LLM）は私たちの開発スタイルを大きく変えつつあります。その中でも、Anthropicが提供するClaudeは、その優れた推論能力と長文処理能力で多くの開発者から注目を集めています。しかし、LLM利用における共通の課題の一つが「コンテキストウィンドウの制限」と「セッション間の記憶の欠如」でした。AIエージェントが過去のやり取りを「忘れてしまう」ことで、同じ情報を繰り返し提供したり、プロジェクト全体の流れを再認識させる手間が発生したりすることは、開発者にとって大きなボトルネックとなっていま...

7時間前

GitHub Copilot プロンプトファイルの `agent` フィールドについて

Zennの「大規模言語モデル」のフィード

GitHub Copilot プロンプトファイルの agent フィールドについて!本記事は、公開時点の公開情報などを元に作成しましたが、調査メモの位置付けでもあるため、検証は行っていません。ご注意ください。 1. 概要.prompt.md ファイルの一番上にある設定欄（YAML形式）に記述する agent フィールドは、そのプロンプトの指示を GitHub Copilot のどの「専門家」（エージェント、または機能モード）に任せるかを決めるための項目です。この agent 設定をすることで、プロンプトの実行役が固定され、いつも同じ方法で処理されるため、安定して狙い...

10時間前

【DGX Spark】Unslothで高速「ござる」LoRAを作る

Zennの「大規模言語モデル」のフィード

はじめにこの記事は、DGX Spark上でUnslothを使ってLoRAファインチューニングを行う手順をまとめたものです。前回の記事では、PEFTライブラリを使ってLoRAを実装しましたが、今回はUnslothを使うことで、より高速かつ省メモリで学習を行います。ただし、DGX Spark（ARM64）環境では、NVIDIAの最新PyTorchコンテナとUnslothの依存関係に起因する問題が発生するため、その解決方法も含めて解説します。環境と前提項目内容ハードウェアNVIDIA DGX Spark (ARM64)OS/環境NVIDIA提供のP...

11時間前

レシートをローカルLLMでマネーフォワードCSVまで作る前に知っておきたい4つの失敗

Zennの「大規模言語モデル」のフィード

はじめにレシート画像をローカルLLMで読み取り、マネーフォワード（会計ソフト）のインポート用CSVまで自動生成するシステムを構築しました。この記事では、Phase 1（OCR + テキストLLM方式）で実際にハマった4つの失敗を紹介します。同じことを試そうとしている方の参考になれば幸いです。この記事で伝えることレシート画像 → ローカルLLM（OCR + テキストLLM）→ マネーフォワードCSV を試した結果の教訓同じことをやる人向けの「やっておくべきこと／避けるべきこと」技術選定の判断基準アンチパターン①: OCRの誤認識をLLMのプロンプトでカバー...

12時間前

丸投げから役割分担へ ─ VLMを活かすPDF解析の設計

Zennの「大規模言語モデル」のフィード

1. 導入：やりたかったこと私はKENCOPAでAIエージェントの開発業務を担当しています。今回は、AIエージェントを実装するうえで必要だったVLMによるPDFファイル解析で得た学びを共有します。SDS（Safety Data Sheet / 安全データシート）と呼ばれるPDFファイルから、化学物質の構成情報を抽出したいと考えていました。SDSには以下のような情報が記載されています：物質の親子関係（成分カテゴリと個別成分）含有量（質量%）CAS番号（化学物質の国際的な識別番号）これらの情報は表形式で書かれていることもあれば、文章中に含まれていることもあります...

14時間前

Zennの「大規模言語モデル」のフィード

特定のサービスに依存しない、現代の推薦システム（Recommender Systems / RecSys）のアーキテクチャと、それがどのように企業のPL（損益計算書）に直結するのかを解説する技術ブログを作成しました。エンジニアとして「モデルを組む」ことと「売上を作る」ことのギャップを埋めるための知識を整理しています。現代のECやプラットフォームビジネスにおいて、推薦システムは単なる「おまけ機能」ではなく、売上の30%〜70%を叩き出す**「収益エンジン」**そのものです。しかし、技術的に優れたアルゴリズムが必ずしもビジネス上の成功を約束するわけではありません。本記事では、推薦システ...

16時間前

「外れ値の正体」が量子化研究にもたらすパラダイムシフト

Zennの「大規模言語モデル」のフィード

1. 「後処理（PTQ）」から「設計段階での回避（QAA）」へこれまでの量子化研究の主流は、PTQ (Post-Training Quantization) でした。つまり、学習済みのモデルをいかに壊さずに圧縮するかという「事後対策」です。これまでのアプローチ: * SmoothQuant: 活性化値の外れ値を重みに移動させて分布を平滑化する。AWQ / OmniQuant: 重要な重みだけを保護するために複雑なスケーリング係数を探索する。これからの研究方向（Quantization-Aware Architecture: QAA）:「そもそも外れ値が出ないよう...

17時間前

量子化の天敵「外れ値」の正体：GatedNormが解き明かすLLMの生存戦略

Zennの「大規模言語モデル」のフィード

エンジニアの皆さん、こんにちは。LLM（大規模言語モデル）の軽量化・高速化において、常に我々を悩ませてきた「外れ値（Outliers）」の正体について、非常にエキサイティングなパラダイムシフトが起きています。今回は、最近のトレンドである**「LLMの量子化劣化の主犯は外れ値であり、それはモデルが意図的に作り出した『調整弁』だった」**という議論について、背景から解決策まで深く掘り下げて解説します。https://arxiv.org/abs/2601.22966 1. 背景：なぜ量子化は難しいのか？LLMを実用化する上で、FP16からINT8、さらにはINT4へとパラメータを圧縮...

17時間前

Wafer Scale Engine: LLM推論におけるメモリのボトルネックを克服する設計

Zennの「大規模言語モデル」のフィード

近年、LLM (大規模言語モデル）のパラメータ数は急速に増加しています。最先端のLLMを訓練するには、通常、膨大な計算資源が必要となります。推定される訓練計算量は、2024年までの5年間で約4万倍に増加したとされています（Lie, 2024）。従来のGPUアーキテクチャは、トランジスタ密度の向上や専用回路の導入によって性能を高めてきました。しかし、メモリ帯域幅やチップ間通信速度の改善は、計算能力の伸びに追いついていません（Lie, 2023）。GPUの性能はアーキテクチャとプロセスの進歩により約70倍向上しましたが（Lie, 2024）、4万倍という需要の増加とは大きな乖離があります。そ...

18時間前

AI実践ガイド2026：エージェントからローカルLLMまで

Zennの「大規模言語モデル」のフィード

現代のAI技術を実践的に学ぶ総合ガイド。AIエージェント、LLM活用、プロンプトエンジニアリング、RAGシステム、ローカルLLM運用まで、最新のAI開発手法を詳細に解説します。

19時間前

vLLM v0.15.0 リリースノート解説

Zennの「大規模言語モデル」のフィード

メモ（ここは筆者のメモ欄です） Mamba 正直なんでうまくいくのかよくわからない。。定常状態になると分布収束するということだから生成うまくいかないのでは。。過去情報指数減衰しそうな。。完全なマルコフ連鎖ではなく入力とセレクティブであり、並列スキャンでマシン力技しているから LSTM より性能頑張れるということかな。あんまわからん。はじめにvLLM v0.15.0 が 2025 年 1 月 29 日にリリースされました。このバージョンは 335 コミット、158 人の貢献者による大規模アップデートであり、特に NVIDIA Blackwell（GB200 等）向けの最...

21時間前

医療データをLLMで安全に活用する：仮名化パイプライン「DataAirlock」の実践

Zennの「大規模言語モデル」のフィード

はじめに：LLMを使いたいのに、使えないClaude CodeやChatGPTが業務に有用なのは、もはや説明不要です。読影レポートの分析、カルテ記載のパターン抽出、診療データの傾向分析。「これ、LLMに投げたら一瞬なのに」と思う場面は日常的にあります。しかし医療現場では、ほぼ確実にここで止まります。患者データが含まれているから、外部サービスに送れないAPIが学習に使わないと言っても関係ありません。情報セキュリティ部門の視点では、外に出る時点でNGです。結果として、LLMが最も役に立つはずの業務に、LLMが使えないという逆転現象が起きています。このジレンマを緩...

1日前

AI エージェントの課題解決の成果を、再利用可能な形で残す

Zennの「大規模言語モデル」のフィード

エージェントが実行した手順を再利用したい例えば、「AWS What's New の RSSフィードから指定されたキーワードにマッチする記事を抽出して」とエージェントに頼んだとしましょう。エージェントはリクエストを受け取って、記事を返してくれます。このとき、エージェントが実行した手続きを再利用したくなりませんか。エージェントが最終結果を取得した手順をスクリプト化して再利用したくなりませんか。私は、そう思ったので、エージェントが実行した手順を記録して再現する仕組みと、エージェントが最終結果を取得した手段を成果物として入手する仕組みを試してみました。試したアイデアAIの作...

1日前

【DGX Spark】CALM3-22Bを使った「ござる」LoRAを作る

Zennの「大規模言語モデル」のフィード

はじめにこの記事は、DGX Spark上でLoRAファインチューニングを行う手順をまとめたものです。NVIDIA公式のプレイブックはLlama 3を使った英語のサンプルになっており、LoRAが効いているかどうか判断しづらかったため、日本語モデルで「語尾が変わる」というわかりやすい題材で試すことにしました。ベースモデルにはCyberAgentのCALM3-22Bを使用しています。22Bモデルは巨大なため、DGX Sparkでもフルパラメータのファインチューニングはメモリが足りず、LoRAでアダプターのみを学習させる方式を採用しました。https://build.nvidia.c...

1日前

Google Antigravity × Codex CLI 協調開発：Orchestra方式でタスク自動振り分け

Zennの「大規模言語モデル」のフィード

はじめに!シリーズ構成Google Antigravity インストールガイド（Windows）Google Antigravity × Codex CLI でデュアルエージェント開発Google Antigravity × Codex CLI 協調開発：Orchestra方式でタスク自動振り分け（この記事）Antigravityを安全に使うために知っておくべきこと!テンプレートを公開していますこの記事で紹介する Orchestra 環境は、すぐに使えるテンプレートとして GitHub で公開しています。https://github.com/Sora-bl...

1日前

プロンプトでLLMを品種改良する技術+論文解説

Zennの「大規模言語モデル」のフィード

1.概要「Gemini 3 Flashのような軽量モデルは高速だが、複雑な推論や文脈理解においては上位モデルに及ばない場合がある」これは現在のLLM利用における一般的な認識ですしかしモデルのパラメータ数というハードウェア的な制約とは別に、プロンプトの設計（ソフトウェア的な構造）によって引き出せる応答特性にはまだ検証の余地が残されています本記事では既存のLLMに追加学習（Fine-tuning）を行わずプロンプト構造の工夫のみで自律的な推論の振る舞いとメタ認知を模倣する手法を総称して「Digitalization Biotechnology Prompt Engineeri...

2日前

FastAPIでGemini連携の推論APIを実装し、Cloud Runへデプロイする

Zennの「大規模言語モデル」のフィード

なぜ FastAPI でプロジェクトを立ち上げるのか個人開発の延長線上になるが、ここでは GCP Cloud Run での staging 環境へのデプロイまでを構築する備忘録になる※ここで登場する celestial biome という言葉があるがこれは私自身のライフスタイル哲学なので気にしないでほしい。（親リポジトリ名でもある）背景既に Cloud Run に Django と Next.js で構築した、Webアプリと分析用のデータ取得 ETLを構築済みでBigQuery, CloudSQL(postgreSQL)にデータを集積しダッシュボードで可視化済み、認証は ...

2日前

フレームワークなしでAIエージェントを作ってみた

Zennの「大規模言語モデル」のフィード

こんにちは、株式会社フェズのデータテクノロジー開発部でエンジニアをしています石原です。普段は Urumo BI という、生成AIを活用した購買データ分析ソリューションの開発に携わっています。本記事は、AI×データ領域でより効率的な開発手法を学ぶ一環として、AIエージェント開発手法を比較検証していく連載の第1回です。はじめに最近「AIエージェント」という言葉をよく見かけるようになりました。LangChain や LangGraph などのフレームワークも登場し、「エージェントを作る」というハードルは下がってきています。しかし、ふと疑問に思いました。そもそも AIエージェ...

2日前

Transformerは「(笑)」をどう皮肉として理解するのか

Zennの「大規模言語モデル」のフィード

🧠 Transformerは「(笑)」をどう皮肉として理解するのか ― Attentionはユーモアと文脈をどう処理しているのか ― はじめに日本語の「(笑)」は、不思議な記号です。それは必ずしも「楽しい」「うれしい」という感情を意味しません。本音をやわらげる否定を皮肉っぽく包む発話との距離を取る冗談めかして責任をぼかす私たちは日常的に、「(笑)」を感情ではなく、文脈操作のための記号として使っています。では、Transformerベースの言語モデル（LLM）は、なぜこの微妙なニュアンスをそれなりに扱えるのでしょうか。本記事では、「(笑)」が皮肉とし...

2日前