きしだのHatena

フィード

記事のアイキャッチ画像
音声言語モデルVoxtralやQwen2.5 omniをGGUFで動かす
きしだのHatena
音声言語モデルを試したい、とふと思って、そしてLM StudioあるのでGGUFで動かしたいと思ったけど、LM Studioは音声モデルに対応してないしGGUFに対応したモデルも少なくてハマったのでまとめ。 GGUFのある音声言語モデル 結局、Voxtral 3BとQwen2.5 Omni 7Bだけ試せた。 音声が受け取れる言語モデルにはPhi-4-multimodalやGemma 3n E4B、Qwen3 Omni 30Bなんかがあるけど、GGUFがない、もしくはあっても音声に対応していないのであきらめ。 ggml-orgのものを使う。 Voxtral 3Bはこちら。モデルとmmprojの2…
1日前
記事のアイキャッチ画像
NVIDIAのLLM、Nemotron 3 Nanoは賢いけどコーディングには向かないかも。Mamba 2の特性が悪く出てる?
きしだのHatena
NVIDIAから新しいモデル、Nemotron 3 Nanoが出ていました。30BのMoEでアクティブパラメータは3B。つまり30B-A3Bです。 試してみたら、かなり賢いんだけど、コーディングの長いやりとりをしてたら過去のコードをうろ覚えになってて変な挙動をしてました。 どうやら、Transformerの代わりに使ってるMamba 2だとそういう挙動になるみたい。自信がないので、こうやって書いたら、だれかが間違いを指摘してくれるはずメソッド。 追記:30Bモデルの主戦場になるのは、言語処理的な単機能部品だと考えると、長いやり取りは不要なので、かなり強いモデルではないかと思います。また別にブロ…
11日前
記事のアイキャッチ画像
LLMにやさしいSui言語にやさしいLLMを作る
きしだのHatena
LLMにやさしいSui言語が話題だった。 で、「ヤサシクナイヨ」とか書いてたのだけど、それならSui言語にやさしいLLMを作ってみるのはどうか。 LLMにやさしい言語SuiはLLMにやさしくなさそう - きしだのHatena まあ、ファインチューンという金槌を持ってウロウロしてるところにSui言語という釘を見つけたので打ってみましょう、ということで。 データセットを作る 最初はCodeNetのコードをSuiに変換してデータセット作ろうかと思ったのだけど、Suiで書くにはちょっとコードが複雑すぎるのでやめた。 簡単な問題をChatGPTに作ってもらう。 整理して80件になった。まあデータセットと…
12日前
記事のアイキャッチ画像
Z.aiの新しい画像言語モデルGLM 4.6Vよさそう
きしだのHatena
GLM 4.6Vが出てるのでMLXの4bit版を試してみました。 106BのMoEでアクティブパラメータは12B。画像や動画に対応しています。画像エンコーダーもあるので全体では108B。 ライセンスはMIT。 zai-org/GLM-4.6V · Hugging Face GLM-4.6V: Open Source Multimodal Models with Native Tool Use 日本語表現 小説を書いてもらったら、日本語も流暢で結構いい感じ。 むずかしい問題 「64歳以上であれば100円、64歳未満は1000円」を整数四則演算だけで実現して。 年齢制限なく対応できるように。 ルー…
12日前
記事のアイキャッチ画像
LLMにやさしい言語SuiはLLMにやさしくなさそう
きしだのHatena
LLMにやさしい言語という謳い文句の言語、Suiが話題。 けどこれ、LLMにあまりやさしくなんじゃなかろうか。 https://github.com/TakatoHonda/sui-lang 9月にこういうエントリを書いてます。 AI専用のプログラミング言語は現れない - きしだのHatena ここで理由として挙げたのは、この4点です。 すでにAIは独自の言語を持っている 低レベルな記述にはコストがかかる 意味の記述が必要であることに変わりはない 作っても学習させるのが大変 この4点にあてはまっていると思います。 追記: あと、こういうことも10月に書いてます。 AIが読み書きするコードも読み…
14日前
記事のアイキャッチ画像
Ministral 3は性能はもう一歩だけど存在が大切。文字読み取り性能は高い
きしだのHatena
昨日、Mistral 3シリーズがリリースされました。モデルは675BのMistral 3 Largeと、3B、8B、14Bという手ごろなサイズのMinistral 3です。このMinistral 3でコーディングや画像認識、3Bモデルのファインチューニングを試してみました。 そこそこ使えて画像認識精度は高いけど、コードは書けないし性能もそこまで高くなさそう、けれどもQwen3以外の選択肢が出たのが大事、という感じ。 Introducing Mistral 3 | Mistral AI 基本的なやりとり すべてQ4_K_Mの4ビット量子化で試しています。Q8にしてもおそらくそこまで性質は変わら…
22日前
記事のアイキャッチ画像
Sarashina-2.2-Vision-3Bの文字読み取りがすごい、けどVRAM 16GBではつらい -> 解決。VRAM12GBで使える
きしだのHatena
SB Institutionから日本の情報に特化した画像言語モデル、Sarashina-2.2-Vision-3Bが出ていたので試したところ、性能の高さは感じたものの、VRAM 16GBで動かすのがつらかったのでまとめました。 Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開 - SB Intuitions TECH BLOG ※ use_cache=Trueつけたら解決!12GBで動きそうです。追記しています。 GradioでのUI とりあえず、いろいろ試すたびにコードいじるのは面倒なので、gradioでUIをつけました。 ChatGPTに「gradioで…
1ヶ月前
記事のアイキャッチ画像
LINEのベース日本語言語モデルを強化学習で対話できるようにして賢さを評価する(過去下書き放出)
きしだのHatena
下書きにあったものをとりあえず放出。 2023年8月おわりくらいの下書き。無加工なので、組織名などが当時のものになっています。 ココカラ。 LINEのNLP Foundation Devチームから36億パラメータの日本語言語モデルが公開されています。 https://engineering.linecorp.com/ja/blog/3.6-billion-parameter-japanese-language-model そして、対話用にチューニングしたモデルも出ています。 https://engineering.linecorp.com/ja/blog/3.6b-japanese-langu…
1ヶ月前
記事のアイキャッチ画像
IT土管はAIにまかせて、人間は情報に価値をのせよう
きしだのHatena
情報を右から左に流すだけのIT土管はAIに作れるので、その情報たちから新たな価値を生むのが、ITエンジニアの仕事になるのではないかなと思います。 2004年に広まったWeb 2.0は、CGM(Consumer Generated Media: ユーザー生成コンテンツ)という言葉を生みました。 それまでは、広く共有されるコンテンツというのはマスコミのような一部の集団がつくってメディアに一方的に流すものでした。Web 2.0では、ブログやSNS、写真、動画共有など、一般消費者がアップロードしたコンテンツが、広く共有されるようになりました。 日本でも、はてなやmixi、pixiv、ニコニコ動画のよう…
1ヶ月前
記事のアイキャッチ画像
Spring AIでLM Studioに接続するにはreactor-netty-httpが必要
きしだのHatena
Spring AIからはデフォルトでLM Studioに接続できませんが、reactor-netty-httpへのdependencyを追加することで接続できるようになります。 この解決方法です。 https://github.com/spring-projects/spring-ai/issues/2445#issuecomment-3066995797 まずOpenAIをdependencyに加えたプロジェクトを作成します。 application.propertiesに接続用の設定を記述します。api-keyは本来不要ですが、無いとエラーになるのでtempにしておきます。 spring.…
1ヶ月前
記事のアイキャッチ画像
Qwen3、GLM、GPT-ossなどクソデカ言語モデルを試したところGLM-4.5-Airがお気に入り
きしだのHatena
Mac Studioを借りたのでいろいろクソデカ言語モデルを試したところ、GLM-4.5-Airがいいなとなってます。 試したモデルこちら。 モデル パラメータ数 アクティブ thinking 画像 時期 URL GPT-oss 120B 120B 5B o x 2025/8 OpenAI hf link Qwen3 235B-A22B-2507-thinking 235B 22B o x 2025/8 Alibaba hf link Qwen3-VL 235B-A22B-thinking 235B 22B o o 2025/9 Alibaba hf link Qwen3-Next-80B 8…
2ヶ月前
記事のアイキャッチ画像
DeepSeek-OCRの弱点をつく
きしだのHatena
DeepSeek-OCRの仕組みが面白いので遊んでしまっている。 最初に試したときは、純粋にOCRさせてますね。きれいな心をしている。 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena そして前回はランダムな文字列を読ませて誤認識を誘ってみた。 DeepSeek-OCRにはランダム文字列が読めない - きしだのHatena もう2つ、弱点ぽいところをついてみる。 その前に、DeepSeek-OCRの構造を確認。 https://arxiv.org/abs/2510.18234 ここで、DeepEncoderがSAM->Conv->CLIPってな…
2ヶ月前
記事のアイキャッチ画像
DeepSeek-OCRにはランダム文字列が読めない
きしだのHatena
DeepSeek-OCRの精度が高くて驚いたところですが、仕組み的にランダムな文字列での認識率がかなり落ちるんではないかと試してみたところ、やっぱりかなり悪かったです。 DeepSeek-OCRについてはこちら。 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena DeepSeek-OCRは、画像をトークン化したほうがテキストをトークン化するより情報圧縮できるんでは、というアイデアを試すために、トークン化した画像をテキストに戻してみたらOCRとして精度があがった、というものです。 ここで、「画像のほうが情報量が多いのにトークン化したら容量増えるの…
2ヶ月前
記事のアイキャッチ画像
画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい
きしだのHatena
おとといくらいにDeepSeek-OCRというのが出てました。 https://github.com/deepseek-ai/DeepSeek-OCR ただのOCRじゃなくて、「テキストを画像にしたほうがトークンサイズを小さくできるのでは?」というのをやっていて、テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったという感じですね。 LLMの開発効率化に革新? 中国DeepSeekが「DeepSeek-OCR」発表 “テキストを画像化”でデータ圧縮:Innovative Tech(AI+) - ITmedia AI+ 中身的には、3Bでアクティブパラ…
2ヶ月前
記事のアイキャッチ画像
計算量を具体的に見てみる 2025年版
きしだのHatena
2009年に「計算量を具体的に見てみる」という、処理から計算量を視覚化するブログを書いてた。 計算量を具体的に見てみる - きしだのHatena これJava 6時代なので、Java 25で書き直してみた。 より詳しい解説は元ブログのほうを見てください。 O(1) まず基本のO(1)です。処理量が入力量によらない場合ですね。 この例でいえば、処理がnを使わない場合。 あと、動的配列の拡張で、配列のサイズを2倍にしていくとそれ自体の計算量はO(n)になるのだけど、拡張が起きるのはlog n回になるので、平均するとO(1)というものもありますね。 表示コードを最後に書いてましたが、importが1…
2ヶ月前
記事のアイキャッチ画像
Javaでプラットフォームスレッドだと終了を待ってくれるのに仮想スレッドだと途中でプロセスが終わる
きしだのHatena
Javaで、プラットフォームスレッドだとmainメソッドが終わってもスレッド終了を待ってくれるのに、仮想スレッドだとmainスレッドが終わると仮想スレッドの処理が途中でもプロセスが終わるの何でだろうな、と思った話。 こういうコードを動かします。 void main() { Thread.ofPlatform().start(() -> { IO.println("start"); sleep(2); IO.println("end"); }); IO.println("hello"); IO.println("fin"); } void sleep(int sec) { try { Threa…
3ヶ月前
記事のアイキャッチ画像
ComfyUIでQwen ImageやQwen Image Editを動かしてJavaから呼び出す
きしだのHatena
「Javaのコードから画像生成したいな、ローカルで」と思って、どうやらComfyUIだとAPI呼び出しができるようなので、やってみた。 ついでに、Qwen Imageを試したかったので、ここを参考にインストール。 徹底解説:Comfy UI + GGUF Qwen Image / Edit 2509 をローカルGPU / Macで動かす完全マニュアル #comfyui - Qiita ビールとカレーを持った写真が、コーラとピザにきれいにおきかわった。 APIはここを参考に。 ComfyUIをAPIサーバーとして使ってみる というか、PythonコードをGPT-5にJavaに変換してもらったもの…
3ヶ月前
記事のアイキャッチ画像
AIが読み書きするコードも読みやすいほうがいい(トランスフォーマの特性の考慮やリーダブルコードについて追記)
きしだのHatena
AIが読むんだから読みやすくする必要はないんでは、という話が流れてきた。 けど、実際にはAIにも読みやすさは大事だと思う。 データ形式によって、そのデータに関する回答精度がどうかわるかという調査がある。 Which Table Format Do LLMs Understand Best? (Results for 11 Formats) HTMLまでの上位5形式はキーワードによってレコードが区別される。JSON以降は記号や改行によってレコードが区別される。また、上位4形式ではキーと値が一緒に書かれる。 このように、表現形式でAIによる読み取りの精度は変わる。GPT-4.1-nanoなので失敗…
3ヶ月前
記事のアイキャッチ画像
台湾でJCConf以外にやったこと(8番出口とか故宮博物館とか本屋とか)
きしだのHatena
ということで台湾に行ってきたけど、JCConf以外の部分のまとめ 1日目(9/18) まずは初日 8番出口 ごはんを食べようと、西門まで来てみたら、西門駅にはないはずの8號出口という文字が。 行ってみたら、おっさんいた。 裏からみると、こうなってる。おっさんはパネルです。 ごはん 台湾には何度か来ているけど、ひとりでちゃんと台湾ぽいものを食べたのは初めて。 2日目(9/19) 2日目はJCConf 台湾のJavaイベント、JCConf 2025での登壇準備にローカルLLMを活用した話 - きしだのHatena 朝食 ホテルに朝食がついていて、結構ちゃんと食べれたので、3日間健康な生活をした。 …
3ヶ月前
記事のアイキャッチ画像
台湾のJavaイベント、JCConf 2025での登壇準備にローカルLLMを活用した話
きしだのHatena
9/19に開催された台湾のJavaイベント、JCConf 2025で登壇してきました。 https://jcconf.tw/2025/ その登壇準備でローカルLLMが役にたったのでまとめ。 イベント以外の話はこちら 台湾でJCConf以外にやったこと(8番出口とか故宮博物館とか本屋とか) - きしだのHatena 今回の内容は「Java Webフレームワークの現状」の英語版。 場所は、台大病院国際会議センター 今年はTKUG(Taiwan Kotlin UG)と共催で、DukeとKodeeののぼりがかわいい ホテルで準備をしていて、目途がついて会場に来たのだけど、Java 30周年のケーキが切…
3ヶ月前
記事のアイキャッチ画像
Claude Sonnet 4に17個ほどゲームを作ってもらったけど著作権を主張できるのかな
きしだのHatena
Claude Sonnet 4が出たときにいろいろゲームを作ってもらっていたのでまとめてみた。 あと、これって著作権どうなるんかなって考えてみる。 あ、ゲームいっぱい作ってると10個目くらいからアイデア枯渇し始めるので、最初に作ろうと思ってたものを作りきってからが勝負だなーみたいなことを思いました。 1. マリオ 試しにやってもらったら一発でいい感じに作ってくれたので、いろいろ試したくなった。 敵がいてブロックがあってコインもある。 javaのswingでリアルなマリオのようなゲームを作って。 1ソースで完結して。 背景もかわいいほうがいい。 ところで、著作権法でいう「著作物」は「思想や感情を…
3ヶ月前
記事のアイキャッチ画像
AI専用のプログラミング言語は現れない
きしだのHatena
AIが賢くなると、AIにわかりやすく人間には理解困難なプログラミング言語が出てくるのでは、みたいな話をよく聞きます。 ただ、次の点から、AI専用の言語は現れないだろうなと思います。 意味の記述が必要であることに変わりはない すでにAIは独自の言語を持っている 低レベルな記述にはコストがかかる 作っても学習させるのが大変 意図の記述が必要であることに変わりはない プログラムを書くときには、「ここを3回繰り返そう」とか「この一連の処理の塊を、この部分だけパラメータで変更可能にしつつまとめよう」とか「xとyをまとめて扱うようにしよう」といった意図をもって処理を書きます。そうすると、その意図が直接書け…
3ヶ月前
記事のアイキャッチ画像
子ども向けの説明するLLMモデルに賢さは必要ない、のか?
きしだのHatena
子ども向けの説明するモデルに賢さはあまり必要ないという話が流れてきて、ちょっと「あれ?」ってなった。 さらに、答えを直接ださずに考えを導くとあって、それってかなり性能が高いモデル能力を要求するんではと思った。 子ども向けの説明で大事なことは、説明するべき中心的概念を抜き出して、詳細をそぎおとし、子どもにわかりそうな概念だけを使って最短距離でたどり着くことが必要。 つまり 説明するべき中心概念を抜き出す 子どもにわかりそうな概念だけを使う 最短距離でたどりつく というのが必要になる。 ところで、LLMが回答に答えるときに何が起きているかのイメージはこんな感じ。 まず、LLMの基礎になるのは、文章…
3ヶ月前
記事のアイキャッチ画像
GPT-ossを使って中国語翻訳しつつピン音で発音をつける
きしだのHatena
JCConf 2025で台湾に行ってて、終わったあと主催者でもある台湾人同僚の人とビールを飲みながら、「中国語はAIが翻訳してくれるから、来年は中国語プレゼンにチャレンジする!」などというと、発音はどうするの?と聞かれたので「なんか出してくれるんでは?」とパソコンを開いて「translate to Chinese pronunciation」ってGPT-ossに投げたらちゃんとピン音を出してくれたので、帰ったあとでいい感じになるようやってみました。 まず、GPT-ossに翻訳させるときにはこんな感じのシステムプロンプトを使います。 Translate to %s. Output only th…
3ヶ月前
記事のアイキャッチ画像
Java 25のSoundClipでゲームに効果音をつける
きしだのHatena
Java 25ではSoundClipで手軽に音声ファイルの再生ができるようになっています。 SoundClip (Java SE 25 & JDK 25) で、ゲームに効果音をつけてみると、なんかそれっぽくなりました。 Java 25のSoundClipで効果音をつけたら、なんかちゃんとしたゲームっぽくなった! pic.twitter.com/e6DTAXLSw5— きしだൠ(K1S) (@kis) 2025年9月17日 効果音はここで見つけたものを使っています。 https://pixabay.com/sound-effects/ 効果音をつけるときの注意点としてはこんな感じ。 WAVファイ…
3ヶ月前
記事のアイキャッチ画像
Java 25でMP3を再生する
きしだのHatena
Java 25が昨日9/16にリリースされています。新機能まとめはこちらです。 Java 25新機能まとめ #OpenJDK - Qiita その中で、javax.sound.SoundClipというクラスが新設されています。 次のようにしてWAVファイルを再生できます。 var file = new File("sound.wav"); var clip = SoundClip.createSoundClip(file); clip.play(); いままで、音声ファイルを再生する一番手軽な手段はApplet APIのAudioClipだったのですが、Applet APIはJava 17でD…
3ヶ月前
記事のアイキャッチ画像
PLaMo翻訳をLM Studioで翻訳APIサーバーにする
きしだのHatena
PLaMo翻訳のGGUFをmmngaさんが公開されています。 https://huggingface.co/mmnga/plamo-2-translate-gguf PLaMo翻訳のプロンプトは次のような指定をする必要があります。 <|plamo:op|>dataset translation <|plamo:op|>input lang=English Write the text to be translated here. <|plamo:op|>output lang=Japanese で、plamo-2-translate-ggufには次のようなプロンプトテンプレートが設定されていま…
3ヶ月前
記事のアイキャッチ画像
Liquid AIの日英翻訳LLMでパワポを自動英訳する
きしだのHatena
Liquid AIから350Mという軽量な日英翻訳モデルが出ていました。 https://huggingface.co/LiquidAI/LFM2-350M-ENJP-MT GGUFも提供されていたのでLM Studioで試すと、普通に使えた。 めちゃいいというわけではないけど、手元で軽量に動かせることを考えると悪くないです。 Q4_K_Mにすると軽くていいかなと思ったけど、ちょっと訳が怪しくなったりしていたので、おとなしくQ8を使います。速さも変わらなかったし。 で、そうすると、こういうコードがあればプログラムに日英翻訳を組み込めるわけですね。 import dev.langchain4j.…
4ヶ月前
記事のアイキャッチ画像
なぜ一度失敗したAIとの会話は打ち切るほうがいいのか
きしだのHatena
AIとやりとりしてると、こんな感じでさっきのバグを再現してしまって「アホか!」って暴言吐きたくなることありますね。 で、このエントリのときに、こういうチャットは捨てて やりなおしたほうがいいと書きました。 AIに激詰めしてしまうのはAIだからじゃなく、そのくらい言わないとわからなそうだから - きしだのHatena なんでそうなるかというと、まずトランスフォーマーのアテンションという単語ごとの関係を見る仕組みがあります。 で、バグコードが続くとき、非常に雑にアテンションを書くとこんな感じで、間違ったコードを強調しあってしまうのですね。どのくらい注目してるか、というのを書いてます。 / / 結構…
4ヶ月前
記事のアイキャッチ画像
AIに得意かどうかはユニットテストが書きやすいかどうかで判別できる
きしだのHatena
AIコーディングエージェントが100倍速くなるエントリに、10000tok/secとTDDとがあればコーディングはガチャになるというブックマークコメントがありました。 AIコーディングエージェントは100倍速くなる - きしだのHatena LLMはじめとした機械学習は、よりよいランダムを選ぶ仕組みです。当たりのランダムが出る確率が高くなるようにパラメータの調整を行うことを「学習」と呼んでいます。こんな感じで、「学習」が進むとハズレが減っていくわけですね。この確率が安定したところが、学習の終了です。 (ChatGPTにでっちあげてもらったイメージ画像) 答えが定義できれば、その答えが出るランダ…
4ヶ月前