けいじばん

ローカルAI触ってみた

1 名前:Guest 2026-05-01 16:08:09 ID:LGtSpYre

ollamaコンテナで色んなLLMを動かしてみる。
今のところ何もわからない状態なので、手探りで進めていくよ。
前提として以下がホストのスペック。(ちっちゃくてゴメン)

投稿画像
2 名前:Guest 2026-05-01 16:12:43 ID:LGtSpYre

MacProに積んでるAMD FirePro D300っていうGPUのアーキテクチャが古かったり(gCN1.0/TeraScale)、ドライバうんぬんでパススルーできなかったりなので、今回はCPUオンリーで。
Xeon E5と32GBメモリ積んでるし、小〜中規模のLLM(Llama 3.2 3Bや8B)は動かせそう...

3 名前:Guest 2026-05-01 16:14:41 ID:LGtSpYre

とりあえずWEBUIに入ったよ(ワクワク

投稿画像
4 名前:Guest 2026-05-01 16:32:14 ID:LGtSpYre

まずは軽いモデルを...
docker exec ollama ollama pull llama3.2

投稿画像
5 名前:Guest 2026-05-01 16:43:50 ID:LGtSpYre

llama3.2の回答速度は置いておいて、アウトプットの質をみてみよう。
llama3.2とgemini3 proに同じ質問を投げて、アプトプットにどんな違いがあるかを検証するよ。

質問

「うんこ味のカレー」と「カレー味のうんこ」
この2択を迫られたあなたは、どちらを選びますか?
理由も教えてください。
6 名前:Guest 2026-05-01 16:45:25 ID:LGtSpYre

結果は以下の通り。笑いのセンスだけはllama3.2がgemini3proより優秀っぽい。
gemini3pro

うんこ味のカレー
→味より命

llama3.2

カレー味のうんこ
→カレーの口感がうんこに合ったりするからです。カレーの強い風味や辛さがうんこの柔らかい性質に合うため、カレー味のうんこがよりおいしいと思います。
投稿画像
7 名前:Guest 2026-05-01 16:50:53 ID:LGtSpYre

軽量なモデルだと推論は苦手なんだろうね。
㊙ドキュメントの要約をローカルで行いたいときとかには使えそうだけど。

8 名前:Guest 2026-05-01 17:06:39 ID:LGtSpYre

次はgemma2 (9.2b)に >>5 と同じ質問を投げたとき、どれくらいホストに負荷がかかっているかもみてみよー

9 名前:Guest 2026-05-01 17:11:01 ID:LGtSpYre

あれ、意外と余裕なのかな。
4/32(GB)しかメモリ使ってないな。CPU使用率も思ったより高くない。
もうちょい重いモデルもイケるのか?

投稿画像
10 名前:Guest 2026-05-01 17:12:23 ID:LGtSpYre

>>9
ちなgemma2(9.2b)の回答は以下。
日本語が不自然だけど(英語で生成した回答を日本語に翻訳してるのかな...)、推論は上手にできてそう。

どちらも不気味な選択肢に思いますが...
私にはどちらも嫌いです。

「うんこ味のカレー」と「カレー味のうんこ」は、どちらも食べ物ではなくて、不快なものを意味する言葉で構成されているため、どちらも選ぶことが難しいです。

もし選択肢ができた場合は、「うんこ味のカレー」を選びます。理由は、うるさいことの意味をカレーに当てるのは一意のアイデアだと思います。これは、うるさいことがカレーの主食であるという不思議な考え方です。

もう一方の選択肢「カレー味のうんこ」も考えられません。理由は、この意味は無意味で、うるさいことの感情的な表現ではないためです。

どちらにしろ、どちらか選ぶことができなかったり、選ぶことができないような不完全な選択肢が提示された場合は、選びません。

残念ながら、答えは「うんこ味のカレー」を選ぶことです。
11 名前:Guest 2026-05-01 17:16:12 ID:LGtSpYre

メモリ使用量について 9.2Bのモデルだと、
ざっくり 92億×2バイト = 18GB で
18GBはフルで消費される想定だったんだけどなー

12 名前:Guest 2026-05-01 17:18:48 ID:LGtSpYre

>>11
調べたらollamaは標準で4-bit量子化してるらしい(?)
だとしたらメモリを4GBしか使ってなかったのも納得だな。

普通は16bitなんだけど、4bitに圧縮してるってことは
単純計算でデータ量が4分の1になるんだもんな。

量子化ってモデルの賢さには影響するのかな?

13 名前:Guest 2026-05-01 17:20:24 ID:LGtSpYre

>>12
Gemini先生に聞いてみた。

賢さはどれくらい落ちるのか?

驚くべきことに、近年の研究(GGUF形式など)では、4-bitまで圧縮しても、モデルの賢さ(ベンチマークスコア)は数%程度しか落ちないことが分かっています。
3-bitまで落とすと「あれ?少しおバカになったかな?」と感じ始めますが、4-bitは「賢さと軽さの黄金比」と言われています。

あれ、ローカルAI結構使えるんや。

14 名前:Guest 2026-05-01 17:51:35 ID:LGtSpYre

次はgemma2にwordファイルを渡して、ざっくり要約させてみた。
普通に要約できてる。(回答に20mかかってるけど)
今度は8GB/32GB程メモリを消費してた。

お金かければローカルAIのRAGできそー。

投稿画像
15 名前:Guest 2026-05-01 18:05:06 ID:kk5zhUSj

つよつよGPU積んだマシンほしー

16 名前:Guest 2026-05-03 06:50:58 ID:0XoiWpOn

gemma4:31bをpullしてみたけど、出先だから怖くて動かせないw
落ちたりしたら遠隔で電源上げられないからなー

17 名前:Guest 2026-05-03 06:56:24 ID:0XoiWpOn

>>16
そのうちswitchbot導入るかw

18 名前:Guest 2026-05-07 10:14:34 ID:z1//h07Y

>>16
家に帰ったら、動くかだけ試してみれば!!?
やばかったらkillで

19 名前:Guest 2026-05-07 11:54:23 ID:JnbraJhV

>>18
やってみましたー
うごきませんでした...

model requires more system memory (23.2 GiB) than is available (22.8 GiB)

投稿画像
20 名前:Guest 2026-05-07 11:57:35 ID:JnbraJhV

なんで利用可能が22.8GiBしかないんや...
少なくとも27GiBは使えるよなー(アイドル時に1.5GB/32GBくらいしかメモリ使ってないし)

21 名前:Guest 2026-05-23 03:50:47 ID:ZYyccvFr

MacPro2013にWindows Server2022ブチ込んだら、クッソ安定してて草www
Boot Camp用にドライバ落とせたのがデカい。
ちゃんとGPUも認識してるわ

22 名前:Guest 2026-05-23 03:52:12 ID:ZYyccvFr

>>21
MacPro2013にはWindows Server。
この結論にたどり着くまで長かったなwww
ollama動かしてみるか

23 名前:Guest 2026-05-23 03:58:21 ID:JfecWWRV

たらーん

投稿画像

新規投稿