見出し画像

MacStudio(M2MAX96GBユニファイドメモリ)の推論能力

推論能力を測定してみました。
gradioで、モデル切り替えて遊べる環境を作ります!
こちらのリポジトリにgradioのソースコードを置いておきます
https://github.com/flymywife/LLMSpeedTester

Meta-Llama-3-8B-Instruct.Qa_K_M.gguf

こんな感じの画面で空のクエリを飛ばしてスピードを図ります

Elapsed time: 27.71 seconds
Tokens per second: 18.05

27.71秒返答に時間がかかり
1秒につき18.05token生成できているらしいです
返答速度と計算が合わない気もしますね


codellama-34b-instruct.Q4_K_M.gguf

Elapsed time: 50.44 seconds
Tokens per second: 9.91

Meta-Llama-3-70B-Instruct-Q4_K_M.gguf

Elapsed time: 33.66 seconds
Tokens per second: 6.45

こんな感じでした!

ちなみに生成しているときも常にメモリがほぼ使われていませんでした
何か設定しないとユニファイドメモリは使われないっぽいですね

というかGPUが全く使われてなかったです。
色々調べてみたらllama.cppをクローンして色々設定して使わないとGPUを使えないみたいです。
次はMacでllama.cppを使ってGPUを使う記事を書いてみます。

この記事が気に入ったらサポートをしてみませんか?