Command R Plusをローカルで動かす

2024年4月13日 19:44

GPT-PILOTをCommand R PlusのトライアルAPIに繋いで遊んでいたら、あっという間に利用上限（1ヶ月1000リクエスト）に達してしまいました。プロダクションキーを契約してみたものの、完成するかも分からないアプリのために、何度もAPIを呼ばれるのはつらいです。

LM StudioがCommand R Plusに対応したので、Ubuntuマシン（CPU i7-13700K、メモリ64GB、RTX4090）に、モデルをダウンロードして動かしてみることにしました。LM Studioは簡単に様々なLLMをローカルにダウンロードして、チャットができるアプリです。Open AI互換のAPIでアクセスすることもできます。

モデルは、ggml-c4ai-command-r-plus-104b-iq4_xs-00001-of-00002.ggufを選びました。4ビットに圧縮されたモデルで、SOME GPU OFFLOAD POSSIBLEと表示されています。

チャットしてみました。GPU Accelerationで、23レイヤーをGPUのVRAMに載せました。

1.29トークン/秒です。遅いです。しかもあまり賢くないような気が。。

Local Server画面で、サーバーを開始します。Presetで、Cohere Command Rを選択しておくと、Open AIのAPIフォーマットで、ローカルで起動したCommand R Plusとやりとりできるようになります。

GPT-PILOTとつなぎます。LM Studioに表示されているエンドポイント（http://localhost:1234/v1/chat/completions）を、GPT-PILOTの.envファイルのOPENAI_ENDPOINTに設定するだけです。

# OPENAI or AZURE or OPENROUTER (ignored for Anthropic)
ENDPOINT=OPENAI

# OPENAI_ENDPOINT=https://api.openai.com/v1/chat/completions
OPENAI_ENDPOINT=http://localhost:1234/v1/chat/completions
OPENAI_API_KEY=

AZURE_API_KEY=
AZURE_ENDPOINT=

これで、GPT-PILOTが、ローカルで起動したCommand R Plusを使うようになりました。試しに、日記帳アプリをお願いしてみます。

ひとつ応答が返ってくるのに20分以上かかりました。これでアプリを開発するのは無理そうです。

この記事が気に入ったらサポートをしてみませんか？