Command R Plusをローカルで動かす
GPT-PILOTをCommand R PlusのトライアルAPIに繋いで遊んでいたら、あっという間に利用上限(1ヶ月1000リクエスト)に達してしまいました。プロダクションキーを契約してみたものの、完成するかも分からないアプリのために、何度もAPIを呼ばれるのはつらいです。
LM StudioがCommand R Plusに対応したので、Ubuntuマシン(CPU i7-13700K、メモリ64GB、RTX4090)に、モデルをダウンロードして動かしてみることにしました。LM Studioは簡単に様々なLLMをローカルにダウンロードして、チャットができるアプリです。Open AI互換のAPIでアクセスすることもできます。
モデルは、ggml-c4ai-command-r-plus-104b-iq4_xs-00001-of-00002.ggufを選びました。4ビットに圧縮されたモデルで、SOME GPU OFFLOAD POSSIBLEと表示されています。
チャットしてみました。GPU Accelerationで、23レイヤーをGPUのVRAMに載せました。
1.29トークン/秒です。遅いです。しかもあまり賢くないような気が。。
Local Server画面で、サーバーを開始します。Presetで、Cohere Command Rを選択しておくと、Open AIのAPIフォーマットで、ローカルで起動したCommand R Plusとやりとりできるようになります。
GPT-PILOTとつなぎます。LM Studioに表示されているエンドポイント(http://localhost:1234/v1/chat/completions)を、GPT-PILOTの.envファイルのOPENAI_ENDPOINTに設定するだけです。
# OPENAI or AZURE or OPENROUTER (ignored for Anthropic)
ENDPOINT=OPENAI
# OPENAI_ENDPOINT=https://api.openai.com/v1/chat/completions
OPENAI_ENDPOINT=http://localhost:1234/v1/chat/completions
OPENAI_API_KEY=
AZURE_API_KEY=
AZURE_ENDPOINT=
これで、GPT-PILOTが、ローカルで起動したCommand R Plusを使うようになりました。試しに、日記帳アプリをお願いしてみます。
ひとつ応答が返ってくるのに20分以上かかりました。これでアプリを開発するのは無理そうです。
この記事が気に入ったらサポートをしてみませんか?