ローカルLLM｜Baku

【ローカルLLM】言語モデルの知識編集を試す（Knowledge Editing）

言語モデルの研究領域の一つに「知識編集(Knowledge Editing)」というものがあるらしい。近…

Baku

5か月前

29

【llama.cpp】CPUとRAM、どっちが重要？

llama.cppのCPUオンリーの推論について CPUでもテキスト生成自体は意外にスムーズ。なのに、…

Baku

5か月前

6

【llama.cpp】Qwen-14BをGGUF量子化して日本語で試す

2023/12/05：llama.cppが「Qwen」に対応したので試しました。「Qwen」は中国Alibabaグループ…

Baku

5か月前

7

【ローカルLLM】Mixtral-8x7bをllama.cppで試す

2023/12/12：llama.cppで「Mixtral-8x7b」のGGUF量子化モデルを試しました（現時点でまだmerge…

Baku

5か月前

18

GPT 3.5-turboが20Bパラメータという話の後日談

TL;DR　論文著者によれば「論文に書いたパラメータ数の出所はForbesの記事であり、その記事に…

Baku

6か月前

11

【ローカルLLM】ELYZA-Llama-2を機械翻訳APIとして使ってみる

LLMの物語生成のテスト（趣味）に使うため「TinyStories」というデータセットを日本語訳したい…

Baku

8か月前

16

【ローカルLLM】llama.cppの「投機的サンプリング」を試す

llama.cppに「Speculative Sampling（投機的サンプリング）」という実験的な機能がマージされて話題になっていた。この手法については、OpenAIのKarpathy氏が以下のポストで解説している。この説明を素人頭で解釈するに、人間がスマホの予測変換を利用して文章を書くのに似ている。大型のLLMでイチから推論させると時間がかかるので、先に軽量のLLMに候補となるトークンを提案させる。メインのLLMは、提案されたトークンで良いなら、そのまま採用す

【ローカルLLM】text-generation-webUIのAPI機能を試す

ローカルLLMをAPI的に使う場合は、llama.cpp（GGUF/GGML）が手軽そう。ただ、大きなモデルでは…

Baku

8か月前

26

【ローカルLLM】GPTQ-for-LLaMAによるモデルの量子化を試す

Llama系モデルのGPTQ量子化＆推論に使用できるパッケージには、AutoGPTQの他に、GPTQ-for-LLaM…

Baku

8か月前

10

【ローカルLLM】Hugging FaceによるGPTQ量子化ガイド

ローカルLLMの量子化フォーマットとしては、llama.cpp(GGUF/GGML)とGPTQの2種類が広く使われて…

Baku

8か月前

23

【ローカルLLM】Gradioとllama-cpp-pythonで日本語チャットボットを作る

先日の記事に続き、ウェブUI用のPythonライブラリ「gradio」を使って、簡単なチャットボットを…

Baku

9か月前

28

【ローカルLLM】日本語強めの多言語モデル「OpenBuddy-Llama2」を試す

「OpenBuddy-Llama2-13B」というモデルを試したところ、わりと日本語が良かった。英文和訳など…

Baku

9か月前

19

【ローカルLLM】Colabの標準GPUで「CodeLlama-34B-GGUF」を動かす

Metaがコーディング用の言語モデル「Code Llama」をリリースした。 7月に公開済みのLlama-2を…

Baku

9か月前

11

【ローカルLLM】Gradio+CTranslate2で日本語LLMのチャットUIをつくる

夏になって立て続けに日本語LLMが公開されたので、遅ればせながらいくつか試している。生成AIのColabでおなじみのcamenduruさんがtext-generation-webUIの日本語LLM用Colabをアップしていたので、使わせてもらっている。ただ、軽い量子化モデルも試したいのと、自分用のシンプルなチャットUIがあったら便利かも、という思いつきで自作してみることにした。今回は、ウェブUI用のPythonライブラリGradio＋言語モデルの量子化・推論用のラ

ローカルLLM

記事一覧

【ローカルLLM】言語モデルの知識編集を試す（Knowledge Editing）

【llama.cpp】CPUとRAM、どっちが重要？

【llama.cpp】Qwen-14BをGGUF量子化して日本語で試す

【ローカルLLM】Mixtral-8x7bをllama.cppで試す

GPT 3.5-turboが20Bパラメータという話の後日談

【ローカルLLM】ELYZA-Llama-2を機械翻訳APIとして使ってみる

【ローカルLLM】llama.cppの「投機的サンプリング」を試す

【ローカルLLM】text-generation-webUIのAPI機能を試す

【ローカルLLM】GPTQ-for-LLaMAによるモデルの量子化を試す

【ローカルLLM】Hugging FaceによるGPTQ量子化ガイド

【ローカルLLM】Gradioとllama-cpp-pythonで日本語チャットボットを作る

【ローカルLLM】日本語強めの多言語モデル「OpenBuddy-Llama2」を試す

【ローカルLLM】Colabの標準GPUで「CodeLlama-34B-GGUF」を動かす

【ローカルLLM】Gradio+CTranslate2で日本語LLMのチャットUIをつくる