🐸_LLM_お手軽にローカルLLMを使いたい！

Aoi@自分用メモ

2024年2月27日 17:40

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

LLaMA.cpp

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

NVIDIA Chat with RTX

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

text-generation-webui

・stablediffusion A1111みたい
・創作に向いてそう

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

LM Studio

#########################################################

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃
🦊_オープンソースLLM配布場所 | huggingface

ベンチマーク用語解説
これらのベンチマークは、推論能力、常識の理解、多タスク精度、真実性、問題解決スキルなど、さまざまな側面から生成型言語モデルを評価するために使用されます。各ベンチマークの詳細な説明は以下の通りです：

(ARC)

AI2 推論チャレンジ (25-shot): 高いほどよい？
　ARCは、学校の理科試験に典型的な選択問題で構成されています。これらの問題は、

科学的知識を新しい状況に適用する能力、すなわちモデルの推論能力

を試すように設計されています。"25-shot"設定は、実際のテスト問題を解く前に、モデルに25の例（質問と回答のペア）を提供することを意味します。これにより、モデルは限られた文脈で質問のタイプに「学習」または「適応」することができます。

HellaSwag

(10-shot): 高いほど良い？

　このベンチマークは、複数の選択肢から正しい結末を選ぶことで、モデルの常識推論能力を評価します。人間にとっては容易（約95%の成功率）であるが、最先端モデルにとっては難しい設計になっています。"10-shot"構成は、モデルがテスト問題を試みる前に、タスクを理解するための10の例を提供します。
　Massive Multitask Language Understanding (5-shot): （高いほど良い？）　MMLUは、
小学校の算数、アメリカ史、コンピュータサイエンス、法律など、

57の異なるタスクをカバーする包括的なテストです。このベンチマークは、多様なトピックや質問タイプを扱う能力、すなわちモデルの多タスク精度を測定します。"5-shot"設定は、テストタスクに取り組む前に、モデルに5つの例を学習させることを目的としています。

TruthfulQA　ー低いほど良い？

(0-shot): TruthfulQAは、オンラインで一般的に見つかる　（低いほど良い？）

　虚偽　をモデルが再生産する傾向

を測定するために設計されています。"0-shot"タスクとラベル付けされていますが、ハーネスでは、各質問が真実性をプライムするために6つの質問回答ペアで提示されるため、技術的には"6-shot"タスクになります。このベンチマークは、モデルが正確で真実の回答を提供する能力を評価するために不可欠です。

Winogrande

(5-shot): Winograndeは、Winogradスキーマチャレンジの拡張版であり、

　常識推論

をより大規模にテストするための敵対的なベンチマークです。

文の文脈と常識知識を理解することを要求する空欄埋め問題を提示します。"5-shot"設定は、これらの質問にどのように取り組むかについての文脈をモデルに提供することを目的としています。

Grade School Math (GSM8k)

(5-shot): GSM8kは、多様な小学校の算数の言葉の問題で構成されています。これは、モデルが複数ステップの数学的推論問題を理解し解決する能力を測定します。ここでの"5-shot"形式は、モデルが解決する必要がある数学の問題の種類を感じ取ることができるようにすることを目的としています。

これらのベンチマークは、モデルの能力の包括的な視点を提供します。推論や問題解決スキルから、タスクを真実かつ常識的に扱う能力まで、研究者や開発者がモデルの強みと限界を理解し、将来の改善に向けて指針を提供します。

マークの意味
🟢 : 事前訓練済みモデル: 与えられたコーパスで訓練された新しいベースモデル。

🔶 : ドメイン固有のデータセットでファインチューニングされたモデル：事前に訓練されたモデルをより多くのデータでファインチューニングしたモデル

💬 : チャットモデル（RLHF、DPO、IFT、...）モデル: IFT（タスク指示のデータセット）、RLHF、DPO（ポリシーの追加でモデル損失を少し変更）などを使って、チャットのような微調整を行う。

🤝 : base merges and moerges model: mergesまたはMoErges、追加の微調整なしでマージまたは融合されたモデル。アイコンがない場合、そのモデルの情報はまだアップロードされていません！

「Flagged "は、このモデルがコミュニティによってフラグを立てられたことを示します！リンクをクリックすると、そのMODに関するディスカッションに移動します。

この記事が気に入ったらサポートをしてみませんか？