マイクロソフト、軽量の生成AIモデルPhiを発表PC上でLLM実行
マイクロソフトは4月24日(火)、少量のデータで学習可能な人工知能モデルの提供を開始した。
マイクロソフトによると、Phi-3-miniはいわゆる小型言語モデルで、Hugging FaceとOllamaで利用可能であり、大型言語モデルに匹敵するほどのコンピューティング・リソースを必要としないという。
Phi-3の秘密の要素:データセットの革新
Phi-3-miniの成功の鍵は、アーキテクチャやサイズではなく、訓練に使用されるデータセットにあります。マイクロソフトの研究者は、Phi-2に使用されたデータセットの拡大版を開発しました。このデータセットは次のもので構成されています:
厳選されたWebデータ
合成データ
この注意深くキュレーションされたデータセットにより、モデルはより効率的かつ効果的に学習し、小さなサイズにもかかわらずより優れたパフォーマンスを発揮することができます。
1) Phi-3-mini: 驚くべきパフォーマンス
Phi-3-miniは、3.3兆トークンで訓練された38億のパラメータを持つ小さな言語モデルです。
このモデルはMixtral 8x7BやGPT-3.5といった大規模モデルと同等のパフォーマンスを発揮します。
Phi-3-miniの主な特徴は以下の通りです:
アーキテクチャ: Transformerデコーダ
コンテキストの長さ: デフォルト4K、LongRopeを使用した長いコンテキストバージョンは128K
トークナイザ: Llama-2と同じ、語彙サイズ320,641
モデルの仕様: 隠れ層の次元3,072、ヘッド32、レイヤー32
訓練: 精度bfloat16、トークン数3.3兆
Phi-3-miniは、堅牢性、安全性、チャット形式への適応性を備えており、さまざまなアプリケーションに適したモデルです。ベンチマークテストでは、MMLU 69%、MT-bench 8.38のスコアを得ています。
2)Phi-3-medium: パフォーマンスのスケーリング
マイクロソフトはさらに、Phi-3-mediumという中規模モデルも開発しました。このモデルは140億のパラメータを持ち、48兆のトークンで訓練されています。
Phi-3-mediumの主な特徴は以下の通りです:
パラメータ: 140億
トークン数: 48兆
トークナイザ: Phi-3-miniと同じ、tiktoken、語彙サイズ100,352
コンテキストの長さ: 8K
モデル仕様: レイヤー32、隠れ層のサイズ4,096
訓練: 追加の10%の多言語データ
Phi-3-mediumのベンチマークテストでは、MMLU 78%、MT-bench 8.9のスコアを得ています。これは、Phi-3-miniに使用されたデータセットの革新が効果的にスケーリングできることを示しています。
3)Phi-3モデルの特徴と他モデルとの比較
小さなサイズにもかかわらず、大規模モデルと同等のパフォーマンスを発揮
データセットの革新が重要な役割を果たしている
堅牢性、安全性、チャット形式への適応性を備えている
リソース制限の厳しいデバイスにもデプロイ可能
Phi-3モデルのパフォーマンスは、他の言語モデルと比較しても優れています。たとえば、Phi-3-miniはパラメータ数が少ないにもかかわらず、MMLUやMT-benchのスコアが同等かそれ以上となっています。
4)業界への影響と展望
Phi-3モデルのリリースは、AI業界に重要な影響を与えています。
「大きいほど良い」という考えに挑戦し、適切なデータセットとトレーニング技術の重要性を示した
データセットの最適化に焦点が移る可能性がある
高性能な言語モデルのアクセシビリティが向上する可能性がある
責任あるAI開発に寄与する可能性がある
Phi-3モデルの登場は、言語モデルの開発における重要な節目であり、AIのパフォーマンス向上と責任あるAI開発に大きな影響を与えると考えられます。今後の展開に注目が集まっています。
この記事が気に入ったらサポートをしてみませんか?