見出し画像

マイクロソフト、軽量の生成AIモデルPhiを発表PC上でLLM実行

マイクロソフトは4月24日(火)、少量のデータで学習可能な人工知能モデルの提供を開始した。
マイクロソフトによると、Phi-3-miniはいわゆる小型言語モデルで、Hugging FaceとOllamaで利用可能であり、大型言語モデルに匹敵するほどのコンピューティング・リソースを必要としないという。

Phi-3の秘密の要素:データセットの革新
Phi-3-miniの成功の鍵は、アーキテクチャやサイズではなく、訓練に使用されるデータセットにあります。マイクロソフトの研究者は、Phi-2に使用されたデータセットの拡大版を開発しました。このデータセットは次のもので構成されています:

  • 厳選されたWebデータ

  • 合成データ
    この注意深くキュレーションされたデータセットにより、モデルはより効率的かつ効果的に学習し、小さなサイズにもかかわらずより優れたパフォーマンスを発揮することができます。

1) Phi-3-mini: 驚くべきパフォーマンス
Phi-3-miniは、3.3兆トークンで訓練された38億のパラメータを持つ小さな言語モデルです。
このモデルはMixtral 8x7BやGPT-3.5といった大規模モデルと同等のパフォーマンスを発揮します。
Phi-3-miniの主な特徴は以下の通りです:

  • アーキテクチャ: Transformerデコーダ

  • コンテキストの長さ: デフォルト4K、LongRopeを使用した長いコンテキストバージョンは128K

  • トークナイザ: Llama-2と同じ、語彙サイズ320,641

  • モデルの仕様: 隠れ層の次元3,072、ヘッド32、レイヤー32

  • 訓練: 精度bfloat16、トークン数3.3兆

Phi-3-miniは、堅牢性、安全性、チャット形式への適応性を備えており、さまざまなアプリケーションに適したモデルです。ベンチマークテストでは、MMLU 69%、MT-bench 8.38のスコアを得ています。

2)Phi-3-medium: パフォーマンスのスケーリング
マイクロソフトはさらに、Phi-3-mediumという中規模モデルも開発しました。このモデルは140億のパラメータを持ち、48兆のトークンで訓練されています。
Phi-3-mediumの主な特徴は以下の通りです:

  • パラメータ: 140億

  • トークン数: 48兆

  • トークナイザ: Phi-3-miniと同じ、tiktoken、語彙サイズ100,352

  • コンテキストの長さ: 8K

  • モデル仕様: レイヤー32、隠れ層のサイズ4,096

  • 訓練: 追加の10%の多言語データ

Phi-3-mediumのベンチマークテストでは、MMLU 78%、MT-bench 8.9のスコアを得ています。これは、Phi-3-miniに使用されたデータセットの革新が効果的にスケーリングできることを示しています。

3)Phi-3モデルの特徴と他モデルとの比較

  • 小さなサイズにもかかわらず、大規模モデルと同等のパフォーマンスを発揮

  • データセットの革新が重要な役割を果たしている

  • 堅牢性、安全性、チャット形式への適応性を備えている

  • リソース制限の厳しいデバイスにもデプロイ可能

Phi-3モデルのパフォーマンスは、他の言語モデルと比較しても優れています。たとえば、Phi-3-miniはパラメータ数が少ないにもかかわらず、MMLUやMT-benchのスコアが同等かそれ以上となっています。

4)業界への影響と展望
Phi-3モデルのリリースは、AI業界に重要な影響を与えています。

  • 「大きいほど良い」という考えに挑戦し、適切なデータセットとトレーニング技術の重要性を示した

  • データセットの最適化に焦点が移る可能性がある

  • 高性能な言語モデルのアクセシビリティが向上する可能性がある

  • 責任あるAI開発に寄与する可能性がある

Phi-3モデルの登場は、言語モデルの開発における重要な節目であり、AIのパフォーマンス向上と責任あるAI開発に大きな影響を与えると考えられます。今後の展開に注目が集まっています。

この記事が気に入ったらサポートをしてみませんか?