Meta 最新大規模言語モデル「Meta Llama 3」をオープンソース公開

2024年4月21日 10:24

Metaが開発した最新の大規模言語モデル「Meta Llama 3」が、オープンソースとして公開されました。このモデルは、8Bおよび70Bのパラメータを持つ事前学習済みおよび指示に基づいて微調整された言語モデルを特徴とし、幅広い用途に対応可能です。Llama 3は、業界ベンチマークにおいて最先端の性能を示し、推論力の向上などの新機能を提供します。

AWS、Databricks、Google Cloudなどのプラットフォームで利用可能になる予定で、AMD、Dell、Intelなどのハードウェアプラットフォームのサポートも受けています。Llama 3の開発は責任を持って行われ、新しい信頼性と安全性のツール「Llama Guard 2」、「Code Shield」、「CyberSec Eval 2」が導入されています。

今後数ヶ月で、新しい機能、より長いコンテキストウィンドウ、追加のモデルサイズ、性能の向上が期待されており、Llama 3の研究論文も公開される予定です。Meta AIは、Llama 3の技術を活用しており、知能を高め、作業負荷を軽減する世界有数のAIアシスタントとなっています。

Llama 3の目標は、現在利用可能な最高のプロプライエタリモデルに匹敵する最高のオープンモデルを構築することです。開発者からのフィードバックに応え、Llama 3の有用性を高めることを目指しています。

新しい8Bおよび70Bパラメータモデルは、Llama 2を大きく上回り、その規模でのLLMモデルの新たな標準を確立しました。事前学習と事後学習の改善により、これらのモデルは、8Bおよび70Bパラメータ規模で現存する最高のモデルです。事後学習手順の改善により、誤った拒否率が大幅に低減され、モデルの応答の整合性が向上し、応答の多様性が増しました。推論、コード生成、指示に従う能力などの機能が大幅に向上し、Llama 3をより操作しやすくしています。

Llama 3は、公開されているソースから収集された15Tトークン以上で事前学習されており、トレーニングデータセットはLlama 2の7倍の大きさで、コードも4倍含まれています。今後の多言語ユースケースに備えて、Llama 3の事前学習データセットの5％以上が、30以上の言語をカバーする高品質の非英語データで構成されています。

優れた言語モデルを開発するためには、革新、スケールアップ、シンプルさの最適化が重要であると考えています。この設計哲学に沿って、Llama 3プロジェクト全体で、モデルアーキテクチャ、事前学習データ、事前学習のスケールアップ、指示に基づく微調整の4つの主要な要素に焦点を当てています。Llama 3は、128Kトークンの語彙を持つトークナイザーを使用し、言語をより効率的にエンコードすることで、モデルの性能が大幅に向上しています。また、8,192トークンのシーケンスでトレーニングされ、自己注意が文書の境界を越えないようにマスクを使用しています。

これらの進歩により、Llama 3は、AI技術の新たな時代を切り開く可能性を秘めています。開発者や研究者にとって、これは革新的なツールであり、AIの未来を形作る重要な一歩となるでしょう。Llama 3の公開は、AIコミュニティにとって新たな波を起こすきっかけとなり、アプリケーションから開発ツール、評価、推論の最適化に至るまで、AIスタック全体における革新の次の波を開始することを目指しています。私たちは、皆さんが何を構築するかを楽しみにしており、フィードバックをお待ちしています。Llama 3のリリースは、AI技術の進化と共に、私たちの生活をより豊かにするための一歩です。

詳細内容は、metaが提供する元記事を参照してください。

【引用元】

【読み上げ】
VOICEVOX 四国めたん/No.7

この記事が気に入ったらサポートをしてみませんか？