見出し画像

高性能なマルチモーダル大規模言語モデル:MM1についての論文紹介

論文名

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

arXivリンク

https://arxiv.org/pdf/2403.09611.pdf

ひとこと要約

高性能なマルチモーダル大規模言語モデル(MLLM)であるMM1モデルを構築。MM1は豊富な事前学習の実験で得られた知見によって構築。


メモ

MLLM作成のための要素

  • アーキテクチャ: 事前学習済みの画像エンコーダーの選択や、言語モデルと画像エンコーダーを接続する方法など。

  • データ: 使用するデータの種類とその混合比率。キャプションデータ、画像とテキストが交互に登場するデータ、テキストのみのデータなど。

  • 学習手順: ハイパーパラメータやどの部分をどのタイミングで学習するかなど。

MLLM作成のための実験で得られた知見

  • 画像エンコーダーは、高解像度の画像を使うことと、大規模なデータで事前学習することが重要。一方で言語モデルとの接続方法はあまり重要ではない。

  • 事前学習データは、zero-shotにはキャプションデータが、few-shotとテキストのみのタスクにはinterleaved データとテキストのみのデータが重要。

  • 画像データとテキストデータを適切な比率で混ぜ合わせることで、マルチモーダルの性能を最大化しつつ、言語理解能力も維持できる。

MM1

上記知見をもとに作成されたMLLMがMM1である。

  • 画像エンコーダー: 高解像度(378x378ピクセル)のViT-Hモデルを使用。DFN-5Bデータセットで事前学習済み。

  • Vision-Language Connector: トークン数を144に設定したC-Abstractorを使用。

  • データ: interleaved データ45%、キャプションデータ45%、テキストのみのデータ10%の割合で混合。(高解像度の画像、キャプションデータとinterleaved データを適切に組み合わせることが重要)

  • 事前学習: 200kステップ(約1000億トークン)、モデルの全パラメータ学習

  • 学習率: 言語モデルのスケーリング則を利用して、最適な学習率を推定。具体的には、小規模モデルで最適な学習率を探索し、その結果をもとに大規模モデルの学習率を外挿。

  • スケーリング:3B,7B,30B +MoE
    MoEはGShard とST-MoEの手法を参考。具体的には、Top-2ゲーティング、専門家の数、スパース層の配置などが工夫されている。またexpertの負荷バランスを取るためのロス項や、学習を安定化するためのロス項なども導入されている。

MM1の性能・知見

  • 事前学習の評価

    • 30Bモデルにおいて、キャプションのベンチマークとVizWiz-QAベンチマークで、既存の研究を上回る性能を達成。

    • VQAv2、TextVQA、OKVQAでは、同規模のEmu2モデルと同等の性能。

    • 小規模モデルにおいても、zero-shotでFlamingoと同等かそれ以上の性能。

  • 教師あり学習後の評価

    • 3Bと7Bのモデルにおいて、同サイズの既存モデルを上回る性能を達成し、新たなSOTAを樹立。

    • VQAv2、TextVQA、ScienceQA、MMBench、MMMU、MathVistaなどのベンチマークで特に高い性能。

    • Mixture-of-Experts (MoE) モデルが、ほぼ全てのベンチマークでdenseモデルを上回る性能を達成。

    • 30Bモデルにおいても、Emu2-Chat-37BやCogVLM-30Bを上回る性能。

  • 獲得した性質

    • 文脈内学習: 複数の画像とテキストを文脈として利用し、質問に答えたり、キャプションを生成したりすることができる。

    • 複数画像を使った推論: 複数の画像を組み合わせて、より高度な推論を行うことができる。

    • 思考連鎖を用いたfew-shot学習: 教師あり学習のデータには単一画像しか含まれていないにも関わらず、few-shotでの思考連鎖を用いた推論が可能。

この記事が気に入ったらサポートをしてみませんか?