CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a $10,000 Budget; An Extra $4,000 Unlocks 81.8% Accuracy

Ikemen Mas Kot

2024年4月3日 15:40

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

本研究は、先行研究であるCLIPAに基づいて行われています。CLIPAは、CLIPトレーニングにおける逆スケーリングの法則を提案しており、画像/テキストエンコーダーが大きくなるほど、トレーニングに適用できる画像/テキストトークンのシーケンス長が短くなることを示しています。この結果、計算量を大幅に削減しながら高性能なCLIPモデルをトレーニングすることが可能になりました。本研究では、CLIPA-v2という新しい手法を提案しています。CLIPA-v2では、逆スケーリングの法則がファインチューニングの段階でも適用可能であることを発見し、さらなる計算量の削減が可能となりました。また、実験では、H/14モデルまで拡張し、トレーニング中に約13Bの画像-テキストペアを使用しました。
本研究の目的は、限られた予算内で高い性能を持つCLIPモデルをトレーニングすることです。予算は$10,000であり、この予算内で81.1%のゼロショットImageNetの精度を達成することを目指しています。また、追加の投資$4,000で、ゼロショットImageNetの精度を81.8%まで向上させることも目指しています。
本研究で使用されたデータは、LAION-400MとLAION-2Bのデータセットです。トレーニング中には、LAION-400Mデータセットで2.56B + 128Mのサンプル、LAION-2Bデータセットで12.8B + 128Mのサンプルを使用しました。
本研究で使用された手法は、CLIPA-v2です。CLIPA-v2は、CLIPトレーニングにおける逆スケーリングの法則を応用しています。具体的には、画像/テキストエンコーダーが大きくなるほど、トレーニングに適用できる画像/テキストトークンのシーケンス長が短くなることを利用しています。これにより、計算量を削減しながら高性能なCLIPモデルをトレーニングすることが可能となりました。
本研究によって明らかになったことは、限られた予算内で高い性能を持つCLIPモデルをトレーニングする方法が見つかったことです。予算$10,000で81.1%のゼロショットImageNetの精度を達成し、計算量を約39倍削減することができました。さらに、追加の投資$4,000でゼロショットImageNetの精度を81.8%まで向上させることも可能です。これにより、限られた予算や計算リソースでも高性能なCLIPモデルを実現することができます。

この記事が気に入ったらサポートをしてみませんか？