見出し画像

分類AIの進化史㉒MobileViT

前回は、畳み込みもアテンションも使わないMLP-Mixerの解説をしました。今回は、畳み込みもアテンションも使う(組み合わせた)MobileViTを紹介します。

MobileViTの論文は、2021年にAppleが発表しました。

そのタイトルは「MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer」で、日本語に訳すとしたら「MobileViT: 軽量、汎用、モバイル・フレンドリーなビジョン・トランスフォーマー」といったところでしょうか。

意図としては、モバイル向け(軽量、高速)なモデルを構築することを目指しています。そのため、パラメータが比較的に少ない畳み込みを画像の局所的な特徴を捉えるために使い、アテンションを画像全体を通じたパターンを認識するために使うことを提案しました。

MobileViTは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)を組み合わせたモデルであり、ResNetMobileNetV3などと比較して、より軽量でより高い精度を達成しました。

論文図6(a)(ImageNetでの実験結果)

なお、MobileViTのソースコードは、CVNetsという名前のライブラリの一部として公開されています。

さて、MobileViTでは、どのようにしてCNNとViTを組み合わせたのでしょうか?

この記事では、MobileViTの仕組みを解説します。


ここから先は

3,909字 / 20画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?