分類AIの進化史⑳CLIP
前回は、Swin Transformerを紹介しました。今回は、2021年にOpenAIが発表した論文Learning Transferable Visual Models From Natural Language Supervisionに登場するCLIPを解説します。
このタイトルを日本語に意訳すると「転移可能な画像分類モデルを自然言語で教師あり学習」といったところでしょうか。転移可能な画像分類モデルとは、特徴量の抽出に優れ転移学習などに応用できる画像分類モデルを意味します。つまり、そのようなモデルを自然言語で教師あり学習で訓練するということです。「自然言語で」というところがポイントです。
よくある教師あり学習では、大量の画像をラベル付きのデータセットを必要とします。このため、ラベルがないオブジェクトについては、学習も予測もできません。ところが、ImageNetでさえクラスの数は1000個しかありません。しかし、世の中は無数のオブジェクトで溢れています。では、どうしたら良いでしょうか。
CLIPでは、いわゆるラベルを使うのではなく、画像を説明するためのキャプション(字幕)を利用します。つまり、モデルは文章(自然言語)と画像が同じことを意味するのかを判断できるようになるわけです。しかし、一体どのようにしたら、そんなことが可能になるのでしょうか。
これまでこの「分類AIの進化史」シリーズを読んできた方なら、もう察しがつくでしょう。
この記事では、CLIPがどのように機能するか、そしてそれが画像分類を含め画像識別系のモデル全体に何をもたらすかについて考察します。
この記事が気に入ったらサポートをしてみませんか?