分類AIの進化史⑳CLIP

2024年4月10日 17:45

前回は、Swin Transformerを紹介しました。今回は、2021年にOpenAIが発表した論文Learning Transferable Visual Models From Natural Language Supervisionに登場するCLIPを解説します。

このタイトルを日本語に意訳すると「転移可能な画像分類モデルを自然言語で教師あり学習」といったところでしょうか。転移可能な画像分類モデルとは、特徴量の抽出に優れ転移学習などに応用できる画像分類モデルを意味します。つまり、そのようなモデルを自然言語で教師あり学習で訓練するということです。「自然言語で」というところがポイントです。

よくある教師あり学習では、大量の画像をラベル付きのデータセットを必要とします。このため、ラベルがないオブジェクトについては、学習も予測もできません。ところが、ImageNetでさえクラスの数は1000個しかありません。しかし、世の中は無数のオブジェクトで溢れています。では、どうしたら良いでしょうか。

CLIPでは、いわゆるラベルを使うのではなく、画像を説明するためのキャプション（字幕）を利用します。つまり、モデルは文章（自然言語）と画像が同じことを意味するのかを判断できるようになるわけです。しかし、一体どのようにしたら、そんなことが可能になるのでしょうか。

これまでこの「分類AIの進化史」シリーズを読んできた方なら、もう察しがつくでしょう。

この記事では、CLIPがどのように機能するか、そしてそれが画像分類を含め画像識別系のモデル全体に何をもたらすかについて考察します。

ここから先は

6,176字 / 5画像

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？