見出し画像

パーソナライズされたVLMの論文紹介

2024年3月24日 13:03

論文名

MyVLM: Personalizing VLMs for User-Specific Queries

arXivリンク

https://arxiv.org/pdf/2403.14599.pdf

ひとこと要約

パーソナライズされたVLMであるMyVLMを提案。少数の学習データ(3-5枚)で特定の個人の情報をVLMに統合可能。

メモ

VLMの課題

現在のVLMは一般的な知識を持っているものの、個々のユーザーに特化した理解は難しい。(例えば、VLMは犬の画像を簡単に認識できるが、その犬があなたのペットだと理解することはできない)

MyVLM

MyVLM:上記の課題を解決すべく、VLMを改良したLLM
MyVLMは(1)個人の概念を認識し、(2)既存のVLMに統合することで、VLMに個人の概念を理解させる。

(1)概念の認識
- Concept Headsを導入して、パーソナライズされた概念を理解させる。単一のパーソナライズされたコンセプトを認識することに特化させる。VLMと独立で学習するため、VLMの汎化性能は落とさないのが特徴。
- モデル
  - CLIPを利用した線形分類器
  - 事前学習済み顔認識モデル

(2)概念の伝達
- Concept Headsを介した出力であるconcept embeddingとVLMの出力をマージし、Q-Formerのクロスアテンション層で統合。
- concept embeddingは、概念を表す文脈の少数の画像(3〜5枚)と、概念を示す特定の単語(concept identifier)のペアのデータセットから学習

引用:https://arxiv.org/pdf/2403.14599.pdf

MyVLM学習時の工夫

BLIP-2
- Q-Formerのクロスアテンション層でconcept embeddingのキーと値の大きさを正規化し、アテンションの分布が極端に偏らないように正則化を導入
LLaVA
- concept embeddingのベクトルの大きさを調整し、他のトークンからconcept embeddingへのアテンションが小さくなるようにL2正則化を導入

この記事が参加している募集

最近の学び

この記事が気に入ったらサポートをしてみませんか？