見出し画像

パーソナライズされたVLMの論文紹介

論文名

MyVLM: Personalizing VLMs for User-Specific Queries

arXivリンク

https://arxiv.org/pdf/2403.14599.pdf

ひとこと要約

パーソナライズされたVLMであるMyVLMを提案。少数の学習データ(3-5枚)で特定の個人の情報をVLMに統合可能。


メモ

VLMの課題

現在のVLMは一般的な知識を持っているものの、個々のユーザーに特化した理解は難しい。(例えば、VLMは犬の画像を簡単に認識できるが、その犬があなたのペットだと理解することはできない)

MyVLM

MyVLM:上記の課題を解決すべく、VLMを改良したLLM
MyVLMは(1)個人の概念を認識し、(2)既存のVLMに統合することで、VLMに個人の概念を理解させる。

  • (1)概念の認識

    • Concept Headsを導入して、パーソナライズされた概念を理解させる。単一のパーソナライズされたコンセプトを認識することに特化させる。VLMと独立で学習するため、VLMの汎化性能は落とさないのが特徴。

    • モデル

      • CLIPを利用した線形分類器

      • 事前学習済み顔認識モデル

  • (2)概念の伝達

    • Concept Headsを介した出力であるconcept embeddingとVLMの出力をマージし、Q-Formerのクロスアテンション層で統合。

    • concept embeddingは、概念を表す文脈の少数の画像(3〜5枚)と、概念を示す特定の単語(concept identifier)のペアのデータセットから学習

引用:https://arxiv.org/pdf/2403.14599.pdf

MyVLM学習時の工夫

  • BLIP-2

    • Q-Formerのクロスアテンション層でconcept embeddingのキーと値の大きさを正規化し、アテンションの分布が極端に偏らないように正則化を導入

  • LLaVA

    • concept embeddingのベクトルの大きさを調整し、他のトークンからconcept embeddingへのアテンションが小さくなるようにL2正則化を導入

この記事が参加している募集

最近の学び

この記事が気に入ったらサポートをしてみませんか?