見出し画像

sd-scriptsのLoRAのキャプションについて

※rentryのいろいろLoRA作成記録から移植したものです。

LoRA学習におけるdanbooruタグを用いたキャプションについて個人的な意見を記します。
ここではマルゼン式と呼ばれるタグをトリガーワードに集約する手法を使用しており集約する理由などについて解説します。
なお、SDXLでは集約しなくてもトリガーワードは十分機能します。


キャラクター

先頭にキャラ名を追加します。Keep tokenは1。

タグを消す(集約する)理由

キャラを召喚するのにblonde hair, bangs, blue eyes....のように特徴の単語を入力するのは面倒くさいですよね。
そこで、特徴の単語を1つにまとめることで1単語で召喚できるようにします。
なお、残したタグは個別に覚えるので脱がせたり部分的にアレンジしたりするといったことができるはずです。
1girlは消さないほうがいいでしょう。消すと生成時に1girlと指定しても2girlsになったりする場合があります。

消すべきタグ

  • 身体的特徴

    • キャラを1プロンプトで召喚したいのでその類のタグは消す。消すことでそれらの特徴を先頭の1タグで覚える。どの程度集約するかはお好みで。

  • 抽象的なタグ(例:virtual youtuber,highres)

    • どの画像につくかわからないタグはどうせ覚えないから不要。

  • 誤検出タグ

    • ベースモデルの記憶と混ざって意図しないものが出てくる可能性がある。

消すべきでないタグ

  • 衣装

    • 着せ替えしたいなら残す。

  • 人数(1girlなど)

    • 消すと生成時に1girlと指定しても2girlsになったりする。

  • 方向(from behindなど)

    • 消すと複数の向きが混ざる可能性あり。


サンプル

この画像には以下のタグがついています。

1girl, kayoko (blue archive), solo, multicolored hair, red eyes, skirt, hood, horns, white hair, hoodie, black hair, two-tone hair, v, looking at viewer, plaid skirt, ponytail, choker, halo, plaid, red skirt, long sleeves, black hoodie, hair between eyes, piercing, bangs, pleated skirt, ear piercing, hood down, closed mouth

この画像から、次のタグを削除します。するとそれらのタグがkayoko (blue archive)に集約されます。

white_hair,horns,black_hair,halo,red_eyes,two-tone_hair,wings,multicolored_hair,halo

タグの並びをAnimagineなどが推奨する並びにするかは任意で特に影響はありません。

構図・シチュエーション

先頭にトリガーワード(学習対象を呼び出す単語)を追加します。Keep tokenは1。

消すべきタグ

  • 抽象的なタグ(virtual youtuberやhighresなど)

    • どの画像につくかわからないタグは不要。

  • キャラクター名

    • 生成時に特定の名前を入れると特定の教師画像の影響が強く出る場合がある。

  • 誤検出タグ

    • ベースモデルの記憶と混ざって意図しないものが出てくる可能性がある。

画風

キャラなどを覚えるわけではないのでkeep tokenは0。なおShuffle captionは有効。
Optimizerは余計な物まで学習することが少ないAdamWかLionでよいと思います。

消すべきタグ

無し。すべてそのままでいい。キャラ名は消してもいいかも。

オブジェクト(持ち物)

先頭にトリガーワード(学習対象を呼び出す単語)を追加します。Keep tokenは1。

消すべきタグ

  • 意味が矛盾、重複するタグ(例:gun,weapon,assault rifle)

    • そのままにしておくと複数の概念が混ざり、持ち方を変えるといったことができなくなる。

  • 抽象的なタグ(例:virtual youtuber,highres)

    • どの画像につくかわからないタグはどうせ覚えないから不要。

  • キャラクター名

    • 生成時に特定のキャラ名を入れると特定の教師画像の影響が強く出る。

  • 誤検出タグ

    • ベースモデルの記憶と混ざって意図しないものが出てくる可能性がある。


この記事が気に入ったらサポートをしてみませんか?