見出し画像

LLMの強化学習をLoRAによって効率化する論文紹介

論文名

PERL: Parameter Efficient Reinforcement Learning from Human Feedback

arXivリンク

https://arxiv.org/pdf/2403.10704.pdf

ひとこと要約

計算コストが高いLLMのRLHFをLoRAで効率化する手法(PERL)を提案


メモ

RLHFは有効なLLMのファインチューニング手法だが、計算コストが高く複雑である。そこでLoRAを用いてパラメータを効率化させたPERLを提案。

PERLは従来のRLHFと同等の性能を発揮しつつ、学習が高速で必要メモリも少ないため、LLMのRLHFを効率化できる。

また強化学習用のデータセットを2つ作成。

  1. Taskmaster Coffee データセット

    1. 6,500の多ターン対話で構成され、20,000の学習用例(会話のターンやAPIコール)と3,000の報酬用例を含む。

    2. 報酬用のデータセットには、2,775の「thumbs up」ラベル付き例と453の「thumbs down」ラベル付き例が含まれる。

  2. Taskmaster Ticketing データセット

    1. 30,000の多ターン対話で構成され、240,000の学習用例と3,000の報酬用例を含む。

    2. 報酬用のデータセットには、1,146の「thumbs up」ラベル付き例と2,210の「thumbs down」ラベル付き例が含まれる。

この記事が気に入ったらサポートをしてみませんか?