見出し画像

LLMの強化学習における新手法:TR-DPOの論文紹介

論文名

Learn Your Reference Model for Real Good Alignment

arXivリンク

https://arxiv.org/pdf/2404.09656.pdf

ひとこと要約

Direct Preference Optimization (DPO)を改良したTrust Region DPO (TR-DPO)を提案。


メモ

背景

従来のアラインメント手法は人間の選好に基づいて訓練された報酬モデルの値を最大化する強化学習が用いられてきたが、不安定かつ複雑であるという問題があった。Direct Preference Optimization(DPO)は、報酬モデルを使わずにデータから直接最適化を行うことで、この問題を解決しているものの、DPOには訓練中のリファレンスポリシーが固定されているという制約があった。

TR-DPO

Trust Region DPO(TR-DPO)はDPOの制約を取り除き、訓練中にリファレンスポリシーを更新できる手法である。
リファレンスポリシーの更新により、モデルは初期のSFTポリシーを超えて探索することができ、より良い収束が可能になると期待される。

リファレンスポリシーの更新には、ソフトアップデートとハードアップデートの2つの方法が用いられる。

  • ソフトアップデート

    • 現在採用しているポリシーとリファレンスポリシーを重み付きで合成する。重み付けファクターαは0から1の範囲の値を取り、各訓練ステップでの更新の影響度を決定する。αが0のとき、TR-DPOはDPOと等価になる。

  • ハードアップデート

    • 一定の訓練ステップ数τごとにリファレンスモデルを更新されたポリシーで直接置き換える。τは自然数であり、更新の頻度を制御するパラメータである。

実験方法

  • データセット

    • Anthropic-HH

    • Reddit TL;DR

  • モデル

    • 410M、2.8B、6.9B、12BのPythia

  • TR-DPOのパラメータ

    • ソフトアップデート

      • αを0.1から0.8まで0.1刻みで評価

    • ハードアップデート

      • τを2^nに設定し、n=5, ..., 10の範囲で評価

  • 評価

    • GPT-4を用いたAutoSxS評価

    • 一貫性、正確性、詳細度、有用性、無害性に対するProbability of Improvement(PoI)推定

結果

  • TR-DPOはDPOと比較して最大19%の性能向上が見られた

    • 特にαが0.5から0.7の範囲、τが256から512の範囲で最も高いパフォーマンスが得られることが明らかになった。また、TR-DPOは人間中心の指標においてもDPOを上回ることが統計的に示された。

  • TR-DPOは長い文章の生成においても適切にパラメータを調整することで、多様性を維持しつつ人間の選好に適合した文章を生成できると示唆

    • αの値を大きくする、またはτの値を小さくすると生成文章がより長くなる傾向がある。

    • αの値を小さくする、またはτの値を大きくすると生成文章がより短くなる傾向がある。

この記事が気に入ったらサポートをしてみませんか?