「#DPO」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

LLMの強化学習における新手法:TR-DPOの論文紹介

11日前

10

最近のLLMの学習法のまとめ - SFT・RLHF・RAG

8か月前

103

DPO による Llama 2 のファインチューニング

8か月前

41

Google Colab + trl で DPO のQLoRAファインチューニングを試す

8か月前

17

股関節形成不全 (HD)

幻の犬飼い

7か月前

10

従来のIPOに代わる選択肢は何か？SPACとDirect listingについて

2年前