人気の記事一覧

LLMの強化学習における新手法:TR-DPOの論文紹介

11日前

最近のLLMの学習法のまとめ - SFT・RLHF・RAG

8か月前

DPO による Llama 2 のファインチューニング

8か月前

Google Colab + trl で DPO のQLoRAファインチューニングを試す

8か月前

股関節形成不全 (HD)

従来のIPOに代わる選択肢は何か?SPACとDirect listingについて

2年前