人気の記事一覧
Megatron-DeepSpeedからHFのTransformersにチェックポイントを変換する
大規模言語モデル(Llama2など)を正攻法でファインチューニングする際のメモ(ZeRO-Offload, not QLoRA)
Google Colab で DeepSpeed によるLLMのフルパラメータの指示チューニングを試す
メモリをスワッピングしながら大規模言語モデル(LLama2)をフルパラメータでファインチューニングできるかどうか?
DeepSpeed-ChatがAI業界を革新、効率向上とコスト削減を促進し、アプリケーションの展開を加速
An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition
DeepSpeed-chat + gpt model がdropout 未定義エラーになる件