人気の記事一覧

Megatron-DeepSpeedからHFのTransformersにチェックポイントを変換する

3週間前

大規模言語モデル(Llama2など)を正攻法でファインチューニングする際のメモ(ZeRO-Offload, not QLoRA)

8か月前

Google Colab で DeepSpeed によるLLMのフルパラメータの指示チューニングを試す

7か月前

メモリをスワッピングしながら大規模言語モデル(LLama2)をフルパラメータでファインチューニングできるかどうか?

7か月前

DeepSpeedの使い方をまとめてみた

DeepSpeed-ChatがAI業界を革新、効率向上とコスト削減を促進し、アプリケーションの展開を加速

DeepSpeed Chat by Docker

1年前

An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

3週間前

DeepSpeed-chat + gpt model がdropout 未定義エラーになる件

1年前

DeepSpeed training

1年前