もっさん

データサイエンティスト/Elith株式会社/twitter: @oriki111

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

はじめにHugging Faceで公開されているモデルをfine-tuningする際、皆さんはどのようにコードを書いていますか？僕は基本的にフルスクラッチでコードを書いていました。しかし、LLM（Large Language Models）をチューニングする際に、学習と評価の処理をラップするSFTTrainerを利用し、Hugging FaceのTrainerクラスの便利さを実感しました。以来、検証段階ではTrainerを積極的に使うようになりました。今回は、Huggi

mC4データを文章量でアノテーションしました

はじめにLLM（Large Language Models）の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください！実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをアノテーションしてみました。このアノテーションデータを利用してゴミデータを検出する

もっさん

4か月前

4
LLMの事前学習で利用されるmC4のデータを確認

はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました！ダウンロード方法から一部データの確認までします。 mC4とは？mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの、かなりノイズが含まれているそうです。ダウンロード方法mC4はHugging

もっさん

4か月前

6

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

もっさん

3か月前

mC4データを文章量でアノテーションしました

4

もっさん

4か月前
LLMの事前学習で利用されるmC4のデータを確認

6

もっさん

4か月前

最近の記事

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

mC4データを文章量でアノテーションしました

LLMの事前学習で利用されるmC4のデータを確認

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

mC4データを文章量でアノテーションしました

LLMの事前学習で利用されるmC4のデータを確認