日本語LLM の学習に関する技術記事まとめ

npaka

2024年2月23日 16:55

日本語LLM の学習に関する技術記事をまとめました。日本語LLMの開発元の技術記事およびプレゼン資料が中心になります。

2023年

5月9日 wandb - LLMをゼロからトレーニングするためのベストプラクティス

5月22日 LLM-jp - 第1回 LLM勉強会

6月19日 LLM-jp - 第2回 LLM勉強会

7月20日 LLM-jp - 第3回 LLM勉強会

7月23日 Rinna - Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る

8月18日 LINE - Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します

9月4日 LLM-jp - 第4回 LLM勉強会

9月7日 Turing - Build and Play! Your Own V&L Model Equipped with LLM!

9月12日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編

9月12日 Turing - Introducing “Heron”: A Multilingual, Multimodal Learning Library with 70 Billion LLM

9月20日 Stability AI - Stability AI Japanにおける大規模言語モデルの研究開発

・Stability AI Japanにおける大規模言語モデルの研究開発

9月26日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編

9月28日 Preferred Networks - PLaMo-13Bを公開しました

10月3日 wandb - LLMファインチューニングとプロンプトエンジニアリングのベストプラクティス

10月17日 Turing - 完全自動運転にLLMは必要か？

10月18日 LLM-jp - 第5回 LLM勉強会

11月7日 Preferred Networks - 指示学習済み大規模言語モデル PLaMo-13B-Instruct を公開しました

11月10日 Stability AI - LLMの開発は難しい？簡単？Stability AIの現場から

・LLMの開発は難しい？簡単？Stability AIの現場から

11月29日 LLM-jp - 第6回 LLM勉強会

12月4日 Shisa - A Review of Public Japanese Training Sets

・A Review of Public Japanese Training Sets

2024年

1月16日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編

1月22日 LLM-jp - 第7回 LLM勉強会

1月25日 ELYZA - オープンなLLM (大規模言語モデル) の発展と、それを活かした日本語LLMの開発について

・JAIST-SO_seminar_202403_2.pdf

2月2日 KARAKURI - KARAKURI LM の解説

2月8日 Swallow - 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

・東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

2月9日 LLM-jp v1.1 チューニング済みモデル・データ公開

2月22日大規模言語モデルを作る、拡張する

・大規模言語モデルを作る、拡張する

2月25日 μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する

3月6日 Turing - 日本語Vision Languageモデル heron-blip-v1の公開

3月11日 Swallow-MS: Mistral日本語継続事前学習モデル

3月11日 Swallow-MX: Mixtral日本語継続事前学習MoEモデル

3月11日作って学ぶ日本語大規模言語モデル

・作って学ぶ日本語大規模言語モデル

3月12日 ELYZA - 700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました

3月12日松尾研LLM開発プロジェクトのキックオフを開催しました。

3月21日 sakana.ai - 進化的アルゴリズムによる基盤モデルの構築

3月22日 Karasu - How to train a Karasu

3月26日 LLM-jp - 第8回 LLM勉強会

3月28日大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

・大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

3月29日 Cotomo - おしゃべりAI「Cotomo」　自然な会話はどう実現？　創業者に聞く

3月29日 LLMの現在

・LLMの現在

4月1日 LOCAL AI HACKATHON #000

・LOCAL AI HACKATHON #001

4月8日 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

LLMはパラメータ一つあたり2bitの情報を様々な後続タスクに利用可能な形で格納できる。他の結果も含めべき乗則の論文以来の重要な結果と思う。人工的に三つ組（名前/属性/値）のデータを設計し様々な規模、アーキテクチャで検証。7Bモデルでもwikipediaと全教科書情報は全て覚えられる。…
— Daisuke Okanohara / 岡野原大輔 (@hillbig) April 14, 2024

4月10日 wandb - 大規模言語モデル（LLM）評価のベストプラクティス

4月10日日本語LLM 9種を量子化して回答内容を比較調査してみた

4月15日 Turing - Heron-Bench: 日本語Vision＆Languageモデルの性能評価ベンチマークの公開

4月15日饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

4月17日 Sakana AI - Evolutionary Optimization ofModel Merging Recipes

・Evolutionary Optimization ofModel Merging Recipes

4月17日 ChatVectorで新モデル作って評価して遊ぶヤツ、自分もやりたい

4月20日 llama.cpp：iMatrix量子化は日本語性能にどう影響するか？

4月24日 LEIA: 言語間転移学習でLLMを賢くする新しい方法

4月27日 Mergekit-Evolve登場！進化的アルゴリズムで手元のLLMを最強進化させよう！

5月1日 LOCAL AI HACKATHON #001

・LOCAL AI HACKATHON #001

この記事が気に入ったらサポートをしてみませんか？

日本語LLM の学習に関する技術記事まとめ

2023年

5月9日 wandb - LLMをゼロからトレーニングするためのベストプラクティス

5月22日 LLM-jp - 第1回 LLM勉強会

6月19日 LLM-jp - 第2回 LLM勉強会

7月20日 LLM-jp - 第3回 LLM勉強会

7月23日 Rinna - Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る

8月18日 LINE - Instruction Tuningにより対話性能を向上させた3.6B日本語言語モデルを公開します

9月4日 LLM-jp - 第4回 LLM勉強会

9月7日 Turing - Build and Play! Your Own V&L Model Equipped with LLM!

9月12日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編

9月12日 Turing - Introducing “Heron”: A Multilingual, Multimodal Learning Library with 70 Billion LLM

9月20日 Stability AI - Stability AI Japanにおける大規模言語モデルの研究開発

9月26日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (2) 評価編

9月28日 Preferred Networks - PLaMo-13Bを公開しました

10月3日 wandb - LLMファインチューニングとプロンプトエンジニアリングのベストプラクティス

10月17日 Turing - 完全自動運転にLLMは必要か？

10月18日 LLM-jp - 第5回 LLM勉強会

11月7日 Preferred Networks - 指示学習済み大規模言語モデル PLaMo-13B-Instruct を公開しました

11月10日 Stability AI - LLMの開発は難しい？簡単？Stability AIの現場から

11月29日 LLM-jp - 第6回 LLM勉強会

12月4日 Shisa - A Review of Public Japanese Training Sets

2024年

1月16日 ELYZA - ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編

1月22日 LLM-jp - 第7回 LLM勉強会

1月25日 ELYZA - オープンなLLM (大規模言語モデル) の発展と、 それを活かした日本語LLMの開発について

2月2日 KARAKURI - KARAKURI LM の解説

2月8日 Swallow - 東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

2月9日 LLM-jp v1.1 チューニング済みモデル・データ公開

2月22日 大規模言語モデルを作る、拡張する

2月25日 μTransfer: 小規模モデルでのハイパラ探索を大規模モデルに転移し学習を効率化する

3月6日 Turing - 日本語Vision Languageモデル heron-blip-v1の公開

3月11日 Swallow-MS: Mistral日本語継続事前学習モデル

3月11日 Swallow-MX: Mixtral日本語継続事前学習MoEモデル

3月11日 作って学ぶ日本語大規模言語モデル

3月12日 ELYZA - 700億パラメータの日本語LLM「ELYZA-japanese-Llama-2-70b」を開発し、デモを公開しました

3月12日 松尾研LLM開発プロジェクトのキックオフを開催しました。

3月21日 sakana.ai - 進化的アルゴリズムによる基盤モデルの構築

3月22日 Karasu - How to train a Karasu

3月26日 LLM-jp - 第8回 LLM勉強会

3月28日 大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

3月29日 Cotomo - おしゃべりAI「Cotomo」 自然な会話はどう実現？ 創業者に聞く

3月29日 LLMの現在

4月1日 LOCAL AI HACKATHON #000

4月8日 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

4月10日 wandb - 大規模言語モデル（LLM）評価のベストプラクティス

4月10日 日本語LLM 9種を量子化して回答内容を比較調査してみた

4月15日 Turing - Heron-Bench: 日本語Vision＆Languageモデルの性能評価ベンチマークの公開

4月15日 饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました

4月17日 Sakana AI - Evolutionary Optimization ofModel Merging Recipes

4月17日 ChatVectorで新モデル作って評価して遊ぶヤツ、自分もやりたい

4月20日 llama.cpp：iMatrix量子化は日本語性能にどう影響するか？

4月24日 LEIA: 言語間転移学習でLLMを賢くする新しい方法

4月27日 Mergekit-Evolve登場！進化的アルゴリズムで手元のLLMを最強進化させよう！

5月1日 LOCAL AI HACKATHON #001

1月25日 ELYZA - オープンなLLM (大規模言語モデル) の発展と、それを活かした日本語LLMの開発について

2月22日大規模言語モデルを作る、拡張する

3月11日作って学ぶ日本語大規模言語モデル

3月12日松尾研LLM開発プロジェクトのキックオフを開催しました。

3月28日大規模言語モデル開発のための日本語 Instruction データセット作成の取り組み

3月29日 Cotomo - おしゃべりAI「Cotomo」　自然な会話はどう実現？　創業者に聞く

4月10日日本語LLM 9種を量子化して回答内容を比較調査してみた

4月15日饒舌な日本語ローカルLLM【Japanese-Starling-ChatV-7B】を公開しました