はち

外資系IT企業勤務。最近はLLMにハマってます。

14 フォロー 82 フォロワー

固定された記事

進化的アルゴリズムをもちいたChatVector加算の最適化

はじめにこれまで何度かChatVectorやそれに類することを施行してきましたが、元のモデル+ChatVectorの加算はいつも1:1で実施してきました。それでもある程度上手くいってい…

はち

3週間前

Chat VectorとMath Vectorは併用できるのか

はじめにこの記事は以下記事の続きになります。 Chat Vectorと呼ばれる、重みの足し引きでFine TuningなしにChat能力を事前学習モデルに付与できるという技術あります。 …

はち

1か月前

Chat VectorならぬMath Vectorは作れるのか

はち

1か月前

Chat VectorにならぬCode Vectorは作れるのか

はじめにChat Vectorと呼ばれる、重みの足し引きでFine TuningなしにChat能力を事前学習モデルに付与できるという技術あります。つまりこういうことですね。　ChatVecto…

はち

1か月前

BitNet&BitNet b158の実装④

はじめに前回、BitLinear b158の実装を行いました。前回までの内容は以下をご参照ください。 4. BitNet b158の検証BitNetの検証と同様、 BitLlamaでBitLinear158bを利用…

はち

1か月前

BitNetにおけるSTE(Straight-Through Estimator)の実装

はじめに現在、私は以下のような試みをしています。 BitNetとは BitNetとはweightとactivationを量子化する手法の1つで、特にweightを{-1, 0, 1}の3値に量子化するBitNe…

はち

1か月前

BitNet&BitNet b158の実装③

はじめにBitNetおよびBitNet b158の実装を続けていこうと思います。ボリュームが大きくなってきたため、記事を分けることとしました。前回までの内容は以下をご参照くださ…

はち

1か月前

BitNet&BitNet b158の実装：参照まとめ

各ページに都度参照を書いていくと冗長なためここに参考にした資料を置いていきます。参照

はち

1か月前

BitNet&BitNet b158の実装②

はじめに少し間が空いてしまいましたが、BitNetおよびBitNet b158の実装を続けていこうと思います。ボリュームが大きくなってきたため、ページを分けることとしました。前…

はち

1か月前

自作アーキテクチャのモデルをHuggingFaceにプッシュする方法

はじめに現在、私は以下のような試みをしています。その中で、自作アーキテクチャ（Transformersに実装されていない）モデルをHuggingFaceにpushすると、当たり前ではあ…

はち

1か月前

BitNet&BitNet b158の実装①

はじめに先週発表された論文『The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits』は多くの人に衝撃を与えたと思います。それまで量子化とは、有り体に…

はち

2か月前

既存日本語LLMをBitNetで置き換えて実行してみた

はじめに昨夜からBitNetという1bit量子化LLMが話題になっていました。簡単な概要としては、既存のLLMが１パラメータをFP16やBF16などのfloat型で扱っているものを、１パ…

はち

2か月前

Google Colabでの日本語Mambaの事前学習

はじめに昨年(2023年)末にMambaアーキテクチャが公開されました。 MambaはS4などと同様の状態空間モデルというもので、Transformerと比べて、高速な推論シーケンス長が…

はち

2か月前

Mergekitを使ったMoE(Mixture of Experts)作成のテクニック

はじめに以前行ったMergekitを使った日本語MoEの作成（以下記事）がそこそこ上手くいったものの、かなり手探りで実施した感があった。そんな中、有志でベストプラクティス…

はち

3か月前

Google Colab：Mergekitによる日本語モデルMoEの作成

0. はじめにMistral AIによるMixtral -8x7bモデルの成功により、最近MoE（Mixture of Experts）モデルが流行ってきている気がします。他にもPhi-2のMoEであるPhixtual-2x…

はち

3か月前

既存日本語ベンチマークについての調査結果

LLMの日本語性能を確認するためのベンチマークとして、・現状使われているもの・使えそうなものについて調べてみました。 1. 課題感近年、ChatGPTを筆頭としたLLMの成…

はち

8か月前

はち

2024年4月19日 21:04

進化的アルゴリズムをもちいたChatVector加算の最適化

はじめにこれまで何度かChatVectorやそれに類することを施行してきましたが、元のモデル+ChatVectorの加算はいつも1:1で実施してきました。それでもある程度上手くいっていましたが、この加算比率をSakanaAIのEvoLLMのように最適化するということができるらしいです。
ただ、調べた限りコードが落ちていなかったので自分なりに調べて試してみたというのが本記事の内容になります。

1.

記事一覧

進化的アルゴリズムをもちいたChatVector加算の最適化

Chat VectorとMath Vectorは併用できるのか

Chat VectorならぬMath Vectorは作れるのか

Chat VectorにならぬCode Vectorは作れるのか

BitNet&BitNet b158の実装④

BitNetにおけるSTE(Straight-Through Estimator)の実装

BitNet&BitNet b158の実装③

BitNet&BitNet b158の実装：参照まとめ

BitNet&BitNet b158の実装②

自作アーキテクチャのモデルをHuggingFaceにプッシュする方法

BitNet&BitNet b158の実装①

既存日本語LLMをBitNetで置き換えて実行してみた

Google Colabでの日本語Mambaの事前学習

Mergekitを使ったMoE(Mixture of Experts)作成のテクニック

Google Colab：Mergekitによる日本語モデルMoEの作成

既存日本語ベンチマークについての調査結果