記事一覧
MOE言語モデルのエキスパートの一人を日本語得意なモデルに置き換えたらどうなるのか?
(2024年1月更新:MoEカスタマイズ可能となってるので、後日リトライ記事更新します。)
GPT-4にも使われているという、MOE(Mixture of Experts)
複数のエキスパートを束ねることで、性能アップするという
最近、高性能で有名な言語モデル、Mistral7Bを8つ束ねた、Mixtral 8x7BというMOEモデルが世にDropされ注目されている
エキスパートが複数いて
言語モデルのチューニング結果を大幅に改善させるNEFTuneの論文を読む
言語モデルのチューニング後の性能を大幅に向上させるというNeftuneの論文を読みます
まずはclaude.aiで概要を確認します
はじめに
本論文では、ファインチューニングのフォワードパス中にトレーニングデータの埋め込みベクトルにランダムノイズを加えるという技術です。
このシンプルな方法で、追加の計算やデータのオーバーヘッドなしで、ファインチューニングの結果を向上させることができます。
時系列予測の性能を大幅に向上させる新アーキテクチャ、iTransformerの論文を読む
論文の核心:
Transformerモデルは、言語モデルや画像分析など様々なタスクで高いパフォーマンスを示していますが、時系列予測においては一部の問題点が指摘されています。
この論文では、Transformerの一部の役割を反転させることで、これらの問題点を克服し、より効果的な時系列予測を行うiTransformerという新しいモデルを提案しています。
この論文の新規性は、Transform
Llama2の日本語化を、推論時のデコーダーのカスタムのみで実現する(事後学習を使わない方法を模索)
Llama2の日本語化を、デコーダーのカスタムで実現したい!
初めに
Metaが発表した高性能言語モデルであるLlama2
多言語対応して、日本語も対応している、
しかし、返事が英語になってしまう傾向がつよく、日本語での利用で不便。。
Llama2の返答を日本語化する方法として、まず思いつくのは、事後学習として日本語データセットでファインチューニングするという方法である
が、事後学習で