AIサトシ

AIサトシ

記事一覧

自宅PCでクラスターを構築:コンシューマーGPUの枠を超え、大型LLMをローカルで動かす!

最近オープンになる大規模言語モデル(LLM)が、軒並みGPT-4レベルの性能となっています Huggngfaceで無料でダウンロードできるのですが、問題は必要VRAM容量です 話題の…

AIサトシ
3週間前
123

ローカルLLM : 最近作成したデータセットについての記録

saldraさんのところで開催されたハッカソンに参加しましたので、作成物の記録を残します VRAM 168GB の GPU サーバーを無料で使用できる意欲的なハッカソンです 私は最近…

AIサトシ
1か月前
13

ローカルLLM機械翻訳:数式混在テキストの翻訳性能

現在制作中のLLM翻訳モデルですが 大容量データ翻訳のためには、正確性が求められます 数式混在テキストの翻訳が難しいようなので確認しました 結果を見るとかなり正確に…

AIサトシ
2か月前
1

ローカルLLMで無料、海外データセットを機械翻訳

かねてより課題である、日本語LLM学習データ不足の問題 APIを使った機械翻訳では、特に大量データを扱う場合費用面が大変です 昨年から、ローカルLLMを使用した翻訳特化…

AIサトシ
2か月前
6

LLM:ローカル言語モデルによる明治の空気感を実現する、「解らざる言葉の哀」

明治の表現はなんか好き、だけど、自分の口から出力するのがなかなか難しいんです。 小粋な明治表現を自在に繰り出したい。。 そこで、最近のオープンLLMを利用することを…

AIサトシ
2か月前
10

MOE言語モデルのエキスパートの一人を日本語得意なモデルに置き換えたらどうなるのか?

(2024年1月更新:MoEカスタマイズ可能となってるので、後日リトライ記事更新します。) GPT-4にも使われているという、MOE(Mixture of Experts) 複数のエキスパートを束…

AIサトシ
5か月前
17

言語モデルは、なぜ「理解」できるのかについて考察した

通勤中に、ふと思った。。言語モデルの「理解」について 一見、これは、言語モデルについてより深く理解できた!と思ったのでした しかし、その後あれこれGPTと議論をお…

AIサトシ
6か月前
13

SteerLM : LLMを自在に操作する新しいアライメント手法について調べてみた

NVIDIAの研究チームが開発したSteerLMは、ユーザーが指定した属性に基づき、言語モデルの出力を制御する新しい技術です。 この技術は、過去の強化学習に基づく人間のフィ…

AIサトシ
6か月前
18

言語モデルのチューニング結果を大幅に改善させるNEFTuneの論文を読む

言語モデルのチューニング後の性能を大幅に向上させるというNeftuneの論文を読みます まずはclaude.aiで概要を確認します はじめに 本論文では、ファインチューニングの…

AIサトシ
6か月前
8

時系列予測の性能を大幅に向上させる新アーキテクチャ、iTransformerの論文を読む

論文の核心: Transformerモデルは、言語モデルや画像分析など様々なタスクで高いパフォーマンスを示していますが、時系列予測においては一部の問題点が指摘されています。…

AIサトシ
7か月前
38

Llama2の日本語化を、推論時のデコーダーのカスタムのみで実現する(事後学習を使わない方法を模索)

Llama2の日本語化を、デコーダーのカスタムで実現したい! 初めに Metaが発表した高性能言語モデルであるLlama2 多言語対応して、日本語も対応している、 しかし、返事…

AIサトシ
7か月前
23
自宅PCでクラスターを構築:コンシューマーGPUの枠を超え、大型LLMをローカルで動かす!

自宅PCでクラスターを構築:コンシューマーGPUの枠を超え、大型LLMをローカルで動かす!

最近オープンになる大規模言語モデル(LLM)が、軒並みGPT-4レベルの性能となっています
Huggngfaceで無料でダウンロードできるのですが、問題は必要VRAM容量です

話題の、Command-r-Plusは、日本語性能について評価が高く、一部の性能はGPT-4並みと言われますが、さすがに大型で104Bパラメータもあるため、4bitに量子化しても60GB程度のVRAMが必要となります。

もっとみる
ローカルLLM : 最近作成したデータセットについての記録

ローカルLLM : 最近作成したデータセットについての記録

saldraさんのところで開催されたハッカソンに参加しましたので、作成物の記録を残します

VRAM 168GB の GPU サーバーを無料で使用できる意欲的なハッカソンです

私は最近、日本語のデータセット不足と日本語を堪能な言語モデル(LLM)の不足を強く感じています。この課題を解決したいと考えています。

データ不足を解決する手段の一つとして、合成データセットに着目し、ライセンスの縛りのない

もっとみる
ローカルLLM機械翻訳:数式混在テキストの翻訳性能

ローカルLLM機械翻訳:数式混在テキストの翻訳性能

現在制作中のLLM翻訳モデルですが
大容量データ翻訳のためには、正確性が求められます

数式混在テキストの翻訳が難しいようなので確認しました

結果を見るとかなり正確に数式を温存できているようです
後半に失敗パターンを載せます

・Markdownが苦手かもしれない
・あとはLong context問題
・学習時のコンテクスト長範囲外ではやはり精度が落ちます

あとは、特殊な文字、細かいところでは

もっとみる
ローカルLLMで無料、海外データセットを機械翻訳

ローカルLLMで無料、海外データセットを機械翻訳

かねてより課題である、日本語LLM学習データ不足の問題

APIを使った機械翻訳では、特に大量データを扱う場合費用面が大変です

昨年から、ローカルLLMを使用した翻訳特化調整に取り組んできました

今回HuggingFaceがApache2.0ライセンスで公開しているデータセットの翻訳を試してみました

現在作成中の翻訳モデルの出力結果です

同じ文章をブラウザでGoogle翻訳します

さすが

もっとみる
LLM:ローカル言語モデルによる明治の空気感を実現する、「解らざる言葉の哀」

LLM:ローカル言語モデルによる明治の空気感を実現する、「解らざる言葉の哀」

明治の表現はなんか好き、だけど、自分の口から出力するのがなかなか難しいんです。
小粋な明治表現を自在に繰り出したい。。

そこで、最近のオープンLLMを利用することを思いつきました

過去の時代の表現、、さらに、、Reasoningまでをニューラルネットワークに埋め込めたら、、

言語モデルは、とかく表現の平均値を出すだけと揶揄されがちです。
もしかしたら、それをなんとか逆手に取れば、明治時代の平

もっとみる
MOE言語モデルのエキスパートの一人を日本語得意なモデルに置き換えたらどうなるのか?

MOE言語モデルのエキスパートの一人を日本語得意なモデルに置き換えたらどうなるのか?

(2024年1月更新:MoEカスタマイズ可能となってるので、後日リトライ記事更新します。)

GPT-4にも使われているという、MOE(Mixture of Experts)

複数のエキスパートを束ねることで、性能アップするという

最近、高性能で有名な言語モデル、Mistral7Bを8つ束ねた、Mixtral 8x7BというMOEモデルが世にDropされ注目されている

エキスパートが複数いて

もっとみる
言語モデルは、なぜ「理解」できるのかについて考察した

言語モデルは、なぜ「理解」できるのかについて考察した

通勤中に、ふと思った。。言語モデルの「理解」について

一見、これは、言語モデルについてより深く理解できた!と思ったのでした

しかし、その後あれこれGPTと議論をおこなった結果、あることに気づきました

彼らの求める「理解」はよりマルチモーダルで深いものなんだ!

やっぱり、GPT開発陣、かなり先を行っている…

トランスフォーマーの言語モデルは画期的です

しかし、まだまだ人間に及ばない

もっとみる
SteerLM : LLMを自在に操作する新しいアライメント手法について調べてみた

SteerLM : LLMを自在に操作する新しいアライメント手法について調べてみた

NVIDIAの研究チームが開発したSteerLMは、ユーザーが指定した属性に基づき、言語モデルの出力を制御する新しい技術です。

この技術は、過去の強化学習に基づく人間のフィードバック(RLHF)手法よりも簡単に実装でき、より高い柔軟性を持っています。

具体的には、属性予測モデルを用いてデータセットに属性ラベルを付与し、その後、属性条件付きの教師あり学習を行います。

SteerLMモデルは、V

もっとみる
言語モデルのチューニング結果を大幅に改善させるNEFTuneの論文を読む

言語モデルのチューニング結果を大幅に改善させるNEFTuneの論文を読む

言語モデルのチューニング後の性能を大幅に向上させるというNeftuneの論文を読みます

まずはclaude.aiで概要を確認します

はじめに

本論文では、ファインチューニングのフォワードパス中にトレーニングデータの埋め込みベクトルにランダムノイズを加えるという技術です。

このシンプルな方法で、追加の計算やデータのオーバーヘッドなしで、ファインチューニングの結果を向上させることができます。

もっとみる
時系列予測の性能を大幅に向上させる新アーキテクチャ、iTransformerの論文を読む

時系列予測の性能を大幅に向上させる新アーキテクチャ、iTransformerの論文を読む

論文の核心:

Transformerモデルは、言語モデルや画像分析など様々なタスクで高いパフォーマンスを示していますが、時系列予測においては一部の問題点が指摘されています。

この論文では、Transformerの一部の役割を反転させることで、これらの問題点を克服し、より効果的な時系列予測を行うiTransformerという新しいモデルを提案しています。

この論文の新規性は、Transform

もっとみる
Llama2の日本語化を、推論時のデコーダーのカスタムのみで実現する(事後学習を使わない方法を模索)

Llama2の日本語化を、推論時のデコーダーのカスタムのみで実現する(事後学習を使わない方法を模索)

Llama2の日本語化を、デコーダーのカスタムで実現したい!

初めに

Metaが発表した高性能言語モデルであるLlama2

多言語対応して、日本語も対応している、

しかし、返事が英語になってしまう傾向がつよく、日本語での利用で不便。。

Llama2の返答を日本語化する方法として、まず思いつくのは、事後学習として日本語データセットでファインチューニングするという方法である

が、事後学習で

もっとみる