商用利用可能な130億パラメータの日本語LLM「Tanuki-ZeRo」を一般公開 【代表的な日本語ベンチマークで世界6位: オープンモデルで1位相当、GPT3.5やClaude v2を一部凌駕, 23/3/30時点】


(前半はパロディ風のネタ記事です。ご了承ください)

4/1追記: ページ下部に、記事へのご指摘に関するまじめなQ&Aを追加しました。

3/31追記: 一部、ご批判がありましたので、jaster特化のモデルを作った学術的(?)な経緯などについて、以下の(真面目な方の)記事で、まとめています。真面目な方は、こちらを先に読まれることを強くおすすめします。
10bクラスのLLMは未学習タスクに対して、0 shot 推論性能が非常に乏しいという復数の検証結果や、実用面を考えた際はタスク特化型に割り切るアプローチが有益かもしれない、という考察などが記されています。

(世の中のLLM大半は選択式問題を解くことすらできない・モデルサイズと選択式問題の解答能力は相関しないという事実や、おそらくは事前対策を行ったモデルのみが解答能力を獲得する、という考察など)

(GPT-3.5ですら、選択肢問題を正確に解くことに苦戦する、という検証結果)

(JCommonSenseQAの分析)

(種々の考察)


ニュースサマリ

  • 大規模言語モデル(LLM)を開発する新興の有志団体「たぬき」が、LLM-jp-13Bベースの日本語LLM「Tanuki-ZeRo」を一般公開

  • 当該チームが参加中のコンペで一位を取るべく、ベンチマークで高得点を得るためだけに行った試行錯誤の過程で生まれた成果の一つ

  • 日本語の言語モデルの性能を評価するための2大ベンチマーク(JMT-Bench, llm-jp-eval)のうち、後者において、オープンなモデルとしては1位世界6位に相当する性能を達成*(2024年3月現在)

  • オープンソースかつ自由な商用利用が可能なapache-2.0ライセンスで公開

(*24年3月30日時点における、Nejumi LLMリーダーボードに記載されているモデルでの比較結果。細かな注意事項については、本記事の後半を参照ください)

今回のモデルについて

Tanuki-ZeRoは、LLM-jpllm-jp-13b-v1.0に対して、1.5万件のJaster dataset (train data)をSFTと呼ばれるアルゴリズムでファインチューニングを行ったモデルです。LLMの学習に必要な膨大なコストの問題が顕在化する中、Tanuki-ZeRoは、A100と呼ばれるGPUを2枚搭載したマシンで、事前学習済みモデルをわずか6時間、学習させるだけで構築できました。

性能について、llm-jp-evalと呼ばれる言語理解のためのベンチマークで評価の結果、計測環境では0.5293*というスコア(AVG_jaster)を達成しました*。この値は、2024年3月30日現在、Nejumi LLMリーダーボード Neo上では世界6位に相当し、GPT3.5やClaude v2を凌駕しています。また、パラメータが公開されているオープンなモデルの中では、国内外を問わず、1位に相当する性能となります。
モデルは商用も含め、HuggingFaceのリポジトリから、誰でも自由にダウンロード・活用・再配布することが可能です。

新たに公開したモデルの位置付け
スコアボードの様子(抜粋)


モデルの活用事例

例えば、日本語で書かれた2つの文章の類似度を比較するタスクでは、わずか10秒間で250件ものデータを処理することができました。この速度は、ChatGPT-4の10倍、人間の1000倍以上と推定されます。大量の文章の類似度を評価しなければならないビジネスシーンなどでの活用が見込まれます。

今後の展開

今回公開した「Tanuki-ZeRo」は、言語モデルの性能を競うコンペで1位を取るための試行錯誤の中で開発されたものです。コンペでは、事前学習も含めてオリジナルなモデルを構築する必要があります。そこで、学習用コーパスの準備や公開に向けた作業を行っています。また、「Tanuki-ZeRo」の唯一の欠点である自然な対話・文章生成の能力(JMT-Benchなどで評価)を大幅に向上させるため、独自の指示データセットの作成にも注力しています※。一連のデータを学習させ、日本語ベンチマークに特化した革新的なエキスパートモデルの一つとして「Gari-Ben-Tanuki」近日中に構築・公開予定です。
一連の取り組みを通し、規模言語モデルの開発知見を深め、ベンチマークの意義についても見直すとともに、チームの真の目標である500億パラメータ相当のモデルの開発権を獲得し、よりマトモな大規模モデルを開発していく意気込みです。

※2024/3/31追記
コンペでは、モデルの総合的な日本語性能を評価するため、本記事で扱ったllm-jp-eval以外にも、JMT-Benchや、(試験対策が不可能な)未知のベンチマーク類が評価指標として採用される予定です。大規模言語モデルの本質である「文章生成」の能力は後者によって測られるものですので、今回のジョークモデルでは、当然ながら、勝つことはできません。

Tanuki-Zeroに残された唯一の課題として、文章生成の能力が挙げられる。

Join Us

開発チーム「たぬき」は、「来るもの拒まず去るもの追わず」の精神で、オープンにモデルを開発しています。2024年4月からは、指示データセットの開発などに向けて、総力を挙げる予定です。コミュニティメンバーとしての参加も、こちらのサイトから受け付けています。

ーーーー
少しずつ、技術的な話に移ります。ご了承ください。

開発プランの詳細

開発に関する具体的なプランをいくつかご紹介します。

1. llm-jp-evalのさらなる試験対策

今回得られたスコアは0.53であり、最高得点の1からは程遠いものです。得点の改善に向け、さらなる試験対策を行う予定です。ただし、いくつかの試験問題は人間にとっても、たぬきにとっても、非常に難しくある種の神通力を鍛える必要性も示唆されています。

回答が難しい問題の例1 (赤字部分が、特に難しい)
回答が難しい問題の例2 (赤字部分が、特に難しい)

2. オープンで大規模な日本語データセットの構築と公開

CommonCrawl

大規模言語モデルの学習に欠かせない、大規模な日本語データ(コーパス)としてはmc4-jaなどが有名ですが、情報が最新でないという課題があります。そこで、世界中のWebサイトを収集・公開しているCommonCrawlと呼ばれるサイトから、最新の日本語データを抽出する作業が進んでいます。

CommonCrawlのファイルサイズは1 snapshotあたり100TiB程度と膨大で、日本語データの取得には膨大な通信・処理コストを要します。ここ1-2年は、種々の開発団体が個別にCommonCrawlから最新のSnapshotをダウンロードして解析する作業を行ってきました。しかし、そのような類似作業を繰り返し行うことは、余分なエネルギー消費とCO2排出につながり、環境にも悪いです。そこで、本プロジェクトで構築したデータセットは、一般公開*する方向で準備が進んでいます。
(*実際は著作権法の難しい問題があります。が、どうにかして公開したいので、ここにその意思を記します)

CommonCrawl PDF

CommonCrawlのPDF版の解析にも着手しています。htmlデータを扱う通常のCommonCrawlと異なり、PDFデータには、学術論文のような、上質なドキュメントが含まれているケースが多いです。このようなソースをテキスト化したデータセットはまだ公開されていないため、解析と公開に向けた作業が進んでいます(pdfの解析プログラムに改善が必要です: 協力者募集中)。

日本語の学術系のデータセットに関しては、2024年3月現在、国税によって運営されるほとんどの公的レポジトリにおいて、商用利用を見据えた大規模言語モデルへのデータ提供を認めていないという現状が存在します。自由な商用利用や再配布が可能なはずのCC BY 4.0ライセンスの論文ですら、公的レポジトリの内部規約の問題で、一括取得や再配布が難しい状況が判明してきました。そのような状況を打破すべく、啓蒙活動を進めるほか、CommonCrawl PDFのようなフェア・ユース的なアプローチ(裏口)でデータを収集する手段も模索しています。

3. オープンな指示データセットの構築

商用利用可能で自由に使える日本語の指示データセットのクオリティが低いという問題が存在します(詳細はこちら)。そこで、本チームでは、CC BY 0で利用可能なデータセットの構築に取り組んでいます。投稿フォームも公開中ですが、あまりデータが集まっていない状況があります。
そこで、人間の報酬系と競争本能に訴えかける(ドーパミンが出る)、スタイリッシュで楽しいインターフェースのサイトを近日中に公開予定です。

開発中の画面 (made by Sさん。すごい!)

4. 専門に特化したモデル群の構築

本チームで構築予定の大規模言語モデルは、100ー500億パラメータ程度を有する予定です。このサイズは、2023年までに報告された国産モデルの中では最大規模ですが、GPT-4 (2兆程度?)などのトップランナーには全く及びません。ひとえに、この差は確保できる計算資源の差に由来します。我々で容易に解決できる課題であはりません。

通常のアプローチでモデルを構築しても、GPT-4やClaude 3などの劣化コピーが生成されるだけです。そこで、カリキュラム学習やBranch-Train-Mergeといった手法を用い、特定のジャンルに特化したエキスパートモデル群を作ることで、汎用モデルでは対応できない、尖ったLLMを構築したいと考えています。本記事で扱ったTanuki-Zeroも、エキスパートモデルの構築研究の一環で生まれたと言えます。

ドメイン特化したエキスパートモデルの構築には、先述の日本語データセット(上質なテキストやインストラクション)の存在が不可欠です。チームが参加しているプロジェクトはオープンソースを理念に掲げていることから、CC-BY 4.0レベルで公開可能な、上質なデータセットを大量に提供してくれる方・団体がいらっしゃると、非常に助かりますし、今後の人工知能研究の発展に貢献することができます

5. コンペで勝つためのノウハウ蓄積

大きな理想を掲げてチームは動いています。しかし、コンペで8チーム中、1位を取ることができなければ、500億パラメータのモデルを自由に作ることが難しくなります。そこで、1位になるための戦略づくりや、実働面で協力してくれる方も募集中です。

ベンチマークについての補足

今回、1位(?)を獲得した、llm-jp-evalの評価結果について、いくつか補足をします。

ベンチマークの位置付け

当該ベンチマークは、言語モデルの性能を可能な限り網羅的(かつ簡便)に評価するために作られました(NLP2024 日本語大規模言語モデルの自動評価ツールなどを参照)。ベンチマークは文章理解や知識回答が中心で、どちらかといえば、大規模言語モデルが開発される前の「一昔前のモデル」のために作られた問題も多いです。そのため、Tanuki-ZeRoの結果が示すように、最近のLLMであれば、適当な対策をするだけで、そこそこの点数を取ることができます*
(そのため、もはやllm-jp-evalのベンチマークスコアのみを上げる行為に、自然言語処理の研究開発としての意義は、ほとんどないように思われます。今回のような「ゴミモデル」ができるだけです)

*最近は毎月のように「最高性能のモデル」が報告されていますが、ベンチマークはバラバラなことが多いです。多くの開発者は良心的に発表を行っているはずですが、Tanuki-ZeRoのように、実は大したモデルではない可能性もあるので、注意が必要かもしれません。

2023年頃からは、JMT-Benchのような、より高度で実用的な作文能力を問うベンチマークが出現しました。このような作文系のベンチマークは、a)言語モデルの性能が向上し、問題の難易度を上げる必要が出てきた、b)GPT-4のような高性能モデルであれば、生成テキストの自動回答が可能になってきた、 という2つの背景が重なって、登場しました。

Tanuki-ZeRoはJMT-Benchの対策を全く行っていないので、こちらのベンチマークでは、ほぼすべての項目で、最低評価(1)を取るだろうということが分かっています*。そこで今後は、llm-jp-evalとJMT-Benchの双方のスコアを上げるための検討を行っていく予定です。これからが本番といえます。

*GPT-4のAPI代として、一回の評価に数ドルはかかるので、実際に試してはいません。ただ、類似のモデルで試した際は、ほぼ最低評価でした。

llm-jp-13b-instruct-full-jaster-v1.0との違いについて

llm-jpでも、jasterデータセットでファインチューニングを行ったモデル(llm-jp-13b-instruct-full-jaster-v1.0)を公開しています。学習データはTanuki-ZeRoとほぼ同じであるにもかかわらず、Tanukiの方が、若干、高性能でした。

llm-jpのファインチューニング条件の詳細はよく確認していないのでわかりませんが、想定される違い(?)として、学習率、データ数、Noisy Embedding Fine Tuning (NEFTune)の利用の有無などが、挙げられるかもしれません。Tanukiでは、学習率を4条件から最適化し、NEFTuneを適用しました。スコアとデータ数の間には正の相関があることが分かっていますが、今回は計算時間が惜しかったので、15kで止めました。学習データ数をもっと増やすと、スコアが上がるかもしれません。

リーダーボードのスコアのズレについて

今回は、以下のリポジトリ上でモデルを学習・評価しました。


こちらのコードを用い、先述のllm-jp-13b-instruct-full-jaster-v1.0も評価したところ、公開されているリーダーボードとの間に、若干のスコア差が生じました。

Nejumi LLMリーダーボードのスコア: 0.4698
上記コードで実行した際のスコア: 0.4748

スコアに差が生じた理由は、よくわからない*のですが、今回の結果は、Nejumiリーダーボードよりも、+0.005ほど、性能を過大評価している可能性があります。Tanuki-ZeRo(スコア0.5293)の結果も、若干変動するおそれがあることから、本記事のタイトル等では、1位「相当」としています。

*ライブラリのバージョンの違いや、ランダムシードの違いが影響しているのでしょうか。

まとめ

  • 日本語の言語モデルの性能を評価する主要なベンチマークの一つであるllm-jp-evalにおいて、Tanuki-ZeRoが優れたを示しました。

  • モデルの開発を通して、LLMと親しくなれたほか、学習・評価データセットの諸課題を把握することができました。

  • これからも応援のほど、宜しくお願いいたします。

エキスパートモデルを復数、作る予定です。
各モデル用の「たぬきのアイコン」も募集中です。


Q&A

4/1追記
本記事について、いくつかの技術的なご批判を頂いたので、それらを踏まえて、回答いたします。
ログをおいきれないので、追加の質問等は、本記事やSlackコミュニティなど投稿にいただけますと幸いです。(より良いLLMを作るための、建設的なご意見やご提案を募集中です)

Q. 本記事を書いた趣旨は?

A. 大規模言語モデルの開発にかかる諸課題(特にモデル性能とベンチマーク)について、多くの方に知ってもらうために、いくらかの風刺を込めながら、記述しました。振り返ってみると、説明不足や誤解を招く点があり、大変申し訳なく思っている次第です。

Q. ベンチマーク問題の類題をあえて学ばせることは、「卑怯な戦法」であり、言語モデルの研究開発に悪影響を及ぼすのではないか?

A. そうとは言い切れない、というのが、筆者の見解です。以下、長文ですみません。

歴史的な経緯
歴史的な経緯から説明します。2018年頃に報告された言語モデル(BERT)は、当時としては革新的な言語能力を持つAIとして衝撃を与えました。といっても、会話能力などはほぼ有していませんでした。例えばクイズを解くためには、「問題と回答」のペアを、一定の出力形式の下、それなりの数、学習する必要がありました。
llm-eval-jpのデータセットには、BERTのような、「大規模言語モデル以前」から開発されたタスクも含まれています。そのため、データセットは訓練(train)-開発(dev)-試験(test)に分割されており、ある意味では、「ベンチマーク問題の類題」を解くことを想定した構成になっています。

llm-jp-13b-instruct-jasterとの関係性
例えば、リーダーボードに(24/4/1時点で)記載されている、llm-jp-13b-instruct-jasterと呼ばれるモデルは、llm-eval-jpベンチマークの訓練データを学習したものです。オープンなモデルとしてはほぼ最高性能を示しており、専用の訓練をきちんと行えば、特定のタスク下においては、商用モデルに近い性能を発揮可能なことを示唆する結果になっています。
本記事で紹介したTanuki-ZeRoも、llm-jp-13b-instruct-jasterと殆ど同じことをやっています。しかし、ファインチューニングの条件を少し変えて上げることで、性能が向上し、GPT-3.5を超える性能を出せることが、今回の検討によって示されました。

ベンチマークの「趣旨」との整合性の問題
Nejumi LLM リーダーボードNeoは、日本語能力を持った大規模言語モデルの性能を測るために構築されたものです。このリーダーボードはllm-jp-evalとMT-benchの2つの指標値が大きいほど、「高性能なモデルとみなせる」*という着想に基づいています。

*注: これらの指標は絶対的なものではない点には注意が必要です。どちらかといえば、評価コストを抑えながら客観的な計測を行うことに主眼が置かれています。膨大な人的リソースを要しますが、人手で評価を行うChatbot Arenaなどは、より正確な指標として認識されているように思います。

本リーダーボードは、単にLLMの性能を評価するのみでなく、最高峰の性能を示すGPT-4(などの商用モデル)との実力差を推定したい、という「趣旨」も含めて運用されているようです。そのため、汎用的なモデルとして設計されたGPT-4に対して、llm-jp-evalなどを徹底訓練した専用モデルを構築して勝負を挑むのは、フェアではない / ハック / 卑怯な戦法 である、との指摘が成立し得ます。更にいえば、特定のベンチマークに特化したモデルを作るという行為は、実用上、意味がなく、LLMの研究開発にむしろ悪影響を及ぼす恐れがある、というご批判もあるようです。

これらの指摘や批判は、確かに妥当であるように見受けられます。一方、筆者は、「他の見方」もあると考えています。いくつかの論点について、記述します。

商用モデルは本当に試験対策を行っていないのか、という課題
GPT-4のような商用モデルに加え、多くの会社が開発した「オープンなモデル」は、学習方法が明示されていないケースが大半です。そのため、これらのモデルが、llm-jp-evalやJMT-Benchのようなベンチマーク問題の対策を全く行っていない、と言い切れる保証がありませんベンチマーク問題というのは、ある意味では、人間が着眼する言語能力を向上させるための良質なデータセットとみなすことができます。基本的に、会社の活動目的は商売であり、宣伝ですので、「学術的な正当性」を担保するよりはむしろ、実用性や見栄えを重視します。これは、何らかの形でベンチマーク対策を行う上で、十分な動機となり得ます*。
つまり、厳密な意味での「フェアネス」というのは、測ることができないと筆者は考えています。

*補足
1 例えばアメリカで開発されたOpenAIでさえ、話者数が世界8位と一定の存在感を示す日本語に対して、何らかの言語訓練を施した可能性を否定しきれません。

2 JMT-Benchは比較的、最近構築されたデータセットなので対策が難しいです。一方でllm-jp-evalに含まれるベンチマークのいくつかは、わりと昔から存在するので、web上から容易にダウンロードして学習させることができます。

「趣旨」に沿ったベンチマーク評価は、多くの日本語LLMにとって難しすぎるという問題
本リーダーボードは、0 shot evaluationと呼ばれる手法でモデルを評価しています。これは、LLMに対してプロンプト内で例題を与えることなく、問題を解かせるというものです。このタスクを解くためには、「初めて与えられた問題の意味を理解し、回答する」能力が求められます。このような高度なタスクは、GPT-4レベルではそれなりの精度で対応可能であるとの共通認識があります。一方、それより下のモデルでは、相当にチャレンジングである、との認識を筆者は持っています*。

*補足
1. 前述の通り、GPT-4は大量のデータを学習しているため、実はベンチマーク問題も初見ではない、というケースも有りえます。
2. Tanuki-ZeRoがGPT-3.5よりも高性能を示したという事実は、(知識や推論力では圧倒的に勝っているはず?の)GPT-3.5の「読解能力」が、必ずしも十分ではない、という結果を示唆しているかもしれません。

特に、多くの国産モデルが報告された10b程度のパラメータ数では、「初めて与えられた問題の意味を理解し、回答する」という作業は、実質的に不可能なのではないかと、筆者は考えています。
厳密な学術的検証ではありませんが、この仮説を、いくつかの具体例とともに確かめる実験を行ってきました。

例えば、dollyと呼ばれるQ&A形式のデータセットを学習した事前学習済みモデル(llm-jp-13b)が、llm-jp-evalベンチマークで実質的に回答可能だったタスクは、クイズのみでした。文章理解に関するタスクなどに対しては、実質的に何も回答することができず、回答の様子を見ても、問題文を理解しているようにすら見えませんでした。更に言えば、問題の形式が「単語を答える」から「選択肢の数値を答える」に変わるだけで、回答性能を失いました*

*数値は回答できるのですが、五択問題のうち、回答の多くが、0,1のどちらかでした。適切な選択肢を選ぶ、ということができていません。「適切な選択肢を選ぶ」という、一見シンプルな能力を獲得するためだけに、少なくとも数百件以上の類似データでの訓練が必要そうだ、という結果も出てきました(詳細はこちら)。

いくつかの事前学習データセットを試しました、llm-jp-evalベンチマークの性能を有意に向上させられるデータセットは、llm-jp-evalのtrain datasetのみでした。

一連の結果は、10bクラスのLLMにとって、未学習のタスクを0 shotで解くことは極めて困難であるということを示しています。
さらに言えば、ベンチマークで回答可能だったタスクは、「たまたま指示データセットとベンチマークの問題形式が似ていただけ」だった可能性が高いわけです。

言い換えると、10bクラスのLLMのリーダーボードにおけるスコアは、モデルのアルゴリズムや事前学習データよりはむしろ、指示データセットに含まれる「ベンチマークとの類題の数」によって、概ね支配されることを、一連の結果は示唆しているように思います*。

つまり、リーダーボードの「趣旨」(?)とされる、「初めて与えられた問題の意味を理解し、回答する」という発想に基づく評価は、10bクラスのモデルでは、実は十分に正しく機能していないのではないか、という考えに至ります**。

*補足
もちろん、限られた実験結果から導き出した仮説にすぎません。学術的には、より包括的で詳細な検討が必要です。

**補足
個人的には、70bクラスのモデルにさえ、このタスクは難しいと考えています。

ベンチマークを「ハック」する、という行為の妥当性について
上述したリーダーボードの「趣旨」と「実態」の齟齬は、10bクラスのモデルの「実力」を、どのレベルで捉えているかによって生じます。

筆者は、上述した予備検討の結果も鑑み、このレベルのモデルには、0 shot evaluationは、少なくとも現時点の技術では、ほとんど行うことが出来ないだろうという意見を持っています*。 極端に言えば、10bクラスのモデルは「BERTから毛が生えたようなもの」くらいのレベルかもしれないとすら、考えています。

*当然ながら、異なる意見もあるはずです。

このような視点に立つと、10bクラスのモデルを、より実用的な観点で運用にあたってやるべきことは、モデルの汎化性能を上げる研究*ではなく、「然るべき訓練を丁寧に行い、できることを一つ一つ増やす」作業になります。

*学術的には、こちらが重要かもしれません。ただし、10bパラメータのモデルが、GPT-4レベルの汎化性能にどこまで迫れるかは、微妙なところです。

どのような訓練を行い、どのようなタスクをこなせるようになるべきかは、ユーザーが求めるアプリケーションに応じて大きく変化します。チャットでの対話力、Q&Aへの回答などに加え、筆者の専門である、化学や材料科学に特化した推論を行うLLMを作る、という選択肢も有りえます。

いずれにせよ、実戦を想定しながら、相当数の訓練(予備検討では数十ー数千件以上?)を行う必要があります。執筆時点において、「どのような種類の問題」を「どの程度の数」、学習させるべきかは、必ずしも明確には分かっていません
そこで一定の普遍性を期待できる共通知見として、「特定のベンチマークを解かせる」というタスクを行ってみることで、必要なデータの質や量の目安を明らかにすることができると期待しています。このような行為には、学術的・実践的な意義があると考えています。

llmj-jp-evalには殆ど、実用的なタスクが含まれていませんが、十分なtrain/dev/testデータが存在しますので、練習題材としては好適です。
JMT-Benchには、LLMにとっては極めて高度で難しいタスクが多く存在し、かなり実戦を想定した作りになっています。このような難問を解ける軽量モデルを作り、その必要知見をアルゴリズム・データセットの両面から明らかにする行為は、学術的・実践的な両面から意義があると考えています*。

*もちろん、上述したリーダーボードの「趣旨」や「フェアネス」からは大きく外れる行為となります。なので、開発したモデルをリーダーボード上に乗せる必要は必ずしもないかもしれませんし、仮に乗せるにしても、「llm-jp-13b-inst-jaster」のような付記が必要です。

一般論として、ベンチマークというのは、乗り越えるために作られてきた、という経緯も無視できません。人工知能分野での有名どころは、「MNIST」です。画像認識のベンチマークで高性能を達成するため、多くの試行錯誤がなされ、畳み込みニューラルネットなどの新たな発見が生まれてきたという経緯も存在します。
今では「MNIST」は多くのAIにとっては簡単すぎるため、更に難しいベンチマークが次々と提案されています。
「ベンチマークを作る」→「賢いモデルができる」→「ベンチマークをより実践的に難しくする」というサイクルを通し、より実用に近いAIが作られてきた、という経緯があるわけです*。

*もちろん、ベンチマークを作る側にとっては、とても(迷惑で)大変な話です。また、今回のリーダーボードは、必ずしもそのような趣旨で運用されていない(?)、ということも理解した上での意見です。

Q. 今回のコンペは簡単に「ハック」できてしまうのではないか?評価指標は妥当なものと言えるのか?

A.本記事ではllm-jp-evalの指標が、わりと簡単に「ハック」できてしまうことを示しました。これに対し、コンペで用いる、他の公開指標であるJMT-Benchは難問かつ実用に近い問題が揃っています。

JMT-Benchの問題例

これらのタスクを解けるように、アルゴリズムやデータセットを「ハック」するのは、至難の業*です。一連のタスクを、わずか10b程度のモデルで解けるようにするために、色々と試行錯誤をしたり、データセット構築を頑張る必要があります(協力者も募集中です!)。

*もちろん、ベンチマーク問題の「てにをは」を変えたレベルの演習問題を作れば、容易に「ハック」できます。が、上述の通り、筆者は筆者なりに、LLMの課題や現状を明確化し、改善しようと真面目に考えているつもりですので、そういうことはしません。

もちろん、JMT-Benchの対策をしすぎるあまり、モデルがベンチマークにoverfitしすぎてしまうリスクは存在します(これはベンチマークの宿命といえます)。その対策も兼ねて、本コンペでは、llm-jp-eval、JMT-Benchに加えて、コンペ参加者には知らされていない、未知の評価データセットが用いられる予定です。

一連の評価指標は、「多様な日本語能力の向上を目指した公開の基盤モデル開発」という、プロジェクトの趣旨に、十分に合致するものであると、筆者は考えています*。

*ただし、llm-jp-evalについては、あまりにも「ハック」が簡単すぎるので、本記事のネタにしました。この点については、どうにからないか、運営との話し合いも始まる見込みです多様な人材が集まることで、これまでは必ずしも明らかではなかった、既存の評価指標やモデルの課題が見えてくるという点も、プロジェクトの成果物の一つといえるかもしれません。

Q. チームの理念はどこにあるのか?

A. (以下、どちらかといえば、筆者の理念ですのでご了承ください。)
上述の理由により、10bクラスのモデルの実力を盲信することはせず、実用的な側面に立ちながら、「懇切丁寧にモデルを訓練する」ための実践的な知見を集積することを、一つのミッションにしています。ベンチマーク特化のモデル構築は、あくまで知見収集のための練習であり、通過点にすぎません。
(筆者の趣味である)科学特化のほか、ロールプレイ(特定のキャラクターになりきる)、対話のような、様々な実践的なタスク群が、ブレインストーミング作業を通して、チーム内で提案されています。これらを、10b(さらには、高性能な50b*)クラスのモデルで実現するための知見集積や、指示データセットの構築が進んでいるところです。

*現時点において、50bクラスのオープンな日本語モデルは存在しません。本記事で扱った「おバカな10bモデル」と比べ、未知の50bモデルはどれくらい賢くなっているのか、どれくらい「教育の手間」が省けるのかなどについて、学術・技術的な観点から、明らかにしたいです。


アルゴリズム面では、一連の「尖ったモデル群」を任意に切り替えるための手法として、Branch-Train-Mergeという手法を採用すべく、検討が進んでいます。
日本には、OpenAI, Google, Meta, …といった超巨大なテック企業が存在しないため、GPT-4、Claude 3のような、「万能で超巨大なモデル」を作るという戦略で真正面から立ち向かうのは、難しいかもしれないと考えています。
このような状況下における、有効な生き残り戦略の一つは、特定の分野に特化した「尖ったモデル群」を構築するアプローチです。
LLM萌芽期ということもあり、これまで本国で報告されてきたモデル群は、どちらかといえば「万能志向」の設計が大半でした。「尖ったモデルの構築」に向け、必ずしも十分な知見集積がなされて来なかった経緯も踏まえると、本チームで提案するアプローチは、本国におけるAI技術の発展のためにも、重要な意義があると信じています。

チームはオープンに運営しております。より良い、実践的な成果物を得るために、アルゴリズムやデータ面などでご協力いただける方を、常に募集中です。

以上

この記事が気に入ったらサポートをしてみませんか?