かねてより課題である、日本語LLM学習データ不足の問題
APIを使った機械翻訳では、特に大量データを扱う場合費用面が大変です
昨年から、ローカルLLMを使用した翻訳特化調整に取り組んできました
今回HuggingFaceがApache2.0ライセンスで公開しているデータセットの翻訳を試してみました
現在作成中の翻訳モデルの出力結果です
同じ文章をブラウザでGoogle翻訳します
さすが、Google品質と速度が素晴らしいです
翻訳品質は実際読んでみるのがよいですが、全部読んでられないので、GPT-4に採点してもらいます
Google翻訳に、品質面で勝ちました!!
次のエントリを見てみます。
GPT-4に評価してもらいました。長文のため、Googleの翻訳結果を同時に送信できなかったため、まず単独での評価です。
かなり良いですが、少し改善の余地があります。
Google翻訳結果も送って比較しました。
今回は、Google翻訳のほうが評価が良いです。
あと一息のところまで来ているようですが、速度面ではGoogle翻訳が圧倒的です。
言語モデルを用いた翻訳の大きな利点は、従来の機械翻訳と異なり、長い文章の文脈に応じて翻訳結果を変えるなど、文章全体を考慮した翻訳が可能であることです。
ハルシネーションや読み飛ばしが多いため、重大な結果をもたらす領域では使用しにくいですが、領域を選べば実用的になってきました
今回100%の目標達成には至っていませんが、ファインチューニング用の翻訳データセットの作成にこれを使用していこうと考えています。ファインチューニングに用いるデータセットは、一定の整合性があり、論理的に問題がなく、文の構造が適切であれば良いと考えます。
この理由は、最近のファインチューニング実験で、自然な日本語の流れを維持するための次のトークンの予測が事前学習に大きく依存していると感じたからです。単語間の自然なつながりを重視する場合、基礎となるモデルの性能が最も重要であると考えています。
海外では高品質なデータセットやオープンな言語モデルが次々とでていますが、日本語圏では厳しい状況が続いています。
日本語が堪能で、高品質なデータセットを作成できる言語モデル発表が待たれます