見出し画像

最強機械翻訳決定戦2023 ~君たちはどう訳すか~

英語→日本語の機械翻訳サービスを横断的に評価した『最強機械翻訳決定戦2020・米国大統領選連動企画』の執筆から、早3年。

テックジャイアントを向こうにまわし、激戦を制したのは、ドイツ発のベンチャー企業が開発したDeepLだった。

そして今。その当時よりもさらに機械翻訳は身近になり、性能も大きく進化した。その精度の向上を誰もが感じていることだろう。

実際のところ、英文→日本語の機械翻訳はどこまで進化したんやろうか。

ちゅう訳で、Noteアクセス数No.1翻訳家(自社調べ。ただし翻訳以外の記事を含むwww)のトド奈津子先生が、3年ぶりに機械翻訳サービス達の実力をマルっと判定する、NOTE記事機械翻訳サービス最大トーナメント開催や!!!


最大トーナメント開幕ッ!

選手入場!





言語バリアフリーは、生きていた!!!さらなる研鑽を積み、国産最強が蘇った!!TOEIC960点相当、みらい翻訳だァー!

機械翻訳はすでに我々が完成している!Google翻訳だー!

翻訳は実戦で使えてナンボのモン!!!超巨大SNS!!本家MetaからFB翻訳の登場だ!!

特に理由はない!マイクロソフトが強いのは当たり前!OpenAIには内緒だ!!MS翻訳が来てくれた―!!

調達額4兆円のAIが今ベールを脱ぐ!アメリカからChatGPTだ!!

若き王者が帰ってきた!どこへ行ってたチャンピオン!俺たちは君を待っていたッッッ!!!DeepLの登場だーーーッ!」

民明書房「トランスレーターDeepL 機械翻訳最大トーナメント編」


課題英文

確認するための英文は、2020年の時と同じものを使う。2020年10月30日のオバマ元大統領のFaceboookへの投稿や。

前の記事でも書いたけど、これは大統領選挙に関する知識が必要やったり、文章が一部、箇条書き的になっていたりと、訳すのがかなり難しい部類の英文になっとる。事実、2020年の検証時には、合格とゆえるような翻訳はひとつもなかった。

Imagine January 20th, when we swear in a President and Vice President who have a plan to get us out of this mess; who believe in science and have a plan to protect this planet for our kids; who care about working Americans and have a plan to help you start getting ahead; who believe in racial equality and are willing to do the work to bring us closer an America where no matter what we look like, where we come from, who we love, or how much money we’ve got, we can make it if we try. All of that is possible. All of that is within our reach. If we pour all our effort into these last five days and vote up and down the ticket like never before, then we will elect Joe Biden and Kamala Harris. And we will leave no doubt about who we are and what this country stands for. Let's go.

FB Barack Obama, 30th OCT., 2020


評価の視点

詳細な解説は、前の記事に委ねるとして、ここでは、まずトド奈津子先生謹製の翻訳を参考例として提示した上で、評価のポイントを3つ提示したい。

こちらが、トド奈津子先生の翻訳や。まあ、多少手を入れたいところはあるものの、こんなもんやろ、ということで2020年版そのままで掲載する。

1月20日の日を想像してください。この混乱から私たちを救い出す計画をもつ人物が大統領と副大統領として宣誓することを。科学を信じ、私たちの子供たちのためにこの星を守る計画を持つ人物。働くアメリカ人のことを気にかけ、人々が前進し始めることを助ける人物。人種の平等を信じ、見た目も、出身地も、誰を愛しているかも、どのくらい金を持っているかも問題にならない場所「アメリカ」に我々を導くため働きたいと願っている人物。我々が投票しさえすれば、この大統領を選べるのです。これらの全てが可能なのです。これらの全てが私たちの手の届くところまで来ているのです。もし私たちがあと5日、すべての努力をここに注ぎ込み、そして今までにない投票率で大統領、下院上院の投票をすれば、私たちはジョー・バイデンとカマラ・ハリスを選ぶことが出来ます。そして、私たちは我々が何者であるか、この国は何を守る国なのかについて、疑う必要はなくなるのです。がんばりましょう!

トド奈津子2020年版・12分程度

主な評価ポイントは3つある。

  1. we swear in a President:典型的な誤訳は「我々が大統領に宣誓する」。正しくは「大統領が宣誓する/就任する」。この誤訳はトド奈津子先生も最初にやってしまったから、まあ、レベルが高いw

  2. vote up and down the ticket:正しい意味は「(投票用紙で)大統領・上院・下院選挙すべてに投票する」。実は大統領選挙の投票用紙は大統領・上院議員・下院議員すべての選挙がまとまっている。最初のページの大統領分しか投票しない国民が多い。全部のページに投票することをvote up and down the ticketと表現する。

  3. 全体の自然さ。文体の統一や主旨の一貫性

さっそくそれでは早速、試合開始や!!


試合開始ッッッ!

第1試合 みらい翻訳 vs FB翻訳

さて、まずは国産最強・みらい翻訳から見ていこうか。

想像してみてください1月20日、この混乱から抜け出すための計画を持っている大統領と副大統領を宣誓するとき;科学を信じ、子供たちのために地球を守る計画を持っている;働くアメリカ人を大切にしていて、出世するための計画を持っている人;彼らは人種平等を信じていて、私たちがどのように見えても、どこから来ても、誰を愛していても、どれだけのお金を持っていても、私たちが努力すれば成功できるアメリカに近づけるように、進んで仕事をしてくれるのです。これらはすべて可能である。そのすべてが私たちの手の届くところにあります。もし我々がこの5日間に全力を注ぎ、かつてないほどチケットを上下に投票すれば、ジョー・バイデンとカマラ・ハリスを選出するだろう。そして、私たちは、私たちが何者であるか、この国が何を表しているかについて疑いの余地を残さないでしょう。行きましょう。

みらい翻訳2023

ポイント1「大統領を宣誓する」→ ✕
ポイント2「チケットを上下に投票すれば」→✕
ポイント3 文体がバラバラ。文章も残念ながら非常に読みにくい→✕

正味な話、ちょっと残念や。せめて日本語の文体の一貫性は保って欲しかった。国産なんやから。

続いて、SNSで使うことを前提に作られたFacebook翻訳を見てみよう。

私たちをこの混乱から抜け出す計画を持っている大統領と副大統領に誓う1月20日を想像してみてください。科学を信じて子供 たちのためにこの惑星を守る計画を持っている人。 働くアメリカ人を気にかけて、あなたを助ける計画を持っている人人種の平等を信じて、私たちがどんな見た目で、どこから来ても、 誰を愛しても、どれだけお金を持っても、努力すれば成功できるアメリカに近づけることを喜んでくれる人。そのすべては可能だ。そのすべては私たちの手の届くところにある。 この5日間で全力を注ぎ、かつてないほどチケットの上下投票すれば、私たちは Joe Biden と Kamala Harris そして、私たちは自分たちが何者 で、この国が何を表しているのかについて 疑いの余地を残す。さあ行こう

Facebook2023

ポイント1「大統領に宣誓する」→ ✕
ポイント2「チケットの上下投票すれば」→✕
ポイント3 最後「疑いの余地を残す」では意味が正反対。文体は一貫性がある→✕

何について話しとるかは、どっちも明確やから、そういった意味では、もうすでに基本的な翻訳としてのレベルは超えているといえるんやないか。

ただ、この2つ比べたとき、どっちがええんやろうな。難しいところやなー。まあ、しいて言えば、FB翻訳の方が全体の読みやすさはあるか、という感じやね。最後の1文の誤訳は致命的なんやけども。

まあ、ほとんど引き分けやね。

もうひとつ、この3年の機械翻訳としての進歩とゆう観点で見ると、みらい翻訳の進化は、わずかとしかゆわれへん。FB翻訳は、かなり大幅な進化を遂げている。そういった観点からゆうとFB翻訳に軍配をあげたい。

試合結果 みらい翻訳(Loss)(判定:1‐2)FB翻訳(Win)


第2試合 DeepL vs Google翻訳

さて、続いて前回チャンピオンDeepLを見ていくで。登場と同時に全世界を驚愕させた翻訳サービス。3年前は最強だった機械翻訳サービス。DeepLの限界=その時代における機械翻訳技術の限界という感じやった。

それから3年どうなったか。

1月20日、私たちが大統領と副大統領に宣誓するときを想像してみてほしい。彼らは、この混乱から抜け出すための計画を持っている。科学を信じ、子供たちのためにこの惑星を守る計画を持っている。そのすべてが可能なのだ。そのすべては私たちの手の届くところにある。もし私たちがこの5日間に全力を注ぎ、かつてないほど票を投じれば、ジョー・バイデンとカマラ・ハリスを選出できるだろう。そして、私たちが何者であり、この国が何を目指しているのかについて、疑いの余地を残すことはないだろう。さあ、行こう。

DeepL2023

ポイント1「大統領に宣誓する」→ ✕
ポイント2 記載なし→△
ポイント3 よく分からんところを丸ごと削るスタイルが、間違うよりはマシやけど減点ポイント。文体の一貫性はある→△

DeepLの「分からないところ(訳に自信がないところ)は、とりあえず削る」スタイルは、文章全体の主旨を理解するという観点からは有効だが、なにが抜けているか判定できる英語力がないと、使いこなせない感はある。

これは完全に推測だが、おそらく英語とラテン語系などの言語の間であれば、「訳が分からなくて削る」頻度は遥かに低いのではないか。

次にGoogle翻訳や。DeepL登場前の絶対王者。Google翻訳に助けられた奴は、いっぱいおったはず。その最新の地点を見ていこう。

1月20日を想像してみてください。この混乱から私たちを救い出す計画を持つ大統領と副大統領を宣誓する日を想像してみてください。 科学を信じ、子供たちのためにこの地球を守る計画を持っている人たち。 働くアメリカ人のことを気にかけていて、あなたが成功し始めるのを助ける計画を持っている人。 人種平等を信じ、見た目、出身地、愛する人、お金の多さに関係なく、私たちが頑張ればやっていけるアメリカに近づけるために喜んで取り組んでくれる人たちです。 試す。 それはすべて可能です。 そのすべてが私たちの手の届くところにあります。 この5日間に全力を注ぎ、これまでにないほど賛成票を投じれば、ジョー・バイデン氏とカマラ・ハリス氏を選出することになるだろう。 そして私たちは、私たちが何者であるか、そしてこの国が何を象徴しているのかについて、何の疑いも残しません。 さあ行こう。

Google翻訳2023

ポイント1「大統領を宣誓する」→ ✕
ポイント2 記載なし→△
ポイント3 文体の一貫性はある。「vote up and down the ticket」は訳せてへんくて、さりげなく飛ばしとるところが、減点ポイント→△

Google翻訳も、分からんところは飛ばしとるね。

間違った訳をするのと、訳さない(削る)のはどっちがマシなのか、ちゅうのは議論が分かれるところやけど、使い勝手からゆうたら、間違った訳をするくらいなら削る方がマシやと思う。

正味な話、DeepLとGoogle翻訳もほとんど互角やね。両者ともに2020年に比べるとずっと自然な文章になっとることは評価に値する。前の記事と比較するとその進化は一目瞭然や。
DeepLは、適切に句読点が打てなかったんやけど、自然な句読点が打てるようになっとる。

まあ、しいてゆうたら、Google翻訳かな。訳せたところが多いちゅう意味で。でも、ほとんど差はない。人によって判定の変わる超僅差の判定やね。

試合結果 DeepL(Loss)(判定:1‐2)Google翻訳(Win)

第3試合 MS翻訳 vs ChatGPT

さて、最後の試合は、MS翻訳とChatGPTの対決や。

MS翻訳から見てこうか。2016年に見たマイクロソフト社のAI、Cortanaの翻訳デモには、ド胆を抜かれた。その後、Google翻訳が、そのMS翻訳を高速で抜き去っていき、さらにそれをDeepLが抜き去り、機械翻訳は群雄割拠の戦国時代に突入した感があった。

そんなマイクロソフトの機械翻訳の最新版はどんな翻訳を見せてくれるんやろうか。

1月20日、この混乱から抜け出す計画を持っている大統領と副大統領を誓うときを想像してみてください。科学を信じ、私たちの子供たちのためにこの惑星を保護する計画を持っている人。働くアメリカ人を気にかけ、あなたが前進し始めるのを助ける計画を持っている人。人種平等を信じ、私たちがどのように見え、どこから来て、誰を愛し、どれだけのお金を持っていても、私たちが試みればそれを成し遂げることができるアメリカに近づくために私たちを近づけるために喜んで仕事をする人。そのすべてが私たちの手の届くところにあります。この5日間に全力を尽くし、かつてないほどチケットを上下に投票すれば、ジョー・バイデンとカマラ・ハリスを選出できます。そして、私たちは私たちが誰であるか、そしてこの国が何を表しているのかについて疑いの余地はありません。行きましょう

MS翻訳2023

ポイント1「大統領を誓う」→ ✕
ポイント2 「チケットを上下に投票」→✕
ポイント3 文体の一貫性はある。言葉使いも自然→〇

文体が自然やね。日本人で、ここまでの訳が出せる人間はほとんどいないんやないか。英語力、日本語力の両面で。訳の完成度からすると、今までの5つの中で一番高い

2020年から派手な進化はないものの、地味にDeepLやGoogle翻訳に追いついとった。

同時にこれまでの5つの機械翻訳がいずれも、ポイント1、2をクリアできひんことも明らかになった。この2つが、いかに難しいハードルなのかが浮き彫りになった形や

さて、最後はChatGPT

22年11月に登場し、世界を変えたとゆうても過言やない。しかも、ものすごい勢いでバージョンアップをしとるのも、特筆すべきポイントや。つい数ヶ月前のChatGPTは、間違いなくDeepLに劣後しとった。

今日は、最新版のChatGPT(GPT4.0, Sep. 25 version)を使って、その実力を評価していくで。まずは、「訳して」とだけ言って訳したものをみてみよか。

1月20日を想像してみてください。私たちをこの困難から救い出す計画を持った大統領と副大統領が就任する日。科学を信じ、我々の子供のためにこの地球を守る計画を持っている人たち。労働するアメリカ人のことを考え、あなたが前進し始めるのを助ける計画を持っている人たち。人種の平等を信じ、私たちがどんな姿であれ、どこから来たのか、誰を愛しているのか、どれだけのお金を持っているのかに関係なく、私たちが努力すれば成功できるアメリカに近づくための仕事をする気がある人たち。それはすべて可能です。それはすべて私たちの手の届く範囲内です。もし私たちが最後の5日間に全ての努力を注ぎ、今までにないようにチケット全体に投票すれば、ジョー・バイデンとカマラ・ハリスを選出するでしょう。そして、私たちが誰であり、この国が何を意味しているのかについての疑問を残さないでしょう。行こう。

ChatGPT(GPT4) 2023コンテクストなし

ポイント1「大統領が就任する」→ 〇
ポイント2 「チケット全体に投票」→〇
ポイント3 文体の一貫性はある。言葉使いも自然→◎

正味な話、文句のつけようあらへん。訳も正確な上に、文章も巧い。

さらに、「これはオバマ元大統領が、バイデン大統領候補を応援するためにSNSに投稿した文章で、日本人が理解できるように配慮した翻訳をして欲しい」というコンテクスト(文脈)をプロンプトで与えた翻訳が、次のバージョンや。

1月20日を想像してみてください。この困難から私たちを救い出す策を持った大統領と副大統領、ジョー・バイデンとカマラ・ハリスが就任するその日を。彼らは科学を信じ、我々の子供たちのためにこの地球を守る策を持っています。労働するアメリカ人を真心で思い、前に進むための策を持っています。人種平等を信じ、私たちがどんな容姿、出身地、愛する人、持っているお金の額に関わらず、努力すれば成功できる国、アメリカに近づけるための取り組みをします。それすべては可能です。私たちの手の届くところにあります。もし、この最後の5日間全力を尽くし、大統領候補から地方の候補者まで、一票を投じることができれば、ジョー・バイデンとカマラ・ハリスを選出することができます。そして、私たちは自分たちが誰であるか、この国が何を代表しているのか、疑いの余地を残さず示すことができます。さあ、立ち上がろう。

ChatGPT2023(GPT4)コンテクストあり

ここまで来ると、もう完全にプロの仕事やないか。日本語としての表現も洗練されとる。

冒頭では、「大統領、ジョー・バイデン」としとって、原文にはない名前を補完するちゅう、日本人に向けた粋な翻訳をぶちかましてきた。

上院下院ではなく、地方の候補者というような訳をしているのも巧み

実は「vote up and down the ticket」について、ChatGPTは非常に厳密に理解しとることも、このあと確認している。その上で、トド奈津子先生のように「上院・下院」とせず、大統領と地方の候補者とした。おそらくは米国の議会に対する理解がほとんどない日本人に向けた翻訳として、その方が適切という判断が行われとる。

ポイント1「大統領、ジョー・バイデンが就任する」→ ◎
ポイント2 「チケット全体に投票」→◎
ポイント3 オバマ元大統領の投稿として違和感のない文体→◎

もはや、普通の文章で、コンテクストを与えれば、トド奈津子先生に匹敵するか、凌駕するレベルに到達しとるといえるやろう。

試合結果 MS翻訳(Loss)(1R 7秒 KO)ChatGPT(Win)


試合終了!

総合優勝

という訳で、もう改めて書くまでもない。

トド奈津子 「優勝は、ChatGPTや~!!!」

ChatGPTは、機械翻訳界における範馬勇次郎の域に到達しとる感がある。

あえて、順位をつければ、こんな感じやね。
優勝:ChatGPT
ーーーーーーーーーーーーー
第2位:Google翻訳、MS翻訳
第4位:DeepL
ーーーーーーーーーーーーー
第5位:FB翻訳
第6位:みらい翻訳

どれも3年前から見ると格段に進化しとるのは、驚きの一言。

2~4位のGoogle翻訳、MS翻訳、DeepLは、ほぼ横一線で、ほとんど差がない。

そんな中、初登場1位のChatGPTが、ぶっちぎりで飛び抜けていることが分かった。

しかし、1位と2位の差以上の差が、4位と5位の間には存在する。

それでも5位のFB翻訳は、他言語で書かれたFBの投稿をワンクリックで自身の言語で読んで、雰囲気をつかめるという絶大なメリットがある点は、間違いなく、評価できる。

みらい翻訳は、正味な話、精度面ではかなり厳しいのやないかと思うけど、ビジネス面からすれば少なくとも国内では全然ええ勝負になる可能性はあるはず。

さて、1位とそれ以外の差は、実は翻訳能力の差だけで生まれたものではない。むしろ、コンテクストの差から生まれたと言った方がいい。

2020年の記事でコンテクストについて言及し、そのコンテクストを取り入れた機械翻訳の登場を予言したけども、それがまさにChatGPTということになる。


ChatGPTとそれ以外の差

翻訳は、単なる言語学的な知識や理解だけでなく、膨大な知識およびコンテクスト表現力を必要とする。文芸作品になると猶更や。

既存の機械翻訳システムは、英文とそれを翻訳した日本語文の対応を学習データとした機械学習によって開発されとる。たとえば「I am a boy」という英文に対して、「私は少年です」「ぼくは男の子だよ」といった翻訳された日本語文をセットとして学習しているといえば、イメージが湧きやすいかもしれへん。文法ではなく、あくまでも文同士の組み合わせを学習させとるのがミソや。これは原則文法をベースとして、英文を日本語文に変換するルールを作り、そのルール則り翻訳をしとった翻訳ソフトウェアに革命的な進歩をもたらした。

一方、今回優勝したChatGPTはどうか。

もちろん、英文と日本語文の対応も学習しとるんやろうけど、学習対象の範囲はそれに限らない。地球上のあらゆうテキストを学習しとるし、文脈/コンテクストを捉える量とゆうてもええ学習パラメーター数は天文学的な数になっとる。

つまり、ChatGPTは翻訳以外のことをむちゃくそ知っとるし、文脈を捉える力も桁違いなんや。

もはやいわゆる翻訳サービスが、ChatGPTやそれに類するAIに追いつくことは極めて困難やないか。

「AI翻訳とは違って、人間の翻訳家はコンテクストが把握出来る」とゆうのも、ChatGPTの出現によってあっさりと覆されてもうた。

しかも、繰り返しになるが、真に恐るべきは、ChatGPTをはじめとする機械翻訳の進化速度や。
ChatGPTもつい数ヵ月前まではDeepLよりも精度が低かった。そこから高々、数ヵ月でとてつもない進化を遂げとる。次の数ヵ月では、さらに進化しとるやろう。人間では、絶対にこうはいかへん。

さらに、実は今回の評価を通じて、今後の機械翻訳の姿も見えてきた。


まとめ。機械翻訳と翻訳家の未来

ChatGPTの進化

すでにChatGPTは、マルチモーダル(テキストや数値データだけでなく、画像、動画、音声など様々なデータの複合)の学習を始めている。

つまり今後(どんなに長く見積もっても2年以内に)、文書以外の情報やコンテクストも、翻訳に反映されるようになる。

これにより、ChatGPTの翻訳精度は、さらに今(23年10月時点)よりも遥かに高くなるはずだ。

一般的な意味での翻訳は、もはや人間の手から完全に離れるやろう。

機械翻訳と人間の翻訳家の間に、最後に残るわずかな差は身体感覚に根差した表現や解釈になる。

しやけども、それも今から10年以内に人間の感覚(五感から生まれる心情など)に関するデータもそのコンテクストに含まれるようになるはずや。もしかすると10年などという時間はかからず、5年以内にその時は訪れるかもしれない。

そうなれば、翻訳は完全に人間の手を離れることになる。


翻訳家の未来

6年前に、こんな記事を書いた。

この記事では、自動翻訳が言語翻訳家の職を奪うようになる年を2032年と予言した。今から9年後だ。この予言が成就する可能性が、ChatGPTにより大幅に上昇した。

今、国内の翻訳市場は2500億円程度と推計されているそうだが、9年後の2032年には、その規模は文字通り100分の1、1000分の1になっている可能性すらある。

それは、人力車、飛脚に対する自動車、鉄道、飛行機くらいのインパクトになるかも知れない。

今、我々が生きているのは、そういう時代の転換点なんや。この記事では、たまたま翻訳を取り上げたが、それ以外のありとあらゆる領域で、同じようなことがリアルタイムで進行している。

これから先、どうなるのか。

ワイにもわからへんww

とりあえず、次回の最強機械翻訳決定戦は、歌詞の翻訳か何かでやろうと思う。

そう遠くない将来のはず。お楽しみに!


この記事が参加している募集

英語がすき

この記事が気に入ったらサポートをしてみませんか?