見出し画像

【英語以外のGoogle翻訳は、一旦英語に変換すると精度が上がる場合がある】 というお話

Ciao a tutti! チャオ ア トゥッティ!
みなさんこんにちは!
Naonardo です。

英語以外の言語との Google 翻訳 で、意味不明な翻訳に出会ったら、一旦英語に翻訳すべし! というお話です。

これらを、Google が翻訳に利用しているAI/機械学習の観点から考えてみましょう。

🇬🇧🇺🇸🇯🇵🇮🇹


みなさん、Google翻訳は、使ってらっしゃいますか?
とっても便利ですよね?

ほとんどの方が、
  英語 ↔ 日本語
の言語間での翻訳で、利用されているのではないでしょうか?

しかし、世界中に英語ネイティブの占める割合は、たったの4億人、5.7%です。(いや、それでも多いのですが)

それで、英語圏以外の国や地域に旅行される際は、旅をもっと満喫するために、挨拶程度でも構いませんので、ぜひ現地の言語を使うことをオススメします。

まず覚えたら良い現地の言葉のオススメ ベスト3
 ・こんにちは!
 ・ありがとう!
 ・おいしい!

「さよなら」も覚えられると良いのですが、別れ際も「ありがとう」で代用できるので「さよなら」は後回しにして、それよりも「美味しい!」を覚えた方が良いように感じます。

旅行の醍醐味の一つとして、現地の料理は楽しみですね。
何かを食べて「美味しい」と感じることは、世界共通で人を幸せにします。
外国人から地元の料理を「美味しい」と褒められて、気を悪くする人はほとんどいません。

わたしたち日本人は感情表現がもともと大人しいため、大げさなぐらい気持ちを込めて「美味しい」と言うぐらいがいいと思います。
相手のほころぶ笑顔が見れるでしょう。


それでは、まずはGoogle 翻訳を利用して、英語以外の言語と日本語を翻訳する時の問題点を考えてみましょう。


「英語以外の言語 ↔ 日本語」の翻訳をすると、意味不明な翻訳になることがある

英語と日本語以外の言語として、独断と偏見でイタリア語を例に説明します。
(イタリアかぶれでスミマセン)

ある単語を、イタリア語 → 日本語 に翻訳してみます。

イタリア語: "ci"
日本語: "米国"

What!??? 🤷🏻‍♂️🤷🏻‍♂️🤷🏻‍♂️
これ、イタリア語初心者な私からしても何かがおかしい!!


翻訳が正しいかどうか確かめる方法の一つは、逆翻訳してみることです。

右下端のメニューボタンをタップします。点が3つのボタンです。


メニューが表示されますので、「逆翻訳」を選択して、翻訳結果に問題がないかを調べます。

逆翻訳の結果。
うーむ、やはり全く異なるようだ。

こんな意味が通じない翻訳結果になった場合、どうしたら良いでしょうか?


Google翻訳は、一旦英語に翻訳すると良い

直接日本語に翻訳するのではなく、
一旦、イタリア語 → 英語 に翻訳してみましょう。

イタリア語: "ci"
英語: "us" (私たちを, 私たちに)

はーい!🙆🏻‍♂️🙆🏻‍♂️🙆🏻‍♂️
正しい翻訳になりました!

これで、なぜイタリア語から日本語に直接訳すとおかしなことになるか、もう分かりましたね。

イタリア語: ci
英語: us ※
日本語: 米国

※英語の us
「私たちに, 私たちを」を意味する us と捉えて欲しかったのですが、
USA (United States of America) の "US" と勘違いしているのです。

この現象から分かることは何でしょうか?


Google 翻訳では、「英語以外の言語 ↔ 日本語」の翻訳を行う際には、一旦英語を経由している

ということです。

このように直接訳さずに中間の言語を入れて翻訳することを「重訳」といいます。

あぁ、僕も重役出勤してみたいです。
(字も意味も全然違います 汗)


わざわざ重訳するのはなぜか?

間に英語を挟むなんて、一見すると手間がかかるように感じますが、どうしてわざわざ重訳するのでしょうか?

では、その理由を考えてみましょう。
みなさん、Google 翻訳の精度はどうやって向上させているかご存じでしょうか?

それは、すでに訳出されている大量の文書(小説、文献などなど)をAIに読ませて機械学習させることにより、精度を向上させていっています。

翻訳精度向上の鍵として、
機械学習にはすでに訳されている大量の文書などのビッグデータが必要になります。

下記の3つの組み合わせの内、世の中に存在する翻訳済みのデータで一番少ない組み合わせはどれでしょうか?

1. 英語 ↔ イタリア語
2. 英語 ↔ 日本語
3. イタリア語 ↔ 日本語

はい!そのとおり!
正解は 3 です!

世界中に出回っている翻訳データとして、
 3. イタリア語 ↔ 日本語
の言語間のデータ量は、
他の1,2に比べて圧倒的に少ないのは想像に難くないと思います。
なぜならば、ニーズが少ないからです。

重訳している理由としては、以下の2点が挙げられるでしょう。
 1) 重訳することで、利用頻度の少ない言語間の翻訳をわざわざ機械学習せずに、翻訳可能になる
 2) 機械学習のもとになる学習データが少ない言語間の翻訳の場合、翻訳精度の向上を見込めない

一番多く話されている言語は?

重訳する理由 1) について補足すると、Google 翻訳を利用するユーザーがどんな言語間の翻訳するか分かりません。
世界中には無数の言語が存在するため、それらすべての組み合わせ(パターン)を機械学習させることは困難です。

そうなると、ボリュームゾーンを狙うのが一番良いでしょう。
では、世界中の言語の中で、話者が一番多い言語は何語でしょうか?

前述のとおり、英語のネイティブスピーカーは4億人といわれています。世界人口70億人からするとたったの5.7%に過ぎません。

しかし、第二言語、第三言語…としての英語の話者はトータルで17億人と言われています。そうすると一気に24.3%に跳ね上がります。実に世界の4人に一人が英語を話せるのです。

言語の話者人口は、中国語(マンダリン)15億人、スペイン語と続きます。


つまり、ネイティブ以外の話者まで含めると、世界の共通語としてやはり英語が使われていて、機械学習にうってつけの「英語 ↔ 英語以外の何らかの言語」間の翻訳済みデータが大量にあるということです。

もちろん、Google がアメリカ企業のため、重訳に使用する中間言語として英語を利用している、というのも大きいでしょう。


重訳の利点

それでまずは、大量にデータが存在する
 1. 英語 ↔ イタリア語
 2. 英語 ↔ 日本語

の間の翻訳精度を、人の手などにより翻訳された小説や文献などのデータから機械学習により向上させます。

そうすると、重訳する理由として挙げた下記の2点を達成できます。

直接的に
 イタリア語 ↔ 日本語
を機械学習させることなく、翻訳可能になる


●中間言語として、翻訳精度が高い英語を一旦経由することで、
本来翻訳したい
 イタリア語 ↔ (英語) ↔ 日本語
の翻訳精度もある程度担保できる

ということはですよ、Google 翻訳で英語以外の言語を翻訳する際に、一番正しい翻訳結果を得ようと思ったらどうしたら良いでしょうか?

日本語に直接訳すのではなく、
「英語 ↔ 英語以外の言語」を翻訳させる方が精度が高い!
ということです。


重訳の問題点

現状、重訳されている訳ですが、問題点はないのでしょうか?

問題点は、一番最初のスクリーンショットで見たように、翻訳する言語が増えると、伝言ゲーム式に全く意味の通じない変な翻訳結果になってしまう可能性もある、という点です。

伝言ゲームで、経由する人が増えれば増えるほど、おかしな伝言になっていくことを容易に思い出せるでしょう。


たとえば今回の例でいくと、
英語では、 us (私たちを) が文の冒頭に来るケースはほとんどないでしょう。
中学で習ったように "us" は、文法的に SVO の 「O: 目的語」 としての働きがある単語のため、語順として動詞の後に来ることが通例だからです。

それで Google 翻訳では、us が文の冒頭に来るということは、S: 主語 だろうとコンテキストを判断し、主語として存在可能な大文字の "US" という単語に解釈して、"米国" と翻訳したと考えられます。


一方、イタリア語では、別れ際の挨拶として
Ci vediamo domani (チ ヴェディアモ ドマーニ)という表現があります。
"ci"(英語では us)が文の冒頭に位置しても、文法として何ら問題ありません。

意味がとおる形で英語に直訳すると、let を補って
Let us see tomorrow が近いでしょうか。

これを自然な英語の挨拶に置き換えると、
See you tomorrow になります。

下記のとおりです。

このように、挨拶などの慣用句全体を翻訳させると、大量の翻訳済みデータから機械学習済みですので、Google 翻訳も正しい訳出が可能です。


まとめ

Google 翻訳で、英語以外の外国語と日本語を訳す際に、意味の通じない翻訳結果が表示された場合、一旦英語に訳してみましょう!
そうすると、意味を把握できる可能性が高い
です。


統計上は4人に一人が英語を話せるとはいえ、英語圏以外の旅行先では、空港職員や観光地のお土産屋さん以外は、あまり英語が話せない人も多いな、と感じます。

せっかく異文化や非日常を体験しに旅行に行くわけですから、英語だけに頼らず Google 翻訳などを使って、その土地の言葉を少しでも使ってみるのはいかがでしょうか?

そうすることで現地の方もとても喜んでくれますし、交流も深まることでしょう。何よりその旅が、きっと思い出深いものとなることでしょう!

ちなみにイタリアでは、女性であっても、宅配ピザ3~4人前ほどのサイズのピザを一人一枚食べます。圧巻です!

あぁ、ピザ食べたくなってきたな
自分で貼っておいて、自爆飯テロ。。。


Google 翻訳の旅のTips 集

ここからは、Google 翻訳を使用する際のちょっとした tips です。
といっても、裏技的なことはありません。

旅のTipsその1:便利なオフライン翻訳

海外旅行では、通信量を節約したいということがありますし、日本と違って思わぬところで、電波が入りにくい、ということがあります。
そんな時に有用なのがオフライン翻訳です。

オフライン翻訳可能な言語の場合、翻訳する言語を選択する画面で、言語の右端に下向き矢印↓があります。
上図の場合、アイスランド語とアイルランド語です。

その矢印をタップすることで、対象言語の翻訳辞書をダウンロードできます。(既にオフライン翻訳ファイルをダウンロード済みの言語は、チェックマークがついています。上図の場合、日本語、イタリア語など)



旅のTipsその2:便利な会話モード

「会話」ボタンをタップすると、お互いが会話しながら翻訳結果を見聞きできます。

「会話」ボタンをタップします。


会話モードに移行します。
※初めて使用する場合は、Google 翻訳にマイクの使用を許可するか確認される場合があります、その際は、マイクの使用を許可してください。

「自動」にしていない場合は、話をする対象の言語のボタンを翻訳のたびにタップしなければなりません。(上図では、「italiano」or 「English」ボタン)

「自動」を選択すると、今話している言語を自動的に識別して翻訳してくれて、とても便利です。


それではまた! Ciao ciao, a dopo!
Naonardo でした!

サポートありがとうございます! いただいたご支援は決して無駄にせず、療養費やより良い記事を書くために使わせていただきます。