Google Translate (GT)の新バージョンGoogle Neural Machine Translation (GNMT)について（後編）ー機械翻訳考（その２）

2024年3月28日 13:50

はじめに

「機械翻訳考（その1）：Google Translation（GT）—新バージョンGoogle Neural Machine Translation （GNMT）について（前編）」の続きです。

(その1)後半で紹介したHofstadter氏の記事The Shallowness of Google Translateのポイントは4点

引用サイトの内容は本稿を執筆した2021年５月時点のものです。

1. 翻訳は長きに亘る人生体験、創造力、想像力をもってして達せられる
「途方もなく繊細な芸術（an incredibly subtle art）」である。そのキーワードは理解（understanding [language]）でありデコード（decoding） [1] 中心のGTなどの機械翻訳（MT）は理解（understanding）と意味（meaning）に目を向けていない。ヒトによる翻訳であろうが、機械翻訳であろうが、言語の何たるかを理解せず良質の翻訳をするのは無理。GTはdeep learningを取り入れていると言っているもののunderstanding （language）を回避しており、例示した3例の質を見る限りdeepとは言い難く the ELIZA effectのオブラートに隠れているだけ。

2.自身が翻訳する際には、言語Aの原文をよく読み、頭の中でideasをかき回し内在化する。かき回すうちに発想（ideas）が浮かび、シナリオに関わる豊穣な光輪（a rich halo of related scenario）が差込む。この光輪（halo）は初め意識されないがやがて喚起される。その瞬間を捉え、言語Bに押し出すように、言語Bにふさわしい表現で、この光輪（halo）が放つままの状況を描くのだ。

3.現実体験から切り離され、表象（imagery）や語（words）に潜む意味
（meaning）を無視し、膨大なデータをベースにひたすらテキスト処理するだけのMTには無理だ。どんなに膨大なデータがあっても理解（understanding）がなければideasは生まれない。MTの失敗は発想が創出できないからだ。

4.機械(machine)が人のように発想(ideas)、情緒感情(emotions)、体験 (experiences)を持つようになれば話は別だがまだ遠い先になりそうだ。

本コラム記事のGT英訳を見てHofstadter氏に共感できる筆者の例

拙稿「名曲What a Wonderful World （1967, Louis Armstrong）が伝えるメッセージ」のGT英訳から一例を挙げます。その記事の注20のGT英訳です。筆者原文：Satchmoは、政治的発言が少ない穏健派でしたが、人種隔離政策に関するアイゼンハワー大統領の姿勢に対しては“two-faced”（どっち付かず）と厳しく批判して注目されました。G T英訳（2021年5月11日時点）：Satchmo was a moderate group with few political remarks, but he was sternly criticized for President Eisenhower’s stance on racial segregation policy as “two-faced” and attracted attention. ..原文の下線部に注視しながらGT英訳を見ると、“racial segregation policy”に対し“two-faced”とされる姿勢を取ったのが誰か、誰が批判されたのか、要は、誰が何故に注目されたのか不明です。筆者なら筆者英訳：Satchmo was politically moderate with few political remarks, but was known to have sternly criticized President Eisenhower as “two-faced” for his stance on racial segregation policy.と訳したでしょう。これはHofstadter氏の記事The Shallowness of Google Translateで挙げられている（１）に近い単純ミスです。フランス語と英語のgender上の違いのように、日本語では、主語や目的語が何を指すか明白な場合は省きます。スタイルの問題です。「Satchmoは、政治的発言が少ない穏健派でしたが、Satchmoは、人種隔離政策に関するアイゼンハワー大統領の姿勢に対しては“two-faced”（どっち付かず）と厳しく批判して、Satchmoは、注目されました。」という具合にいちいち主語を繰り返せば良いのですがスタイル的に避けたいところです。言語学的に言うなら、文法的だが避けたい（grammatical but not acceptable）ぎこちない（awkward [2] ）表現になってしまいます。

高質翻訳には言語理解（understanding languageが不可欠： Roman Jakobson

高質の翻訳（quality translation）には、原文サイドと訳文サイド両方で理解力（understanding）、特に言語の理解（understanding language）が不可欠ということです。それでは言語理解（understanding language）とは何でしょうか。Roman Jakobson On Language [3] にヒントを探してみます。そのChapter 4 “The Speech Event and the Functions of Language”で、スピーチ・イべント（speech event）、言い換えると、コミュニケーション（communication）としてのspeech event[4]　は、発信者（Addresser）、受信者（Addressee）、 Code（記号媒体）、触れ合い（Contact）、メッセージ（Message）、状況（Context）の 6要素（factors）で構成され、それぞれに情緒的機能（Emotive　function）、動能的機能（Conative function）、メタ言語的機能（Metalingual　function）、常套的機能（Phatic function）、詩的機能（Poetic　function）、指示的機能（Referential function）という機能があると述べています。[5] Hofstadter氏は「翻訳とはアート（art）である」と強調していますが、Jakobsonも“What makes a verbal message a work of art？”と自問し、その答えをこれら6つの factorsと6 つのfunctionsに探ります。例として、発信者（Addresser）が有する情緒的機能（Emotive function）に関するエピソードを紹介します。

「こんばんわ」一言で40通りのメッセージを伝えられるのは何故か

Konstantin Stanislavski（1863-1938）モスクワ劇場で活躍した元役者が受けたオーディションの一コマです。課題は “segodnya vecherom” （good evening）で40通りの messagesを伝えることでした。Jakobsonは、この元役者に40通りのmessagesを再現してもらい録音してモスクワに赴き人々に聞かせたところ、ほぼ全員が40通りの意味そのままを聴き分けたとのことです。ヒトはたった２語の字義（literal meaning＝denotation）から状況に絡めて何通りもの含意（conveyed meaning＝connotation）を生成、理解する能力を有します。果たして現在のAIがそこまでできるか疑問です。

ヒトとAIの言語理解の違いJohn Haugeland

1990年、哲学者John Haugelandも、 “The Prospects for Artificial Intelligence”と称する論文にて、AIの自然言語（natural language）処理は言語的要素に焦点を当てるが、自然言語にはそれ以上の超言語的要素があると述べています。W.V.O. Quine のホリズム/全体論（holism）の影響を受け、understanding languageには、次の4タイプのホリズム（holisms）が総合して作用すると述べています。（1）意図ホリズム（the holism of intentional interpretation ）、（2）常識ホリズム（the common-sense holism）、（3）状況ホリズム（the situational holism）、（4）存在ホリズム（the existential holism）の4つです。余白が限られているので簡単に説明します。（1）の例としては、窓を締め切った部屋で誰かが“It’s hot in here!”と言ったら間接的に“Open the windows!”という意図を察知するでしょう。[6] （2）の例としては、“I left my raincoat in the bathtub because itwas wet.”という文では、it がmy bathtubではなくthe raincoatを指すことが常識で分かります。

ヒトとAIがイソップ物語を理解する時の違い

（3）と（4）は、イソップ物語などの逸話の理解に関連します。（3）の例です。「Khojaが井戸を覗き込むと月が映っている。Khojaは鍵のついたロープで月を釣り上げようと思いロープを垂らすと、何かに引っ掛かったので思い切り切り引き上げたところ、繋が外れ、彼は尻餅を突き仰向けに倒れる。すると空に光る月を見て、元に戻ったと喜ぶ。」この話の聞き手は、Khojaの世界の仮想「状況」と現実世界の「状況」を比較しながら理解します。現実はそうでは無いが、Kohja は井戸に月が落っこちたと思ったのだな、自らが井戸から月を引っ張り上げたと思ったのだな、という具合です。おとぎ話だけではなくいかなる話の理解に当てはまります。話を聞く際に、私たちは、語り手の状況と私たち自らの状況の違いを知った上で理解しようとする筈です。相手の立場になって話を聞き理解するとはそういうことではないでしょうか。

ヒトは言語を超えたメッセージを理解する

（4）の例です。「農場で農場主の息子が誤って毒蛇の尻尾を踏み、噛まれて致命傷を負った。怒った農場主は斧で蛇の尻尾を切り落とす。すると蛇は怒って農場の牛全部を噛んで殺してしまった。そこで農場主は蛇のところに土産をもって行き、お前は尻尾を俺は息子と牛を失った、これでおあいこだ、仲直りしよう、と言うと、蛇は、いやいや俺もお前も失った大切なものは元に戻らない、帰ってくれ、と言い捨てた。」世界で起きている紛争の多くはこのおとぎ話に類するもので、私たちはこのような話を聞きながら、これまで積み上げた人生体験で理解しようとします。割り切れない筆舌しがたい思いが伝わります。（2）、（3）、（4）の3 つのホリズム（holisms）は、前もって想定し得る事前ホリズム（prior-holism）ではなく、その時その場で涌き出るリアルタイム・ホリズム（real-time holisms）です。AIは大量な言語データを瞬時に解析できるものの、前もって予定し得るデータであって事前ホリズム（prior-holism）には辛うじて対処できるものの、リアルタイム・ホリズム（real-time holisms）に対応する処理能力はありません。これこそがAIがヒトの言語理解に至らぬ原因であると述べています。このように物事の理解（understanding）がMTの弱点であることは確かです。[7]

ただ、私たち人間にとってさえ非常に容易ならざる複雑なプロセスなのです。従って誤解が日常茶飯事に起きています。上例のJakobsonの例からも察せられます。ヒトの情緒・感情emotionは無限ですから、あの元役者は40通りどころか自分の感情が赴くままにそれ以上の数のメッセージを伝えることができたでしょう。彼の40通りのメッセージを聞いた人々もそれぞれの独自の状況（possible worlds）を背景に、40通りでは収まらない数の解釈をしたに違いありません。要は、良きにつけ悪しきにつけ、元役者が意図した通りに聞き手が理解するとは限らないということです。

メッセージは発信者の意図を超え肯定的にも否定的にも理解されうる

メッセージは発信者の意図を超えて肯定的に理解されたり、逆に、否定的に理解、即ち、誤解されたりするのです。人と人がピンポイントで理解できる範囲は限られます。ましてや異言語間で翻訳を通した場合にはなおさらそうでしょう。日英同時通訳の草分け的存在で国際政治専門家国広哲哉氏が象徴的な一例を挙げています。第二次世界大戦中に連合軍から全面降伏するよう促された当時の日本軍国政府が発信した「黙殺せよ」が“reject”と翻訳されたことの深刻さを伝えています。[8]　同一言語での理解の難しさから考えれば、異言語間で翻訳を通しての理解の難しさは容易に想像できます。理解とは本質的に難しいということであり、M Tにその本質を取り除くよう期待するのは現実的ではありません。

Google Translateのインパクト－ McLuhanのホット vs.コールドメディアから

余白が限られているので筆者の結論・感想を述べます。Marshall McLuhan（1911-1981）は名著Understanding Media: The Extensions of Man（1964, MIT）で、テクノロジー（McLuhanが言うmedium/media）がいかに人々の意識を変え社会の変革をもたらすか具体例を挙げて述べています。[9]驚いたことには約60年前の1964年に、electronicsの発展が現在のICT （information communication technologies）をもたらしてデジタル社会（Digital Society）が出現するであろうと予見したのです。要は、テクノロジーそのものにはさしたる意味（message）は無く、良きにつけ悪しきにつけ、それがもたらすインパクト（impact）に意味があると述べています。こうしたテクノロジーの限界を知った上で、人々はGTなどのM Tを使える範囲で使い、それがやがて世界のコミュニケーション・パターンを変えていくものと思います。

ポジティブなインパクトの例を一つ。客観性が高いコンピュータ・サイエンスなどにおいては、その用語や概念が世界中で共有されているので、アメリカの大学のコンピュータ・サイエンスの授業の講義や資料はかなりの精度で翻訳され世界中の人々が視聴できるでしょう。他の分野もそれに倣って多くの授業がM Tでアクセスできるようになり世界中の大学は一変するでしょう。もう一つ付け加えるなら、GTを使えば、文字が無い言語、あるいは文字があっても言語で文字化されることがなかった絶滅寸前の方言やスタイルなども映像と音声で保存できます。文字言説間で起きた翻訳の間違いはありません。何故なら指示対象を直接視覚と音声で認識でき翻訳そのものが不要になるからです。絶滅から救えるかもしれません。少なくとも、文字がない故に経済活動の本流から取り残されてきた言語グループの人々にとって最先端の市場での発信機会が増えて参入できる可能性が生まれるでしょう。その間にマシーンによる言語理解と翻訳がどこまで進展するかは未定ですが、とりあえず、他の様々なコミュニケーション手段を併用し補完させながら人々はM Tを使いこなしていくでしょう。

2019年ベトナムに旅行した際、英語で意思疎通を図りましたが、次に行く時にはあのリッチな文化により深く触れる為にGTをフル活用し、日本語⇄ベトナム語で挑戦してみようと思っています。G Tを開いて日本語で「この寺は何年に立てられましたか？」と入力し音声で聞砕けで、ベトナムの人は例えば“Nó được xây dựng vào năm 1200”と答えるでしょう。それを音声入力し日本語に訳します。複雑な会話になると少々齟齬が出るでしょうが、別の言い方をするとかして乗り切るしかありません。使わない手はありません、今あるものをフル活用しながら様々なテクノロジーを改善して来たのが人類の歴史であると思います。多くの人が参加できるテクノロジーは日進月歩で進化するでしょう。（2021年5月記）

2024年３月後記

今年は日本に多くの海外旅行者が訪れています。また日本からも多くの人が海外旅行を楽しんでいます。多くの人が旅行先でGoogle Translateなどの機械翻訳を使っています。今や外国語学習も根本的な変革を求められる時代になりつつあります。外国の大学のonline授業も機械翻訳を利用して受けられるでしょう。本稿を書いたののは2021年、たった3年でテクノロジーはここまで進んでいます。McLuhanが予言したようにコールド・メディアのデジタル（電子）テクノロージは善悪、正誤の議論を超えて社会にインパクトを与え、ホット・メディアに慣れ親しんできた社会にはショックをもたらします。

[1] 記号化されたものを（元の形に）変換する。例：“Scientists are decoding the genetic sequences in DNA.”ここでは言語Aを言語Bに変換する。関心がある読者はC.E. ShannonとW. Weaverの古典的コミュニケション論Mathematical Theory of Communicationを読んでみてください。TOEFL iBT Test受験者にお勧めします。
[2] 筆者自身アメリカ留学したばかりの頃、英文学の授業で提出したpapersで“awkward”とコメントされたことがあります。本コラム第133回、第135回、第138回で記したように、ネイティブでも難しいレベルでしたから非英語圏からきた留学生にはとても高いハードルでした。TOEFL iBT Testのwritingではgrammaticalであることは勿論、acceptableであるか試されます。TOEFL iBT Test受験準備中の読者は挑戦してください。いずれ別稿でgrammaticalityとacceptabilityについて取り上げます。
[3] 言語学、記号論、文学、言語教育、文化論、メディア論を専攻する読者は是非読んでください。非常に平易な英文で書かれています。
[4] 筆者はspeech eventはcommunicationの全てではなく一部であると考えます。コミュニケーションは森羅万象のあらゆる活動を包括し、ヒトの活動はその一部で、言語活動は、更にその一部に過ぎないと考えます。
[5] Addresser（発信者）はAddressee（受信者）にCodeを通してMessageを送り、その際、MessageにContextが、CodeにContactが伴います。AddresserにはEmotive function、 AddresseeにはConative function、MessageにはPoetic function、ContextにはReferential function 、CodeにはMetalingual function、Contact にはPhatic function の6つの機能があります。
[6] John Searleの“Indirect speech Acts”は、 P. Griceが “Logic and Conversation(Implicature)”で取り上げた「言語に隠された話者の意図」に関する間接的発話行為です。両論文ともP. Cole and J. Morgan編Syntax and Semantics: Pragmatics (1975. Academic Press)に収録されています。言外の意味を扱う古典的論文が収録され、言語学、言語教育を目指す読者は必見です。D. Gordon and G. Lakoffは“Conversational Postulates”と称する論文で、Griceの理論の generative semanticsへの導入を試み“It‘s hot in here.”は例文の一つです。
[7] 拙著 The Semantics of the English Modalsを参照してください。Jakobson、Grice、Searle、Lakoff、Haugelandその他の論文をベースに筆者の考えをまとめてみました。関心ある読者は参照してください。
[8] 拙稿「日米の政治言説と誤解のメカニズム」『現代日本のコミュニケーション環境』（鈴木佑治ほか、大修館書店）4章に詳細があります。
[9] 第128回でも述べましたが読み易い本です。TOEFL iBT Test受験を考えている読者にお勧めします。

サポートいただけるととても嬉しいです。幼稚園児から社会人まで英語が好きになるよう相談を受けています。いただいたサポートはその為に使わせていただきます。