ChatGPTはWebのボケたJPEGである

2023年2月12日 18:51

はじめに

映画化もされた「あなたの人生の物語」（映画化時のタイトルは「メッセージ」でした。監督はドゥニ・ヴィルヌーヴ）などの作品で知られるSF小説家であるテッド・チャン氏が最近著しく話題のChatGPTに関する解説をNEW YORKER誌に寄せました。
適切ではないかもしれない、としながらもChatGPTを非可逆画像圧縮であるJPEGに喩えた内容となっています。個人的にはAIの本質をついているような気もしました。
とても素晴らしい内容ですのでDeepLで翻訳し、若干おかしな訳に手を加えた内容を皆さんと共有します。（本文の改変はしていませんが、個人的に気になった箇所のみ太字としています。私見は訳注として与えております。）

ChatGPT Is Blurry JPEG of the Web
By Ted Chiang　February 9, 2023

本文１

2013年、ドイツのある建設会社の社員が、ゼロックス社のコピー機の異変に気づきました。ある家の間取り図をコピーしたところ、微妙に、しかし重要な点でオリジナルと異なっていたのです。元の間取り図には、3つの部屋がそれぞれ14.13平方メートル、21.11平方メートル、17.42平方メートルと長方形で表示されていました。しかし、コピーされた図面では、3部屋とも14.13平方メートルと表示されていました。そこで同社は、コンピュータ科学者のデイヴィッド・クリーゼル（David Kriesel）に連絡を取り、この一見あり得ないような結果について調査を依頼しました。というのも、ゼロックス社のコピー機は、1960年代に普及した物理的なゼログラフィック・プロセス（xerographic process）ではありませんでした。原稿をデジタルでスキャンし、その画像ファイルをプリントするのです。そして、デジタル画像ファイルは容量を節約するために圧縮されていました。そのことから、この謎は解けそうです。

まず、ファイルをよりコンパクトなフォーマットに変換するエンコードと、そのプロセスを逆に行うデコードの2つのステップが必要です。復元されたファイルがオリジナルと同じであれば、圧縮プロセスは「ロスレス（訳注：Lossless-compression、損失なし圧縮）」と表現され、何の情報も捨てられていないことになります。これとは対照的に、復元されたファイルが元のファイルの近似値でしかない場合、圧縮は非可逆的と表現されます。テキストファイルやコンピュータプログラムでは、1文字でも間違えると大変なことになるため、通常、可逆圧縮が使用されます。ロッシー圧縮（訳注：Lossy-Compression、つまり損失あり圧縮）は、写真、オーディオ、ビデオなど、絶対的な正確さが必要でない場合によく使われます。写真や歌、映画が完璧に再現されていなくても、ほとんどの場合、私たちは気がつきません。実際のところ、この損失は、ファイルが非常に厳しく圧縮された場合にのみ認識されるようになります。このような場合、圧縮アーチファクト（compression artifacts）と呼ばれる、最小のJPEGやMPEG画像のぼやけや、低ビットレートのMP3の音の小ささなどに気づきます。

この本文では、非可逆圧縮、可逆圧縮という表現に関して、表記が一貫していない「翻訳揺れ」のようなものが発生しています。統一してもよかったのですが、それほど読むのに支障はない、と考えそのままにしてあります。原文では、一貫しており、lossy-compression、lossless-compressionです。
lossy-compressionは日本語では、ロッシー圧縮、非可逆圧縮などと訳されるようですが、本来は「損失あり圧縮」とすべきかと思います。効率よく圧縮をするためにデータを間引くことで、データの損失を招くからです。
英語から日本語への対応は以下の通りとして読み替えていただければと思います、
lossy-compression：ロッシー圧縮、非可逆圧縮、損失あり圧縮
lossless-compression：ロスレス圧縮、可逆圧縮、損失なし圧縮

訳注

コピー機がエンコード（符号化）-デコード（復号化）という機構を持つのと同様にChat-GPTの大規模言語モデルであるGPT-3のベース技術であるTransformerにもエンコード-デコード機構があります。チャン氏のChat -G PTのコピー機への喩えはこのことを踏まえた上でのものと推測されます。

訳注

ゼロックス社のコピー機では、白黒画像用に設計されたJBIG2という非可逆圧縮形式を使用しています。これは、画像中の類似した領域を特定し、その領域を1つずつ保存し、解凍時にその領域を繰り返し使用して画像を再構成するというものです。その結果、部屋の面積を示すラベルが似ていると判断し、1枚だけ保存しておき、間取り図を印刷する際に、その1枚を3部屋分再利用することがわかりました。

ゼロックスのコピー機がロスレス（訳注：損失なし圧縮）の代わりに非可逆圧縮（訳注：損失あり圧縮）形式を使っていること自体は、問題ではありません。問題は、コピー機が微妙な方法で画像を劣化させていたことで、圧縮のアーチファクトがすぐには認識できないことです。単に不鮮明なプリントを出すだけなら、誰もが「これは正確なコピーではない」と分かるはずです。そこで問題になったのが、コピー機から読み取れる数字が不正確であること、つまり正確ではないのに正確にコピーされているように見えてしまうことでした。（2014年、ゼロックス社はこの問題を修正するパッチをリリースしました）。

このゼロックスコピー機の事件は、Open AIのChatGPTをはじめ、AI研究者が大規模言語モデルと呼ぶ類似のプログラムを考える上で、今日、心に留めておく価値があると思うのです。コピー機と大規模言語モデルの類似性は、すぐには分からないかもしれませんが、次のようなシナリオを考えてみてください。例えば、あなたがインターネットにアクセスできなくなることを想定してください。その準備として、あなたはWeb上のすべてのテキストを圧縮したコピーを作成し、プライベートサーバーに保存することを計画しました。残念なことに、プライベートサーバーには必要な容量の1％しかありません。すべてを収めたいのであれば、可逆圧縮アルゴリズム（損失なし圧縮）は使えません。その代わりに、テキストに含まれる統計的な規則性を識別し、特殊なファイル形式で保存する非可逆圧縮アルゴリズム（損失あり圧縮）を作成します。このタスクに投入できる計算能力はほぼ無制限なので、アルゴリズムは非常に微妙な統計的規則性を識別することができ、100対1という望ましい圧縮率を達成することができるのです。

さて、インターネットにアクセスできなくなることはそれほど恐ろしいことではありません。Web上のすべての情報がサーバーに保存されているのですから。ただ、テキストが高度に圧縮されているため、正確な引用を検索して情報を探すことはできません。この問題を解決するために、質問形式で問い合わせを受け、サーバーにある情報の要点を伝える回答を返すインターフェースを作ります。

私が説明したことは、ChatGPTや他の大規模な言語モデルによく似ています。ChatGPTは、Web上のすべてのテキストをぼやけたJPEGにしたようなものだと考えてください。JPEGが高解像度の画像の情報を保持するのと同じように、Web上の情報の多くを保持しますが、ビットの正確なシーケンスを探しているのであれば、それを見つけることはできません。しかし、その近似値はChatGPTが得意とする文法的なテキストで表示されるため、通常は許容範囲内です。ぼやけたJPEGを見ることになりますが、ぼやけることで画像全体のシャープさが損なわれることはありません。

この非可逆圧縮への類推は、ChatGPTがウェブ上の情報を別の単語で再パッケージ化する能力を持つことを理解するための方法だけでなく、ChatGPTのような大規模言語モデルが事実と異なる質問に答える「幻覚（訳注：hallucinations、ハルシネイション）」を理解するための方法でもあります。また、ChatGPTのような大規模言語モデルが陥りやすい「幻覚」、つまり事実とは異なる質問に対する無意味な答えを理解するための方法でもあります。しかし、ゼロックスコピー機で作られた誤ったラベルのように、このような幻覚は十分にあり得るもので、これを識別するにはオリジナルと比較する必要があります。このように考えると、このような「幻覚」は驚くべきことではありません。もし圧縮アルゴリズムが、オリジナルの99パーセントが破棄された後にテキストを再構築するように設計されているなら、それが生成するもののかなりの部分が完全に捏造であることを予想しなければならないはずです。

非可逆圧縮アルゴリズムでよく使われる手法が補間であることを思い出せば、この例えはさらに理にかなっています。画像プログラムが写真を表示するとき、圧縮処理中に失われたピクセルを復元する必要がある場合、近くのピクセルを見て平均を計算します。これは、ChatGPTが、例えば、乾燥機の中で靴下をなくしたとき、独立宣言のスタイルで説明するように促されたときに行うことです。それは「語彙空間」の2点を取り、その間の位置を占めるであろうテキストを生成しているのです。（「人間の営みの中で、衣服の清潔さと秩序を維持するために、自分の衣服を仲間から分けることが必要になったとき、云々」）。ChatGPTはこのような補間が得意なので、人々はそれを面白がっているのです。つまり、写真ではなく段落の「ぼかし（blur）」ツールを発見しては、と言うことですが。

本文２

ChatGPTのような大規模言語モデルはしばしば人工知能の最先端として称賛されますが、これを非可逆的なテキスト圧縮アルゴリズムと表現すると、否定的に、あるいは少なくとも矮小化して聞こえるかもしれません。しかし、圧縮のアナロジーには、考えるに値する別の側面があります。2006年から、マーカス・ハッター（Marcus Hutter）というAI研究者は、ウィキペディアの特定の1GBのスナップショットを可逆圧縮して、前回の受賞者よりも小さくできた人に、「人間の知識の圧縮賞」（訳注：Hutter Prize、ハッター賞、ですね）として知られる賞金を提供しています。皆さんはおそらく、ZIPファイル形式で圧縮されたファイルを目にしたことがあるでしょう。ZIP形式はハッターの1GBのファイルを約300MBに縮小しますが、最新の受賞者はこれを115MBに縮小することに成功しました。これは、単なる圧縮の練習ではありません。ハッターは、テキストを理解することによって最も高い圧縮率を達成できるため、より優れたテキスト圧縮が人間レベルの人工知能の創造に役立つと確信しているのです。

圧縮と理解の関係を理解するために、足し算、引き算、掛け算、割り算の例を100万個書いたテキストファイルがあるとします。どんな圧縮アルゴリズムでもこのファイルのサイズを小さくすることはできますが、最も圧縮率が高くなる方法は、算術の原理を導き出し、電卓プログラムのコードを書くことでしょう。電卓を使えば、このファイルの中の100万例だけでなく、将来出会うかもしれないあらゆる算術の例を完璧に再現することができます。同じ論理が、ウィキペディアの一切れを圧縮する問題にも当てはまります。もし圧縮プログラムが力は質量に加速度をかけたものに等しいと知っていれば、物理学に関するページを圧縮する際に多くの単語を捨てることができます。同様に、圧縮プログラムが需要と供給について知れば知るほど、経済学についてのページを圧縮するときに多くの単語を捨てることができる、といった具合です。

LSTMのような再帰型ニューラルネットワークを使って、足し算のような算術をまさにテキストとして覚え込ませる方法は存在します。もちろんそんな方法を利用する人はいません。電卓使ってください！（笑）

訳注

大規模言語モデルは、テキスト中の統計的な規則性を識別します。Webのテキストを分析すると、"供給が少ない "といったフレーズは、"価格が上昇する "といったフレーズと近接して現れることが多いことがわかるでしょう。この相関関係を取り入れたチャットボットは、供給不足の影響について質問されると、物価上昇について回答するかもしれません。もし、大規模な言語モデルが経済用語間の相関関係を膨大に蓄積しており、さまざまな質問に対してもっともらしい回答ができるのであれば、それは本当に経済理論を理解していると言えるのでしょうか。ChatGPTのようなモデルは、様々な理由からハッター賞の対象にはなりません。その一つは、原文を正確に再構成しないこと、つまり可逆圧縮（訳注：損失なし圧縮、Lossless-compressionです）をおこなっていないことです。しかし、非可逆圧縮（訳注：損失あり圧縮、Lossy- compressionです）であっても、AI研究者が関心を持つような真の理解を示している可能性はないのでしょうか？

算術の例に戻りましょう。GPT-3（訳注：ChatGPTの元となった大規模言語モデル）に2桁の数字の足し算・引き算を求めると、2桁の数字であればほぼ正しく答えられます。しかし、数字が大きくなると精度が著しく低下し、数字が5桁になると10％にまで落ちます。GPT-3が出す正解のほとんどはWeb上に存在しません。例えば、「245＋821」という文章を含むWebページはあまりないため、単純な暗記をしているわけではないのです。しかし、膨大な情報を摂取しているにもかかわらず、算数の原理を導き出せていないのも事実です。GPT-3の不正解をよく見てみると、算術演算時に”1”をくり上げていないことがわかります。Web上には確かに "1 "の繰り上げ方の説明がありますが、GPT-3はその説明を取り入れることができていないのです。GPT-3は算数の例を統計的に分析することで、本物に近いものを作ることはできますが、それ以上のものは作れません。

GPT-3は小学校で習うような科目が苦手なのに、大学レベルの小論文が得意に見えることがあるのはなぜでしょう？大型言語モデルは「幻覚」を見ることが多いのですが、明晰なときは経済理論などを理解しているように聞こえます。算数は特殊なケースで、大規模言語モデルが苦手とする分野なのかもしれません。足し算と引き算以外の分野では、テキストの統計的規則性が実は現実世界の真の知識に対応している可能性はないでしょうか。

もっと簡単な説明があると思います。もしChatGPTがロスレス・アルゴリズム（訳注：損失なしのアルゴリズム）だったらどうなるか、想像してみてください。もしそうであれば、常に関連するウェブページからの逐語的な引用を提供することで質問に答えるでしょう。私たちは、このソフトを従来の検索エンジンのわずかな改良としか考えず、あまり感心しないでしょう。ChatGPTは、ウェブページを一字一句引用するのではなく、自分の言葉で表現することで、読んだことをただ書き写すのではなく、あたかもChatGPTがその内容を理解しているかのような錯覚に陥らせます。人間の場合、丸暗記は真の学習の指標にはならないので、ChatGPTがウェブページからの正確な引用をできないのは、まさに何かを学んだと思わせるためです。言葉の並びを扱う場合、非可逆圧縮の方が可逆圧縮より賢く見えるのです。

本文３

大規模な言語モデルには多くの用途が提案されています。これをぼやけたJPEG画像として考えることで、どのような用途に適しているのか、あるいは適していないのかを評価することができます。いくつかのシナリオを考えてみましょう。

大規模言語モデルは、従来の検索エンジンに取って代わることができるだでしょうか？私たちが彼ら（訳注：つまり大規模言語モデル）を信頼するためには、彼らがプロパガンダや陰謀論に踊らされていないことを知る必要があります。つまり、JPEGがウェブの正しいところを捉えていることを知る必要があるのです。しかし、大規模な言語モデルに必要な情報だけが含まれていたとしても、「ぼやけ」の問題が残ります。ぼやけには、情報を別の言葉で言い直すという許容範囲のものがあります。そして、捏造という、事実を探す上では許されないぼやけがあります。技術的に、許容できるぼかしを残し、許容できないぼかしを排除することが可能かどうかは分かりませんが、近い将来、明らかになると思います。

仮に、大規模な言語モデルが捏造に関与しないように制限することが可能だとしても、Webコンテンツの生成に使うべきでしょうか？これは、ウェブ上にある情報を再パッケージ化することが目的である場合のみ、意味があります。そのような目的で存在する企業もあり、私たちはそれをコンテンツ・ミルと呼んでいます。大規模な言語モデルのぼかしは、著作権侵害を回避する方法として、彼らにとって有用なのかもしれません。しかし、一般的に言って、コンテンツ・ミルにとって都合の良いものは、情報を探す人々にとって都合の悪いものだと言えるでしょう。大規模言語モデルによって生成されたテキストがウェブ上で公開されればされるほど、ウェブはより不鮮明なものとなっていくのです。

コンテンツ・ミル（content mill）：コンテンツ工場。訪問者を増やすために、低品質のコンテンツ、または、他のウェブサイトからコピーしたコンテンツを大量に提供するウェブサイト。

訳注

Open AIのChatGPTの後継であるGPT-4については、ほとんど情報がありません。GPT-4の学習に使う膨大なテキストを集めるとき、Open AIの人々はChatGPTや他の大規模言語モデルによって生成されたものを排除するよう、あらゆる努力をしたことでしょう。もしそうだとすれば、大規模言語モデルと非可逆圧縮のアナロジーが有効であることを、図らずも証明することになります。JPEGを何度も保存し直すと、毎回多くの情報が失われるため、より多くの圧縮アーチファクトが発生します。これは、昔のコピー用紙のコピーを何度も作るのと同じことです。画質は悪くなるばかりです。

GPTの研究者は、GPTが生み出すデータが将来のAIの訓練データを「汚染」することをかねてより懸念していました。今、ChatGPTが公開されたことでその懸念が現実のものとなりつつあります。AIがAIの作ったデータを再学習するとどうなるかに対する回答がここにあります。つまりJPEGを何度も保存することに等しいのです。JPEGは非可逆圧縮であるため、保存の度に画像の情報は失われ画像は劣化します。AIも同様に推論能力が劣化する可能性があることを示唆していると思います。

訳注

現在、AIの生成したデータを判定する「すかし」の技術も公開されています。

訳注

実際、大規模言語モデルの品質を評価する有用な基準は、生成したテキストを新しいモデルの学習材料として使用することを企業が望んでいるかどうかということかもしれません。ChatGPTの出力がGPT-4にとって十分でない場合、それは我々にとっても十分でないことを示す指標とみなすことができます。逆に、あるモデルが新しいモデルの訓練に使えるほど良いテキストを生成し始めたら、そのテキストの品質に自信を持てるようになるはずです（そのような結果を得るには、モデル構築のための技術に大きなブレークスルーが必要でしょう）。もし、入力と同等の出力を生成するモデルを見かけるようになれば、非可逆圧縮のアナロジーはもはや通用しなくなるでしょう。

大規模な言語モデルは、人間がオリジナルの文章を作るのに役立つのでしょうか？それに答えるには、その問いが何を意味するのかを具体的に説明する必要があります。ゼロックス・アート、コピー・アートと呼ばれる、コピー機の特性を生かしたアートがあります。ChatGPTというコピー機でも、そういうことは可能でしょうから、その意味では答えはイエスです。しかし、コピー機がアート制作に不可欠なツールになったとは誰も言わないと思います。大多数のアーティストは、創作活動にコピー機を使いませんし、その選択によって不利になるとは誰も言いません。

では、ゼロックス・アートに類するような新しいジャンルの文章について話しているのではないと仮定しましょう。そうすると、大規模言語モデルによって生成されたテキストは、フィクションであれノンフィクションであれ、作家がオリジナルなものを書く際の出発点として役に立つのでしょうか。大規模言語モデルが定型文を処理することで、作家は本当に創造的な部分に注意を向けることができるのでしょうか？

もちろん、誰もすべての作家を代弁することはできませんが、オリジナルでない作品のぼやけたコピーから始めることは、オリジナル作品を作るのに良い方法ではない、ということを主張させてください。作家であれば、オリジナルなものを書く前に、オリジナルでないものをたくさん書くことになります。しかし、その非オリジナルな作品に費やした時間や労力は決して無駄ではなく、むしろそれこそが、最終的にオリジナルな作品を生み出すことを可能にするのだと私は考えています。言葉を選び、文章を並べ替えることで、文章がどのように意味を持つかを学ぶことができるのです。小論文を書かせることは、単に教材の理解度を試すだけでなく、自分の考えを明確に表現する経験を積ませることになるのです。もし学生が、誰もが読んだことのあるエッセイ（作文）を書くことがなければ、読んだことのないものを書くのに必要なスキルは身につかないでしょう。

また、学生でなくなれば、大規模な言語モデルが提供するテンプレートを安心して使えるかというと、そうでもありません。自分の考えを表現するための葛藤は、卒業したらなくなるわけではなく、新しい作品を書き始めるたびに起こります。書いているうちに、自分のオリジナルな発想が見えてくることもあります。大規模な言語モデルの出力は、人間の作家の初稿とあまり変わらないという人もいるかもしれませんが、これも表面的な類似性だと思います。初稿は、独創的でないアイデアを明確に表現したものではなく、独創的なアイデアを稚拙に表現したものであり、そこにはあなたの不定形の不満、つまり言っていることと言ってほしいことの間の距離を意識することが伴っているのです。それがリライトの際のディレクションになるわけですが、AIが生成したテキストで始めると、それが欠落してしまうのです。

文章を書くということは、何も不思議なことではなく、既存のドキュメントを信頼性の低いコピー機の上に置いて印刷ボタンを押すだけではありません。将来、私たちは、自分自身の世界経験だけに基づいて、優れた文章を書くことができるAIを作ることができるかもしれません。しかし、その日は、私たちの予測のはるか彼方にあります。もし、インターネットへのアクセスが永遠に失われ、限られたスペースの個人サーバーにコピーを保存しなければならないとしたら、ChatGPTのような大規模言語モデルは、捏造を防ぐことができると仮定すれば、良い解決策になるかもしれません。しかし、私たちはインターネットへのアクセスを失っているわけではありません。では、オリジナルがあるのに、ボケたJPEGがどれだけ役に立つのでしょうか？

この記事が気に入ったらサポートをしてみませんか？