ChatGPT が自分では語らないChatGPTの原理的な制約

2023年9月15日 13:14

先日は、「G7諸国の若者が政治に関心を失いつつある理由」をChatGPTに質問して、その優秀さに舌を巻きました。そこで、今回は、ChatGPTに、ChatGPTの弱点を自ら語ってもらいました。すると、私がChatGPTの原理的な制約だと考えていることには、触れていませんでした。なかなか面白いと思ったので、ここに紹介します。

先日の記事はこちら：

１．私からの質問とChatGPTの答え

1-1．私からの質問

念のため、日本語と英語、それぞれで尋ねてみました。

※日本語での質問
Chat GPTの設計原理に起因する制約を教えてください

※英語での質問
Tell me, in Japanese, what are the limitations that come from the design principles of ChatGPT

1－2．ChatGPTからの回答

　以下、ChatGPTの答えをそのまま引用します。太字化だけ、私が手を加えています。公平を期するため、日本語質問への回答と英語質問への回答を、それぞれ引用します。

　どちらも５つの制約を挙げています。
日本語の質問に対する回答：
　１有権な文脈理解　２トレーニングデータへの依存　３意味理解の制約
　４倫理的な問題　５対話の維持
英語の質問に対する回答：
　１文脈の制約　２トレーニングデータの制約　３意味理解の制約
　４倫理的な制約　５対話の維持

制約の名づけ方に違いがありますが、内容は、私が理解する限りでは同一です。ただし、英語の質問に対する回答の方が、より丁寧な印象を受けます。

１－２－１．日本語の質問への回答

Chat GPTの設計原理に起因する主な制約には以下があります：

有限な文脈理解: Chat GPTは有限な文脈内で応答を生成します。長い対話の中での文脈の維持や、複雑なトピックへの対応が難しい場合があります。
トレーニングデータへの依存: Chat GPTは大規模なトレーニングデータから学習しますが、そのデータに含まれる誤った情報やバイアスが反映される可能性があります。新しい情報や出来事に対応するのも限定的です。
意味理解の制約: Chat GPTは文脈から単語の意味を理解することはできますが、深い意味理解や論理的な推論を行うのは難しいです。複雑な質問や専門的なトピックへの対応が制約されます。
倫理的な問題: Chat GPTはトレーニングデータから学んだ内容を反映するため、不適切なコンテンツや人種差別的な発言を生成する可能性があります。倫理的な配慮が必要です。
対話の維持: 長い対話を維持し、一貫性を保つことが難しい場合があります。複数のトピックが入り混じる場合、適切な対話の流れを維持するのが難しいことがあります。

これらの制約は、Chat GPTの設計に起因し、その性能や応用範囲に影響を与えます。将来的な改善と研究によって、これらの制約に対処し、モデルの性能を向上させる試みが行われています。

１－２－２．英語の質問への回答

ChatGPTの設計原則から生じる制約には以下のようなものがあります：

文脈の制約: ChatGPTは限られた文脈しか考慮できません。対話の過去の発言や文脈を覚えておらず、一度に1つの文しか見ません。そのため、長い対話の一貫性を維持するのが難しく、複雑なトピックに対応するのも制約されます。
トレーニングデータの制約: ChatGPTは大量のテキストデータから学習しますが、そのデータには誤った情報やバイアスが含まれている可能性があります。また、トレーニングデータが古くなるため、最新情報には対応しきれないこともあります。
意味理解の制約: ChatGPTは文脈から単語の意味を理解することはできますが、深い意味理解や論理的な推論を行うのは難しいです。複雑な質問や専門的なトピックに対応するのが難しいことがあります。
倫理的な制約: ChatGPTはトレーニングデータから学んだことを反映するため、不適切なコンテンツや人種差別的な発言などを生成する可能性があります。これに対処するための制約が存在しますが、完全なフィルタリングは難しいです。
対話の維持: 長い対話を維持し、一貫性を保つのは難しいことがあります。特に複数のトピックが入り混じる場合、適切な対話の流れを保つのが難しいです。

これらの設計原則に起因する制約は、ChatGPTの性能と能力に影響を与えています。AI技術の進歩に伴い、これらの制約を克服するための改善策が模索されていますが、現時点では注意が必要です。

　
　私には、ここでChatGPTが挙げている制約は、設計原理に起因する原理的制約というより、採用されているAI技術に起因する技術的制約であるように見えます。元々の設計原理そのものが内包している制約には触れていないと、私は考えます。

２．私が考えるChatGPTの設計原理

　
　ネット世界に存在する膨大なテキスト情報内の単語列と同じか類似した単語列を示されたら、過去において、その単語列の次に来た頻度が最も高かった単語を出力する。これが、ChatGPTの設計原理だと私は考えています。

ChatGPTの裏には「大規模言語モデル」と呼ばれる仕組みが存在しています。言語モデルとは、人間が日常的に話したり聞いたりする言葉（自然言語）について、次に出現する単語を予測するモデルのことです。AIの文脈において、モデルというのは、データから学習したパターンや関係性を表現する仕組みや構造のことを指します。

野村総合研究所編『まるわかりChagtGPT＆生成AI』（日経文庫 2023年8月）P58から引用
／太字化は楠瀬

　『まるわかりChatGPT&生成AI』によると、言語モデルを作る上では、大量のテキストデータに、それぞれのデータが何を表しているかを示すラベルを付けてAIに学習させる必要があり、このラベル付きデータを作成するのに膨大な時間がかかるのだそうです。

　一方、インターネット上には、このようなデータ・ラベルがついていない生のテキスト情報が溢れています。

　ChatGPTが採用しているGPTというアルゴリズムは、まずインターネットに溢れているデータ・ラベルのない大量のテキストから言語の特徴を学習してから、少量のラベル付きテキスト・データで学習内容を補完する作りになっているというのです。

　その結果、ChatGPTは、次のようにして文章を作ることになります。

ChatGPTは、あらかじめ大量の文章を学習しておき、ある単語列の次に来る確率が一番高い単語を順に出力しているに過ぎない。

『ChatGPTエフェクト　破壊と創造のすべて』（日経BP　2023年7月）P47から抜粋

インターネット中にあるテキストから、人類がよく使う定番表現を学んだ脳のような学習データを持っていて、手前の文章に対して確率的にありそうな続きを書いてくれる。

『ChatGPTエフェクト　破壊と創造のすべて』（日経BP　2023年7月）P310から引用
／太字化は楠瀬

原理としては、論理的に分って答えているのではなく、たくさん覚えている近い話を引っ張ってきてうまくつなげているだけなんですが、つなげ方がうまい。

『ChatGPTエフェクト　破壊と創造のすべて』（日経BP　2023年7月）P338～339から引用
／太字化は楠瀬

　つまり、いま出ている話に対して、記憶の引き出しの中から、過去において、それと同じ話の後に続いたことが最も多かった話を取り出してきて、接ぎ木しているのです。

３．私が考えるChatGPTの原理的な制約

３－１．《「よく聞く話だよね」思考》

　「たくさん覚えている近い話を引っ張ってきて」という言葉から、私たちの日常行動で思いつくことが、ありませんか？

　日常会話で、「それって、よく聞く話だよね」という表現を使うこと、ありませんか？　たとえば、「国際結婚は、結局うまくいかないって、よく聞く話だよね」といった具合に。私は、かなり頻繁に使います。
　
　そして、「よく聞く話だよね」と言っている私の頭の中では「国際結婚は、すべてうまくいかない」という判断が、ちらつき始めています。このような思考のパターンを、《「よく聞く話だよね」思考》と呼ぶことにします。
　
　では、“よく聞く”というのは、現実にはどのくらいの頻度なのでしょう？　私が国際結婚について耳にした総件数のうちの「9割？」、「8割？」、「7割？」、それとも「6割？」――そこを突き詰めると、実はハッキリしなくて、「なんとなく」という程度のことが多いのです。

　さらに、「私が国際結婚について耳にした件数が、実際にはどのくらいあるのか？」を突き詰めてみると、もっと怪しくなってきます。私が前提にしているのは「身の回りで見聞きした件数＋メディアの情報で知っている件数」に過ぎないことが多いのです。

　また、私が把握しているメディア情報も実はかなり限定されたものだったりします。私たちがメディア情報を入手するとき、そこには「私たちの興味」というフィルターがかかっていることが多いからです。
　自分が興味がある情報は頭に残りやすいが、興味がない情報は流してしまうのです。もっとも、メディア情報は膨大ですから、情報の海に溺れてしまわないためには受け取る側でフィルターにかけるしかないという現実の要請も、あります。

　また、メディアが必ずしも正確な事実を網羅的に伝えているとは限りません。「犬が人を噛んでもニュースにならないが、人が犬を噛んだらニュースになる」と言いますよね。メディアは、話題性のある情報を優先的に、かつ強調して伝える傾向があるのです。
　国際結婚について言えば、有名タレントが国際結婚していて、それが破綻したら、メディアは大々的に報じるでしょう。その一方で、一般人が国際結婚してうまくいっている事例が報道される機会はほとんどないと言ってよいでしょう。

　したがって、「国際結婚はうまく行かないって、よく聞く話だよね」と言った後に続けて「国際結婚は、すべてうまく行かない」と判断する《「よくある話だよね」思考》は、「偏ったサンプルから得た情報を過度に一般化する」という錯誤に陥りやすいのです。

３－２．ChatGPTの原理も《「よく聞く話だよね」思考》

　ここで、2で参照したChtGPT の原理の説明を思い出してください。

ChatGPTは、あらかじめ大量の文章を学習しておき、ある単語列の次に来る確率が一番高い単語を順に出力しているに過ぎない。

『ChatGPTエフェクト　破壊と創造のすべて』（日経BP　2023年7月）P47から抜粋

インターネット中にあるテキストから、人類がよく使う定番表現を学んだ脳のような学習データを持っていて、手前の文章に対して確率的にありそうな続きを書いてくれる。

『ChatGPTエフェクト　破壊と創造のすべて』（日経BP　2023年7月）P310から引用
／太字化は楠瀬

原理としては、論理的に分って答えているのではなく、たくさん覚えている近い話を引っ張ってきてうまくつなげているだけなんですが、つなげ方がうまい。

『ChatGPTエフェクト　破壊と創造のすべて』（日経BP　2023年7月）P338～339から引用
／太字化は楠瀬

　この三つの説明は、ChatGPTの原理も《「よく聞く話だよね」思考｠だということを教えてくれていると、私は考えます。

　私たちが日常使っている《「よく聞く話だよね」思考》との違いは、

「偏ったサンプルから得た情報を過度に一般化する」錯誤が
　極小化されている

ということだけです。

　”だけです”と言ってしまいましたが、実は、この違いには非常に大きいものがあります。ChatGPTが前提にしているサンプルは、インターネット上に存在するすべてのテキスト・データです。それがどのくらい膨大なものであるかを、『まるわかりChatGPT＆生成AI』は、次のように説明しています。

GPT-3 （楠瀬注：現行のChatGPTの３世代前のアルゴリズム）には、3000億単語が含まれていたそうです。アメリカの大学の研究によると、人が1日に話す単語数は、およそ1万6000単語で、仮に人生が80年として簡単に掛け算すると約4.7億単語になります。人間は話すだけでなく、読んだり聞いたりするので、一生のうちに触れる単語数はもう少し多くなると考えられますが、それを踏まえても3000億語というのが非常に多いことがわかると思います。

野村総合研究所編『まるわかりChagtGPT＆生成AI』（日経文庫 2023年8月）P58から引用
／太字化は楠瀬

　聞く頻度においても、聞く件数においても、私たちの経験世界をはるかに凌駕しているのです。

　しかし、そうであっても、「よく聞く話」は、「よく聞く話」に過ぎないのです。いまだ語られたことのない事柄は、そこには登場し得ないのです。

　仮に、コペルニクス以前の時代にChatGPTがあって、ChatGPTに、「天体の運行はどうなっているか、教えてください」と質問したとします。天動説の説明だけが返ってくるはずです。
　コペルニクスが天動説を唱えた後にChatGPTに同じ質問をしたら、「地球が太陽の周りをまわっているという誤った見解が最近登場している」と付け加えるかもしれません。

３－３．ChatGPTを絶対視することの危険

　しかし、３－１、３－２で述べたような制約は、私たちがChatGPTとはそういうものだと分かって使っていきさえすれば、何の困ったことも引き起こさないとも考えられます。
　
　「ChatGPTが教えてくれることが全てではない。ここに語られていない何かがあり得る」――その保留をつけて接していきさえすれば、ChatGPTは、私たちの知的活動を助けてくれる素晴らしいパートナーになってくれるものだと、私は考えています。

　私が懸念しているのは、ChatGPTが普及しその利便性が高まるにつれて、私たちが自らの頭で考えることを怠けはじめ、ChatGPTが語ってくれることを普遍的で不動の真実かのように思いこみ始めることです。

　ChatGPT は道具です。道具には、その設計原理に由来する制約が必ず存在するものです。私たちも、ChatGPTの制約をしっかり頭に入れ、油断せず付き合っていく必要があると、私は考えています。

　今回は、ここで終わりとしたいと思います
　ここまでお付き合いいただき、ありがとうございました。

『ChatGPT が自分では語らないChatGPTの原理的な制約』おわり

この記事が参加している募集

#AIとやってみた

26,659件

この記事が気に入ったらサポートをしてみませんか？