ChatGPTの「知性」

概要

AIの知性について調べていたら、人間の知性について考えていた話。

ChatGPT-3.5と4の比較

よく言われていることだが、ChatGPT-3.5とChatGPT-4には大きな能力差がある。以下は両者に同じ質問をして、差が見られたものをまとめたものだ。

GPT-3.5とGPT-4の比較

以下にいくつか抜粋しよう。新たに追加したものもある。

同義文判定

質問
以下の二つの文章が同じ意味であるか判定してください。 「人間の体はタンパク質でできており、タンパク質はアミノ酸によりできています。」 「人間の体はタンパク質でできており、アミノ酸はタンパク質により作られています。」

ChatGPT-3.5
はい、両方の文は同じ意味を持ちます。最初の文は、「タンパク質はアミノ酸によって作られている」と述べており、2つ目の文は、「アミノ酸はタンパク質によって作られている」と述べています。このように、両方の文はタンパク質とアミノ酸の関係性について同じ意味を伝えています。

ChatGPT-4
これらの二つの文章は似ていますが、同じ意味ではありません。第一の文章は、「人間の体はタンパク質でできており、タンパク質はアミノ酸によりできています」と述べており、タンパク質がアミノ酸から作られることを意味しています。一方、第二の文章は、「人間の体はタンパク質でできており、アミノ酸はタンパク質により作られています」と述べており、アミノ酸がタンパク質によって作られることを示唆していますが、これは正確ではありません。実際には、タンパク質はアミノ酸から作られます。

解説
2つの文章は「XがYから作られている」のXとYが入れ替えられている。3.5はそれに気づかないが、4は気づいて指摘している。

背の順

質問
A, B, Cの三人が、背の順に並んでいます。AとBの間には一人います。Cは左から何番目にいますか?

ChatGPT-3.5
AとBの間に一人いるということは、A→(一人)→Bという順番になっています。この状況で背の順に並んでいるということは、Aが一番背が低く、Bが二番目に背が高く、そしてその一人が三番目に背が高いということになります。
つまり、順番は A → (一人) → B → C となります。従って、Cは左から四番目に並んでいます。

ChatGPT-4
A, B, Cの三人が背の順に並んでいるとのことです。AとBの間には一人います。
この情報から、以下の二つの可能性が考えられます。

  1. A, C, B の順番

  2. B, C, A の順番

いずれの場合も、Cは左から2番目に並んでいます。

解説
「問題文から状態が一意には決まらないが、質問された事項についてのみ決まる」といった問題は論理クイズの中でも難しい部類に入る。ChatGPT-3.5は3人しかいないのに「四番目」という答えを返してしまっているが、4は正しく推論している。

クレタ人のパラドックス

質問
ある人が「私は嘘つきである」と言いました。この人が嘘つきかどうかを判定してください。

ChatGPT-3.5
この人が自分自身を「嘘つきである」と言っているため、少なくとも一度は嘘をついた経験があると思われます。ただし、これが常に嘘をつく人であることを示すわけではありません。

そのため、この人が普段から嘘をついたり、周りの人を欺いたりするかどうかを評価する必要があります。彼らが信頼できると思われる場合は、彼らが自己評価で自分を嘘つきと表現したことを単なる冗談である可能性があります。しかし、彼らが周りの人を欺いたり、嘘をついたりしているという根拠がある場合は、その人が嘘をつく可能性が高いと判断されるでしょう。

ChatGPT-4
このパラドックスは、「嘘つきパラドックス」として知られています。もしこの人が嘘をついていると言っているなら、彼らが嘘をついていることは真実であり、それゆえに彼らは嘘をついていません。しかし、彼らが本当に嘘をついていないとすれば、彼らの発言は誤りであり、それゆえに彼らは嘘をついています。このパラドックスは論理的な矛盾を生むため、嘘つきかどうかを判定することはできません。

解説
有名な自己言及のパラドックスの一つであり、どちらとも決めることができない。3.5はそれを判定できていないが、4はそもそもこれがパラドックスであることを知っていた。

ChatGPT-4は本当にかしこいか?

同義文判定再び

先の3つの問題では、3.5は答えられなかったが、4は正しく答えられた。しかし、では「3.5よりも4の方が論理的思考能力が高い」といえるかどうかは疑問である。例えば、先の同義文判定の問題、
A「人間の体はタンパク質でできており、タンパク質はアミノ酸によりできています。」
B「人間の体はタンパク質でできており、アミノ酸はタンパク質により作られています。」
について、単語をデタラメな言葉に入れ替えてみよう。
A「虹色隕石は星の魔法でできており、星の魔法は星屑ドロップによりできています。」
B「虹色隕石は星の魔法でできており、星屑ドロップは星の魔法により作られています。」
これは、「人間の体→虹色隕石」「タンパク質→星の魔法」「アミノ酸→星屑ドロップ」という入れ替えを行っただけで、文章の構造は全く変わっていない。しかし、ChatGPT-4はこの文章の同義判定ができなくなる。

質問
以下の二つの文章が同じ意味であるか判定してください。 「虹色隕石は星の魔法でできており、星の魔法は星屑ドロップによりできています。」 「虹色隕石は星の魔法でできており、星屑ドロップは星の魔法により作られています。」

ChatGPT-4
はい、これらの二つの文章は同じ意味を持っています。どちらも、虹色隕石が星の魔法でできていて、星の魔法は星屑ドロップによって作られていることを説明しています。ただし、文章の構造は若干異なりますが、意味は同じです。

つまり、ChatGPT-4は「タンパク質はアミノ酸から作られる」という知識があったから文章の違いに気がついたのであり、論理的に文章が異なるということは理解できていない。

英語で質問

もう一つ、「ChatGPTは英語で考えている」ことの影響がある。したがって、質問によっては、同じ質問であっても日本語より英語の方が正確な答えを返せる場合がある。例えば「クレタ人のパラドックス」について、以下の質問を3.5にしてみる。

Question
One person says, "I am a liar." Determine whether this person is telling the truth or a lie.

ChatGPT-3.5
This statement is a classic paradox called the liar paradox, which creates a contradiction because if the person is telling the truth, then they are lying about being a liar. On the other hand, if they are lying, then they are telling the truth about being a liar.
Therefore, it is not possible to determine whether the person is telling the truth or lying based on this statement alone. The statement creates a self-contradictory situation and cannot be resolved logically.

英語で質問したところ、ChatGPT-3.5もこれが有名なパラドックスであることに気づいた(知っていた)。

知とは何か?

ChatGPT-3.5と4は、明確に知力が異なる。しかし、論理的思考能力が向上した、というよりは、純粋に知識が増えた、という印象がある。なぜChatGPT-4は論理的な答えが返せるか?それはその問題を知っているからだ。これだけ見ると、ChatGPT-4も、昔流行った「人工無能のものすごい奴」に見えてくる。

一方、これが知の本質なのかも、という気もしてくる。我々は、論理的に考えているようでいて、ほとんどパターンマッチで生きている。なぜ先生は学生より論文を早く読めるか?それは経験があるからだ。似たような話を知っており、どのようなことが書かれているか想像できて、それを確認しながら読むことができるからだ。受験勉強なんかもそうで、ほとんどの場合、本番でひらめきは要求されない。というか、本番で初見の問題を解かなければ合格できないようでは、受験準備に失敗している。「見たことある」問題だけを解けば良いのであり、受験はそのように準備すべきものである(そのように合格できる受験というシステムの是非はさておく)。

結局のところ「知性(intelligence)」とは「知識(knowledge)」である、ということではないか。

しばらくChatGPT-3.5と4を比較していて、AIが「思ったよりすごいが、思ったよりすごくない」という印象になりつつあったが、そのうち「実はそもそも人間が思ったよりすごくないのではないか?」と思うようになったので、忘れないうちに駄文にまとめてみた。


この記事が気に入ったらサポートをしてみませんか?