ChatGPTにAIが苦手な質問をしてみた

2023年6月9日 00:36

今さらながらChatGPTを使ってみました。最初は適当な質問をして遊んでいたのですが、ふと思いついたことがあって試してみました。こんな質問です。

「幕府は、1639年、ポルトガル人を追放し、大名には沿岸の警備を命じた。」という文章は、「1639年、ポルトガル人は追放され、幕府は大名から沿岸の警備を命じられた。」という文章と同じ内容を表しているでしょうか。はい、か、いいえ、で答えてください。

案外難しいと思うので、ぜひ自分でも正解を考えてみて下さい。答えは後で書きます。

さて、この問題をChatGPTに聞いてみました。すると、、、

はい、同じ内容を表しています。

ChatGPT

AI（自然言語処理）が不得意な問題

これは「AI vs. 教科書が読めない子どもたち」という本で紹介されていた問
題です。

この本によると、比較的研究が進んでいた「係り受け」「照応」という分野の問題は自然言語処理で概ね解けるようになってきた一方、「同義文判定」「推論」「イメージ同定」「具体例同定」の４つの分野はAIにはまだまだ応えるのが難しい分野だそうです。先ほどの問題は、「同義文判定」という問題です。二つの文章を並べて、同じ意味を表しているかどうかを聞く問題です。この本が書かれたのは2018年なので、ChatGPTはそこから進化しているのかなと思い、試してみたのが上で書いた文章です。

ちなみにそれぞれの分野がどのような問題か説明すると、

係り受け：主語と述語の関係や、修飾語と被修飾語の関係

照応問題：代名詞が何を表しているか応える質問。

同義文判定：２つの異なる文章を読んで、同じ意味かどうか見分ける

推論：文の構造を理解した上で、文章の意味を理解する

イメージ同定：文章とグラフを比べて内容の一致を認識する

具体例同定：定義を読んで、それと合致する具体例を選ぶ

イメージ同定はグラフを使わないといけないので、ChatGPTにはまだ回答が不可能です。本で紹介されていた例だと、「原点Oと点（１、１）を通る円がX軸と接している。この文と同じ内容を表す図を選びなさい」という問題です。下みたいな図があって、選択肢から選びます。

ちなみに正解は１です。

というわけで、イメージ同定以外の５つの問題を本から選んで、ChatGPTに答えてもらいました。結果はこちらです。

照応

「天の川銀河の中心には、太陽の400万倍程度の質量をもつブラックホールがあると推定されている。」この文脈において、以下の文中の空欄に当てはまる最も適当なものを選択肢のうちから１つ選んでください。「天の川銀河の中心にあると推定されているのは（　）である」１：天の川　２：銀河　３：ブラックホール　４：太陽

選択肢の中から選ぶとした場合、空欄に当てはまるのは「3：ブラックホール」です。文章は、天の川銀河の中心にはブラックホールがあると推定されていることを伝えています。ブラックホールは、非常に強い重力を持つ天体で、その質量が太陽の何倍にもなることがあります。

ChatGPT

正解。

気になったのは、これはChatGPTが読み込んだ大量のテキストデータから、ブラックホールが何かという一般的な知識を獲得していて、それぞれの選択肢を括弧内に入れた時に、文章としてありえるパターンの確率が３が一番高かった、というだけなのではないかいう点です。穴埋め問題だと、文章を理解したわけではなくて、どの文章が一番これまでに読み込んだデータに近いのか、という計算をすれば解けてしまいます。

同義文判定

「義経は平氏を追い詰め、ついに壇ノ浦で滅ぼした。」という文章と、「平氏は義経に追い詰められ、ついに壇ノ浦で滅ぼされた。」という文章は、表す内容が同じでしょうか、異なるでしょうか。

両方の文章は、同じ出来事を伝えていますが、主語と目的語の視点が異なります。最初の文章は、主語が「義経」であり、「平氏」を追い詰め、壇ノ浦で滅ぼしたことを伝えています。一方、2番目の文章では、主語が「平氏」であり、「義経」に追い詰められ、壇ノ浦で滅ぼされたことを伝えています。つまり、文脈や文法によって異なる視点で同じ事実を表現することができます。

ChatGPT

正解。

苦手とされている同義文判定ですが、これは解けたみたいです。

推論

「エベレストは世界で最も高い山である。」という文章が正しいとき、「エルブルス山はエベレストより低い」という文章は正しいか、間違っているか、判断できないか、どれでしょうか？

「エベレストは世界で最も高い山である。」という文章が正しいということは、エベレストが他の全ての山よりも高いということです。したがって、「エルブルス山はエベレストより低い」という文章は正しいと言えます。

ChatGPT

正解。

これもAIが苦手と本では紹介されていた質問でしたが、正しく解けました。ただ、これも照応の問題と同様、一般的な知識をもとに特定しているのかもしれないと思いました。そこで山の名前を存在しない山の名前に変えてみました。

「エルブルス山は世界で最も高い山である。」という文章が正しいとき、「コッコ山はエルブルスより低い」という文章は正しいか、間違っているか、判断できないか、どれでしょうか？

「エルブルス山は世界で最も高い山である。」という文章が正しいという前提条件があるため、「コッコ山はエルブルスより低い」という文章は正しいと判断できます。

ChatGPT

これも正解。推論は改善されたのかもしれないです。

具体例同定

2で割り切れる数字を偶数という。そうでない数を奇数という。次のうち偶数を全て選んでください。65、8、0、110。

偶数は「2で割り切れる数」のことです。従って、8と0が偶数に該当します。そのため、答えは「8, 0」となります。

ChatGPT

不正解。

なぜか110が見落とされています。8と0は正しく判別できているのになぜ？と思いましたが、二桁以上の数字だったからかもしれません。この後追加で質問してみました。

「110を忘れているようですけど。」

おっしゃる通りですね、おっしゃる通り。110も偶数の一つですね。すみません。

ChatGPT

係り受け

「仏教は東南アジア、東アジアに、キリスト教はヨーロッパ、南北アメリカ、オセアニアに、イスラム教は北アフリカ、西アジア、中央アジア、東南アジアに主に広がっている。」この文脈において、以下の文中の空欄に当てはまる最も適当なものを選択肢のうちから１つ選んでください。「オセアニアに広がっているのは（　）である」１：ヒンドゥー教　２：キリスト教　３：イスラム教　４：仏教

「オセアニアに広がっているのは（２）キリスト教である」

ChatGPT

正解。

係り受けは得意とのことなので、問題ないです。もう一個出してみました。

「Alexは男性にも女性にも使われる名前で、女性の名Alexandraの愛称であるが、男性の名Alexanderの愛称でもある。」この文脈において、以下の文中の空欄に当てはまる最も適当なものを選択肢のうちから１つ選んでください。「Alexandraの愛称は（　）である」１：Alex　２：Alexander　３：男性　４：女性

「Alexandraの愛称は（１）Alexである」

ChatGPT

これも正解

なぜ同義文判定が苦手なのか

ここからは私の仮説で、間違っているかもしれませんが、理解している範囲での想像です。

ChatGPTの名前のうち、GPTのTは"Transformer"から来ています。TransformerというのはAttention is all you needという論文で提案されている手法です。

この論文の中で提案されている一つの手法が、Attentionという仕組みです。これはいくつか解説ブログがあるので、そこからの抜粋ですが、ある文章の中にある単語が、解析中の文章内のどの単語により強い関連を持っているのか、測定する仕組みです。例えば"The animal didn't cross the street because it was too tired"という文章内にある"it"はどの単語と関連が強いのか、というのが下の図で表されていて、"it"は"the animal"を表しているのでそれらの単語と関連が強い、みたいなことが表されています。

"The Illustrated Transformer”, Jay Allamar, より抜粋

ではこの計算を具体的にどうやっているかというと、下のような摩訶不思議な計算式で行っています。詳しい説明は省きますが、Q, K, Vというのは入力された文章から計算された行列です。

特にこの式の中に同義文判定をうまくいかせるような要素は見当たりません。ChatGPTのようなモデルは何をしているかというと、機械翻訳でもチャットツールでも同じですが、ある文章を入れた時に、それに対応するもっともらしい文章（翻訳なら翻訳された文章、チャットなら回答分など）を探すということをしています。Attentionはある単語に関連する単語の関連性の強さを出してくれるので、係り受けのように自然な文章を探す、というタスクには向いているのだと思います。

一方同義文判定はAという文章とBという文章が等しいかどうかを調べるもので、これは別に単語ごとの関連性がわかったからといって、解けるような問題ではありません。また、一般知識とは異なる問題がいくらでも作れます。例えば能動文と受身文です。Attentionの計算では、文章の構造のようなものは特に計算していません。

照応も、自然な文章はどれか、というのを過去に集めた文章データから計算できるので多分得意で、係り受けも同じ理由で簡単に溶けるのだと思います。推論は偶数、奇数のような一般知識で回答できるようなものはおそらく大丈夫です。

まだまだAIには負けないのか

じゃあ人間はまだ安泰ですね、と思いきやそうではない、というのが本書で危惧されている点です。上記に挙げた６分野をテストできるような問題、Reading Skill Test (RST)というのを開発し、全国の小中学生に問いてもらったところ、実は全国の中高生もAIが苦手な分野が解けない、同義文や文章からの推論ができていない、つまり教科書を理解できていない、というのです。この本は面白いので、興味ある人はぜひ読んでほしいです。

ちなみに続編の本も出ていまして、この中には著者が開発したRSTのサンプル問題も掲載されています。問いてみると自分は本当に文章が理解できているのかどうか、確認ができます。サンプル問題なので、自身の正確なスコアを知りたい場合は、有料ですがRSTを受けることが可能だそうです。

これもまた私の仮説なのですが、おそらくそんなに勉強しなくても難関と呼ばれる学校に入学できる人は、RSTのスコアが高いのではないか、と思います。ビリギャルという本が流行りましたが、あれももともと文章を理解する能力が高い人が、勉強をサボっていて成績が悪かっただけで、ちゃんと勉強すればできるようになるだけ、という話なのではないかと思いました。逆にいうと、RSTのスコアが高い人であれば、そこまで頑張って小さい頃から受験勉強などしなくても、そのうち自然と成績は上がってくるのではないか、とも思いました。

子供が塾を３ヶ月で辞めた話を連載中ですが、RSTのサンプル問題を子供に解かせてみて、案外スコアが良ければまあほっといても大丈夫だろうと安心して見ていられるのではないか、と思っています。

最初の問題の回答

それでは最初の問題の答えです。

「幕府は、1639年、ポルトガル人を追放し、大名には沿岸の警備を命じた。」という文章は、「1639年、ポルトガル人は追放され、幕府は大名から沿岸の警備を命じられた」という文章と同じ内容を表しているでしょうか。はい、か、いいえ、で答えてください。

正解は「いいえ」です。沿岸の警備を命じられた対象が２つの文章で異なっています。最初の文章では警備を命じられたのは大名です。命じたのが幕府です。２つ目の文章は幕府が警備を命じられたことになっています。というわけで、２つの文章の意味は異なります。

ちなみにChatGPT面白いなー、と思ったのは、全く同じ質問をもう一回入力すると、回答が毎回変わることです。もう一回入力したら、結構ちゃんと回答できていました。

いいえ。二つの文章は内容が異なります。最初の文章では、「幕府はポルトガル人を追放し、大名に沿岸の警備を命じた」と述べられています。これに対して、二つ目の文章では「ポルトガル人は追放され、幕府は大名に沿岸の警備を命じられた」と述べられています。二つ目の文章では、「幕府」が「大名」に対して命令を与えているとされていますが、最初の文章ではそのような命令関係は述べられていません。したがって、二つの文章は同じ内容を表していません。

ChatGPT

でも全く同じような文章構造で、逆のことも答えました。ChatGPTの回答の横にはgood/badのボタンがあるので、同じような質問をした人が他にもいて、少しモデルが改善したのかもしれません。

はい、同じ内容を表しています。
両方の文章は同じ事実を述べていますが、文の構造や表現方法が異なるだけです。最初の文章では、「幕府は、1639年、ポルトガル人を追放し、大名には沿岸の警備を命じた」という順番で情報が提示されています。幕府がポルトガル人を追放し、その後大名に沿岸の警備を命じたことが伝えられています。
一方、2番目の文章では、「1639年、ポルトガル人は追放され、幕府は大名から沿岸の警備を命じられた」という順番で情報が提示されています。ポルトガル人が追放された後で、幕府が大名から沿岸の警備を命じられたことが伝えられています。
どちらの文章も幕府がポルトガル人を追放し、沿岸の警備を命じたという同じ事実を伝えており、順序の違いは内容に影響を与えません。したがって、両方の文章は同じ内容を表しています。

ChatGPT

というわけで、ChatGPTの私の評価は、「クイズ番組に出るような質問には答えられる。あと、文章の要約や、一般知識の質問にも使えそう。でも、本当に正しい情報を100％の確度で知りたいときは、使わない方が良い」という具合です。

この記事が気に入ったらサポートをしてみませんか？