見出し画像

政治(科学技術)講座ⅴ1608「AIの能力を小学4年の算数の応用問題で確かめた」

 吾輩は、時々、AIの学習能力を試して、遊んでいる。
今回は小学5年の孫に出して、正解をだした問題を試しにAIにも出題した。
そうしたら「へんてこりん」な回答がAIから出た。
その答えはインターネット上の類似問題の答えを「索引」して、丸写しのようで、そこの「索引」から拾った答えのようである。
理論的な解説にはなっていなかった。
人間の思考能力には到達できていないことの実証実験をした。まあ、考えてみたら、所詮AIはアルゴリズムというプログラムに基づいて作動するに過ぎないのである。
学習といいながら「アルゴリズム」というプログラムの出来によって「索引」の答えが違ってくる。今回はそのような報道記事とAIが間違えた小学4年生の算数の問題を掲載して置く。

     皇紀2684年1月25日
     さいたま市桜区
     政治研究者 田村 司

AIは予想より“ポンコツ”だった? 共通テストの数学、ChatGPTでも平均点未満という結果に驚く

AIは予想より“ポンコツ”だった? 共通テストの数学、ChatGPTでも平均点未満という結果に驚く© ITmedia NEWS

 ITmedia NEWS Weekly AccessTop10(1月13日~1月19日)

1 文化遺産の屋外プール、完全に干上がる──能登半島地震の“海岸隆起”で 東大地震研が現地写真を公開

2 「地面が約4m隆起した」──能登半島地震の地殻変動、産総研が調査結果発表

3 人工衛星「EYE」から地球を撮影してみた 思わぬ写真が撮れた

4 高校入試の出願システム、Gmailにメール届かず……神奈川県、受験生に「@gmail.com以外のアドレス使って」

5 VTuber・夜空メルが契約解除に ホロライブ運営「機密情報の漏えいなどがあったため」

6 「空飛ぶバイク」のA.L.I. Technologiesが破産手続き開始 仮面ライダーや新庄監督も乗っていた

7 大学入試共通テスト、3つのチャットAIに解かせてみたら? GPT-4はバケモノだった

8 自転車泥棒、追い詰めた執念……「ヤフオク!」のアラートで追跡、Facebookで本人特定

9 ソニー「α9 III」使ってみた “異次元のカメラ”だった

10 震災で意識高まる「家庭内蓄電」 太陽光の“卒FIT”にポータブルバッテリーメーカーが注目する理由

 ITmedia NEWSにおける1週間の記事アクセス数を集計し、上位10記事を紹介する「ITmedia NEWS Weekly Top10」。今回は1月13~19日までの7日間について集計し、まとめた。

 大学入試共通テストが行われた先週、「生成AIに試験問題を解かせてみた」というブログ(note)を紹介した記事がアクセス7位に入った。

 点数を競ったのは、米OpenAIの「ChatGPT」(GPT-4)、米Googleの「Bard」、米Anthropicの「Claude2」の3つの文章生成AI。企業へのAI導入コンサルティングなどを手掛けるLifePrompt(東京都千代田区)による実験だ。

 結果を一読して意外だったのは、数学の正答率の圧倒的な低さだ。
どのAIも受験生の平均点予想を上回れず、正答率は最大で46%(ChatGPTの「数学2B」)
Bardの「数学1A」に至ってはわずか6%しか取れていない。英語や国語、歴史科目などに比べても、目に見えて低い数字だ。

 AIやコンピュータ、ロボットが「できること」のイメージは、ChatGPT以降、大きく変わったように思う。それまでは、AIやコンピュータは、特に数字や計算に関しては「間違わない」イメージがあった。今回の実験ブログを読む前、筆者も「受験5教科の中なら、AIは数学が一番得意では」と予想したのだが、真逆の結果だったのだ。

 なぜ数学の正答率が低かったのか。
LifePromptは、
(1)生成AIの計算スキルが高校数学の範囲を簡単に解けるレベルまで進化していなかったこと、
(2)共通テスト数学の特殊な解答形式に対応できなかったこと――をその理由に挙げている。

 (2)のキモは、問題文と回答欄の読み解きだ。共通テストの問題は、問題文や式の中に四角い空欄が設けられ、「ア」「イ」などと片仮名がふられて、そこにあてはまる数字や記号を答える形式。Google BardやClaude2は特に、片仮名の当てはめでミスをしたという。

 つまり、人間に解かせるために作られた問題形式の読み解きが、AIにはまだ難しい(正確に解かせるためには、より適切なプロンプトを与えてやる必要がある)ということのようだ。

 かつて、SF的なAIやロボットのイメージは、完璧に計算できてロジカルで冷たくて、人間が太刀打ちできない何かだった。だが、こうして生成AIが日常に浸透してくると、イメージと違うところも多く、意外と“ポンコツ”な部分もあるんだなあとホッコリすることがある。

 なんて言っていられるのも今年のうちぐらいで、2025年ごろにはもっと完璧なAIが現れて、「これが……シンギュラリティ……」とか言っているのかもしれないが。

小学4年生の算数の問題

問題

アナログ時計がある。今、その時計の針の大きい針と小さい針が零時を刺して大きい針と小さい針が重なっている状態である。この時計が再度大きい針と小さい針が重なる時刻は、いつか?

読者の皆様も挑戦してみてください。試しにAIの回答と比べると面白い。コメント欄に回答を乞う。

ご参考:AIの誤回答をコピーした。

アナログ時計 針 重なる 時刻 を検索しています。
回答を生成しています…

アナログ時計の短針と長針が重なる時刻を求める問題は、中学受験の算数に出てくる問題の一つです. 短針と長針が重なるというのは、長針が短針に追いつくことを意味します。短針と長針の進む速度は決まっています。短針は1分間に0.5°進み、長針は1分間に6°進みます.

問題文によると、現在の時刻は0時で、短針と長針が重なっています。短針と長針が重なるというのは、長針が短針に追いつくことを意味します。短針と長針が重なるまでの時間を求めるために、短針と長針のあいだの距離を求めます。0時のときの短針と長針の角度は90°です。短針と長針のあいだの距離は90°です。短針と長針のあいだの距離を縮めるのに必要な時間は、短針と長針の進む速度から求めることができます。短針と長針のあいだの距離を縮めるために必要な時間は、90°÷5.5°≒16.36分です。よって、再度短針と長針が重なるのは、0時から16分36秒後になります。

感想

残念!間違いです!0点!呵々!
アルゴリズムを作っているプログラマーの皆さん、頑張ってください!

参考文献・参考資料

AIは予想より“ポンコツ”だった? 共通テストの数学、ChatGPTでも平均点未満という結果に驚く (msn.com)

ここから先は

0字
この記事のみ ¥ 100

この記事が気に入ったらサポートをしてみませんか?