見出し画像

道徳の成績はGPT4がトップ?GPT4,Claude3Sonnet,Gemini1.0 Proの感想文をチェックしてみた

こんにちは。emadurandalです。最近、道徳の教科書にハマっています。短編小説には数千〜数万文字程度の短い文字数にも関わらず、巧みな構成やどんでん返しで、読者を唸らせる名作がたくさんあります。特に、小学校や中学校の道徳の教科書には、倫理観について考えさせられることも多く、印象深いお話が多いものです。

道徳に使われるお話の中で、私が特に好きなものに「カーテンの向こう」という作品があります。

著作権関連の心配があるので、全文を載せるのは避けますが、インターネットを検索すると全文を載せているPDFが見つかりますので、ぜひ「カーテンの向こう 道徳」などのキーワードで探してみてください。

Wikipediaからあらすじを引用します。

あらすじ

ある国の病室で重病人の2人の男がベッドに横たわっていた。窓際の男は、窓の外を見ることが出来ないもう片方の男に窓の外の風景を話すことで時間を潰して居た。窓際の男が語る公園の風景、美しい花など外の世界の様子にもうひとりの男は心が癒やされていた、その一方で外の風景を独占する窓際の男への憎しみも増していった。内心窓際の男の死すら願うようになってしまう。ある日本当に窓際の男は死んでしまう。いよいよ自分が窓際に移れると喜んだ男だが、窓の外にあったのは窓を覆う冷たいレンガの壁だった。すべては窓際の男が彼を楽しませるために作った作り話だったのだ。

wikipedia

ちなみに、日本の道徳の教科書に採用されているバージョンでは、病室に主人公と窓際の男(ヤコブ)の他にも患者たちがいることになっています。

今回試してみたいのは、この作品の全文をGPT4、Claude3、Gemini1.0に与えて、「最後のオチがわかった際に、主人公のヤコブに対する印象がどう変わったか」について答えさせるというものです。もちろん、道徳の教科書の感想は人それぞれの特有のものが尊重されるべきですが、ある程度感性のある人間だったら、このオチでヤコブが行なっていた言動の動機や主人公の心境の変化などが、十分推察できるはずです。同じ水準の推察を、現行の大規模言語モデルができるかどうか、トライさせてみたいと思います。

まずは、GPT4です。

いきなり、模範解答とも言えるほどの答えが返ってきました。現行の大規模言語モデルは「ある単語の次にくる可能性が確率的に最も高い単語を、順次出力する仕組み」とされていますが、そんな言語モデルがここまで状況観察と人の心情を把握できるものなのかと驚かされます。

次に、Claude3です。残念ながらPro版を契約していないので、Claude3OpusではなくClaude3 Sonnetですが。

二つの解釈の可能性が示されました。ヤコブが詐欺師とみなされるかどうか。素直な解釈であれば、愛による行動だと私たち日本人は感じそうなものですが、しかし、嘘は嘘なので、真相を知って、そう捉える仲間の患者もいたかもしれません。もう一方の解釈では、愛による嘘と、GPT4と同じ答えをしているので、十分合格ですね。別の解釈も提示したということで、より多様性のある回答ができているとも取れるでしょう。

最後に、Gemini1.0 Proです。日本語版のGeminiには1.5はまだ降りてきていないのでしょうか。聞いたら1.0 Proと返ってきました。

さて、Gemini 1.0 Proの答えです(長すぎたので途中切っています)。

おや?「ヤコブは虚構の世界に生きていた」という解釈になっています。ヤコブが現実をわかっていながら、愛による嘘をついていたという解釈ができていませんね。状況説明のテキストからより深い洞察が掘り起こせていないようです。

まとめ

GPT4とClaude3 Sonnetが予想以上の結果を出してくれました。中でもGPT4は回答の文章の質が全体的に素晴らしく、読書感想文としては模範解答に近いレベルに感じます。

今回はGemini 1.0 Proが残念な結果になってしまいましたが、性能がアップした1.5 Proならどうなっていたでしょう。もしかしたら、より深い洞察ができるようになっているかもしれませんね。バージョンアップがなされたら、ぜひ試してみたいと思います。

それにしても、現行の大規模言語モデルでも、文学作品の考察がかなりの水準までできていることに驚きました。この分だと、生成AIが日常的に人間の良き相談相手になってくれる時代はすぐそこまでやってきていると強く感じますね。

この記事が気に入ったらサポートをしてみませんか?