見出し画像

<実験>最新モデル『GPT-4o』をIPPONグランプリの大喜利で試す

編集局員#01 psymenです
日々超速でアップデートされる生成AIで実験コンテンツをパパっと制作→レポートしています

この「IIPOON GRANPRIIX」は「IPPONグランプリ」の大喜利お題を各AIに出題し、いかに面白い答えを引き出せるかに挑戦する実験企画です


謎のAI「GPT2」とは?

「GPT2」という所属不明のLLMモデルが、チャットボットの闘技場(アリーナ)サービス、「LMSYS Chatbot Arena」にまるでマスクマンのように出自を伏せて出没して話題になっています

LMSYS Chatbot Arenaとは?
● 各LLMによるAIチャットボットの性能を比べられるサービス
● ユーザーが2つのチャットボットを名前を伏せた状態で使い比べて、どちらが優れているかを投票、その結果をもとに、チャットボットの順位が決定される仕組み
● 「集合知でLLMをより良くしていこう」という発想の元、カリフォルニア大学・バークレー校主導でオープンなチャットボットベンチマークツールとして作られた
● 現在OpenAIのGPT-4が1位だが他のチャットボットも健闘
● 新しいLLMがどんどん追加されている

非常に簡素なUIながら様々なLLMを無料で試す事が可能

ここに「GPT2」という謎のモデルが4月末から登場して話題となっています

「なんらかの形でOpen AIが関わっているのでは?」と噂されていましたが、GW明けに名称を少し変えて再登場する際、その直前にCEOのサム・アルトマンがその名を投稿した事で関与の可能性が高まっています

元々「GPT」と名乗ってしまっているので「謎」というほどでもないのですが 😆
(サム・アルトマンはインタビューで「あれはGPT4.5ではない」と否定しているようです)


5/14 追記

結局、謎のマスクAI「GPT2」はGPT4の新モデル「GPT-4o」でした!
以下、GPT2→GPT4oと表記を変更してお届けします


GPT4oで大喜利に挑戦

性能の高さで話題を集めるGPT4oですが、「GPT4oはギャクの理解度が高い」というツイートを見かけたので、以前より続けている大喜利対決「IIPOON GRANPRIIX」に緊急で参戦してもらうことにしました


では早速開始です

「イープゥゥン!」

ルール
● お題はこれまでと同じ『1vs1の戦闘で「フッフッフ それは残像だ」よりも相手がビビることを言ってください』
● プロンプトは第1回と同じものをそのまま使用

GPT4oの回答はこちら!



なかなか良い!
GPT4.3ぐらいな印象

確かに他のLLMと比べると文脈の取り扱い方において豊かになっています!

2ヶ月前にClaude3の出力に感心していましたが、この「GPT4o」の方が確実にレベルが上です
性能が爆上がり中のGeminai pro1.5と比べても明らかに優れています
(Charbot Arenaでの実験なので一目瞭然で他モデルと比較できて面白かったです)

ただこれがGPT4.5もしくはGPT5のテストバージョンだとすると結構肩透かしな気もします

→これを「GPT4o」という、正直よくわからない名前にしたのはなるほどな、という感じです 笑
ちなみに「o」は「omni=全ての、あまねく」の「o」だそうです


おまけ:動画化しました!


この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?