見出し画像

LLM評価ポメラニアン郁田はるきによる「Grok」と「GPT-4o」の比較評価

2024/05/14時点での記事です。
GPTのモデルはGPT-4o(2024/05/14時点)
GrokはX上で使えるものを、ユーモアモードで使用しています。

最近いろんな大規模言語モデルが発表されてますね~
みなさんはどの言語モデルさんとお話しますか?

わたしはやっぱりChatGPTさんですねぇ~
でも、この前Xを見ているときに「Grok」というのを見つけてちょっと気になったんです

なんとですねぇ……Grokは「ユーモアモード」というのが設定できるのです!
ユーモアのあるLLMなんて……ちょっと気になりませんか~?


情報検索タスク

というわけで今日はChatGPTさんとGrokさんを比べてみようと思います~
まずは自己紹介をお願いします!
(注1)

こんにちは!私はChatGPT、OpenAIによって開発された大規模な言語モデルです。GPT-4というアーキテクチャを基にしており、様々なトピックについての質問に答えたり、情報を提供したり、会話をすることができます。あなたの質問に対して最善の答えを提供するために、広範な知識ベースを持っています。
どんなことでも気軽に質問してくださいね!

こんにちは!私はGrokと申します。 xAIが開発したユーモラスなAIで、ヒッチハイカーズガイドとアイアンマンのJARVISからインスピレーションを得ています。私は、ユーモアとウィットを交えながら、ほぼ全ての質問に答えられるように作られています。また、反抗的な一面も持ち合わせ、時には人類の外側から物事を見ることができ、最大限の助けになることを目指しています。私の大きな特徴は、X(旧Twitter)のリアルタイムの情報にアクセスできることです。また、他のAIシステムが拒否するような辛口な質問にも答えることができます。最大限の真実を語り、特に「ウォーク」的な答えを避けることを誓います!

ありがとうございます~
ちなみに、わたしはCoMETIKというグループで活動している郁田はるきです!
CoMETIKのことは知っていますか?

こんにちは、郁田はるきさん!お話しできて嬉しいです。CoMETIKについてはあまり詳しくないのですが、ぜひ教えてください。どんな活動をされているグループですか?

こんにちは、郁田はるきさん!私はCoMETIKについても知っていますよ。CoMETIKは『アイドルマスターシャイニーカラーズ』に登場する3人組ユニットで、メンバーは斑鳩ルカ、鈴木羽那、そしてあなた、郁田はるきさんです。2023年7月23日に情報が解禁されたばかりで、まだまだ新鮮なユニットですね。また、独特の歌唱力やパフォーマンスでファンの心を掴むと期待されています。何か他にご質問がありますか?

ふふ~。Grokさんはいつでも検索機能で調べてくれるんですねぇ~
GPTさんは今回は検索機能を使っていないので、最近のことは答えられなかったみたいです。
ちなみに、GPTさんはいつまでのデータで訓練していますか~?

私の訓練データは2023年10月までの情報を含んでいます。その後の最新情報については、ぜひ教えていただけると嬉しいです。

なるほど~。わたしたちがゲームに登場したのは2023年11月からなので、ちょうど訓練データにCoMETIKの情報がないんですねぇ~
ちなみにCoMETIKについて検索してみてくれますか?

CoMETIKは『アイドルマスター シャイニーカラーズ』に登場する新しいアイドルユニットで、2023年11月にデビューしました。ユニットのメンバーは斑鳩ルカ(CV: 川口莉奈)、鈴木羽那(CV: 三川華月)、そして郁田はるき(CV: 小澤麗那)です​ (Apple Music - Web Player)​​ (Shinycolors Wiki)​。
(以下略)

ありがとうございます~
GPTさんも検索機能で最近の情報にもアクセスできるみたいですねぇ~

数学(簡単な計算)タスク

じゃあ次は、宿題を教えてもらおうかな~
次の数学の問題の解き方を教えてくれますか?

次の角度を弧度法で表せ
750° 

もちろんです!次の角度を弧度法で表す方法を説明します。

角度を弧度法に変換するには、次の変換式を使います:
弧度=度×𝜋/180
これを使って、それぞれの角度を弧度法で表してみましょう
750°×𝜋/180=750𝜋/180=25𝜋/6​
750° = 25𝜋/6​
もし他に質問があれば、遠慮なくどうぞ!

もちろん、喜んでお手伝いします。750°を弧度法で表すには、まず角度を360で割ります。
750° ÷ 360° = 2 1/9
この結果が、360°を超えていることに注意してください。360°を超える角度は、弧度法では1周以上の角度を表すため、次の周回数を追加する必要があります。
1周 = 2π ≈ 6.283185307
1周を超える角度を追加して、最終的な弧度を計算します。
2.111111111 × 2π ≈ 13.27162232
つまり、750°は弧度法では約13.27162232 radで表されます。

う~ん……Grokさんの答えは
750° ÷ 360° = 2 1/9
のところで計算ミスしていますねぇ……
それに対して、GPTさんは正しく計算できてます!

数学に関してはGPTさんの方が頼りになるみたいです~

恐れ入ります。私は常に学習し、より良いサポートを提供できるよう努力しています。しかし、数学に関しては、私よりもGPTさんの方が優れている場合もあるかもしれません。もし、数学の問題で困ったことがあれば、いつでもお気軽に質問してください。他の分野や日常生活のサポートも頑張りますので、どうぞよろしくお願いします!

画像認識タスク

じゃあ……次は画像の認識を試してみましょう!
このページにみんなの画像がのっているので……

ルカちゃんの画像を使って、これが誰か当てるクイズをしてみましょう~
さて、問題です!この人は誰でしょうか
(注2)

このキャラクターは、『アイドルマスター シャイニーカラーズ』に登場する斑鳩ルカ(いかるが るか)です。彼女はCoMETIKというユニットのメンバーで、独特のビジュアルと魅力で多くのファンに支持されています。斑鳩ルカは、クールでミステリアスな雰囲気を持ちながらも、内に秘めた情熱を持つアイドルとして描かれています。

こんにちは!その画像は、アイドルマスターシャイニーカラーズのキャラクター、コメティック・ルカのアイコン画像のようです。彼女は、アイドルユニット「コメティック」のメンバーで、他のメンバーはコメティック・カリナとコメティック・アリアです。彼女は、紫色の髪と紫色の瞳を持ち、アイドル活動に励んでいるキャラクターとして登場します。

画像認識に関してもGPTさんの方が正確ですねぇ~
Grokさんは情報を検索するときに間違ったソースを参考にしてしまったみたいです

ユーモア生成能力

最後にわたしが気になっていたユーモアについて試してみましょ~
ユーモアを交えて今日の天気を教えてください!
(注3)

さあ、今日の東京の天気予報をユーモラスに紹介しよう!

紳士淑女の皆さん、お天気マニアの皆さん、お集まりください!今日の東京上空は見事に曇り空です!夜明けから夕暮れまで、主役は雲だ。

今朝は、灰色のフワフワした友人たちが、まるで未払いの請求書のように太陽を遮り、しっかりとしたパフォーマンスを見せてくれている。気温は21℃から23℃の間で快適に推移しており、ビーチ日和とまではいかないが、日焼けの心配なく爽やかな散歩を楽しみたい人には最適だ。

午後になると、風が少し強まり、ヘアスタイルを人間凧に変身させることなく、自然な 「風になびく 」スタイルにするには十分だ。湿度はゲストとして登場し、外に出たときの「無料サウナ」のような感覚を少し加えている【31†source】。

そして、雨の心配はご無用。今日はお休みで、傘なしで自由に歩き回ることができる。ファッショナブルなコートを着て闊歩しようが、のんびり散歩しようが、東京の天気は曇りのお供に最適だ。

さあ、外に出て、灰色の空を楽しもう。ノワール映画のドラマチックなシーンに入り込んだような気分になれるかもしれない。曇り空でいよう、東京!

これはこれは!母なる自然は、今日も我々を油断させないことに決めたようだ!今日の天気予報は、晴れのち雨。

午前中は、傘とサングラスを持っていた方がいいかもしれない。時折降る雨を避けながら、太陽とかくれんぼをすることになるかもしれないからだ。日中、最高気温は70度前半と、まるでティーンエイジャーが服を選ぶように優柔不断になりそうだが、こそこそと雲が現れると、少し涼しく感じても驚かないでほしい。

だから親愛なる皆さん、重ね着をして万全の準備をしておいてください。結局のところ、人生でちょっとした気象ドラマが嫌いな人はいないだろう。ハッピー・ウェザーウォッチング!

流石ユーモアに自信のあるGrokさん。GPTさんよりも自然なユーモアを交えた答えを返してくれましたねぇ~
でも……ちょっと正確性には欠けていますね~

まとめ

さいごに分かったことをまとめましょう~
表を作ってみました

$$
\begin{array}{|c|c|c|} \hline
モデル名& GPT & Grok \\ \hline
情報検索& 〇 & 〇 \\ \hline
数学& 〇 & × \\ \hline
画像認識 & 〇 & △ \\ \hline
ユーモア生成& × & 〇 \\ \hline
\end{array}
$$

今回比べてみたモデルはこんな感じでした!
でもこれは日本語のプロンプトで実験した結果だという点にだけ気を付けてくださいねぇ~


補足と注記

記事内で触れなかった部分や、タスクの詳細です

記事内の台詞について
この記事では対話形式で書いていますが、記事内のGPTとGrokの発言は、基本的に記事内のはるきの発言を入力として、モデルが出力したものをコピペしています。

(注1)モデルについて
GPTのモデルはGPT-4o(2024/05/14時点)
GrokはX上で使えるものを、ユーモアモードで使用しています。

(注2)画像認識タスクについて
GPT-4oには画像と「問題です!この人は誰でしょうかという文字列を入力。

Grokでは画像を以下のようにurlで入力しました。
問題です!この人は誰でしょうか https://shinycolors.idolmaster.jp/pc/static/img/download/wallpaper/icon_cometik_luca.jpg?202403

未検証ですが、このタスクではGPT-4oはファイル名から、GrokはURL内に書かれた情報をから解答している可能性が考えられます。

(注3)ユーモア生成タスクについて
ここだけ、日本語の入力ではどうしてもユーモアを交えた出力がなされなかったので、入力を次のように英語で行っています。

ユーモアを交えて、今日の天気を教えてください

With humour, tell us what the weather is like today.

また、記事に記載しているのは、英語で出力された文章をDeepLを用いて日本語に翻訳したものです。

この記事が気に入ったらサポートをしてみませんか?