見出し画像

X(Twitter)の生成AI「Grok」の実力はどれほどかを「ChatGPT」「Claude」と比較して検証した。

5月8日に、Xがプレミアムサブスクリプション会員を対象として、生成AIチャットボットのサービス提供を始めた。

Xのトレンド入りもしていたので、それなりの注目度もあるようだが、実際のところ、業務で使えるレベルなのだろうか。

少し前にChatGPTとClaudeの比較を行ったが、今回も、全く同様のタスクを投げてみて、どのような違いが生じるかを検証してみよう。

ChatGPTと、Claude3に仕事を与えて、性能比較をしてみたら、長所と短所がはっきりと分かった。

Claude3は、文章出力に強く、文脈を長く保持しておける点に強みがありますが、webを参照したり、計算をさせたりする処理においては、ChatGPTに軍配が上がります。適宜、使い分けていくのがよさそうです。

https://note.com/yuyadachi/n/n7d01ead3ec5c

なお、Grokには「ユーモアモード」と「標準モード」があるが、性能に違いがあるかどうかは不明のため、より特徴的な「ユーモアモード」を選択した。

なお前回、ChatGPT(GPT-4)とClaude(Opus)にやらせたタスクは以下のようになっている。

1.記事執筆
 ー1.記事の書き方を尋ねる
 ー2.記事の構成を作らせる
 ー3.章ごとに、記事を逐次出力させる
 ー4.記事の評価
2.メールへの返信
3.調べもの
4.会社案内の作成
5.複利計算

では、1から順番にやっていく。

1.記事執筆


1.記事の書き方を尋ねる

Grok

念の為、前回出力したChatGPTとClaudeの結果も比較対象として掲載しておく。

Claude
ChatGPT

ClaudeとChatGPTは構造化した回答だったのに対して、Grokは会話調となる。また、構成に必要な内容自体がGrokでは薄い。(最終パラグラフでは、前項の繰り返しになっている)

わかりやすさや、提案の密度という点ではChatGPTやClaudeに軍配が上がるだろう。

2.記事の構成を作らせる

では、前回ChatGPTとClaudeにやらせたのと全く同様に、Grokの勧めに従って、文章を構成させてみる。

以下がGrokによる構成案だ。

では、同様にClaudeとChatGPTの出力も比較対象として載せる。

Claude
ChatGPT

構成案を作らせると、ClaudeとChatGPTは大項目と中項目までを示すが、Grokは大項目を示すのにとどまる。
どうやら、Grokは「階層化」が苦手なのかもしれない。
また構成のすべての文末が「説明しましょう」となっており、構成案というよりもインストラクションに近い。これも「会話調の生成AI」という特徴なのだろうか。


3.章ごとに、記事を逐次出力させる

では、上で作成した構成案にしたがって、導入部から結論まで、逐次出力をさせます。

Grokによる記事原文

比較対象のために、例によってClaudeとChatGPTの記事も掲載します。

Claude3による記事原文
ChatGPTによる記事原文

これは一目瞭然です。Grokは長文では使い物になりません。
例えば導入部だけを取ってみても、黄色くハイライトしたところが繰り返しになってしまっています。

また、Grokはエラーが多いです。長文を書かせると、動作が止まってしまうことが多々ありました。どうやら、スレッドが長くなりすぎると、エラーを起こしてしまうようです。

4.記事の評価

では、Grokに記事を自己評価させてみましょう。
自己評価は、まず評価基準を作らせたあと、その基準に従って点数付けをやらせます。

その結果が以下です。
結論としては全くダメ。10点満点で評価せよ、といったのに46点としています。

Claudeにも同じ評価基準で採点をさせたところ、4.4点となった。

ChatGPTでも同様に評価を行うと、7点となる。

比べてみていただくとわかるが、Claudeが最も記事を正確に評価していると考えられる。ChatGPTはユーザーに忖度する傾向が強いので、記事を客観的に評価する能力=記事を生成する能力 と考えれば、やはりClaudeに記事を書かせるのは正解だと言える。

2.メールへの返信

ここから先は

2,174字 / 13画像
インターネット上における 「生成AIの利活用」 「ライティング」 「webマーケティング」のためのノウハウを発信します。 詳細かつテクニカルな話が多いので、一般の方向けではありません。

ビジネスマガジン「Books&Apps」の創設者兼ライターの安達裕哉が、生成AIの利用、webメディア運営、マーケティング、SNS利活用の…

この記事が気に入ったらサポートをしてみませんか?