2024年3月4日に、
米Anthropic(アンソロピック)から
新しいAIモデルClaude3が発表されました。
世間では、Claude3はGPT-4を超えたと
盛り上がりを見せています。
Authropicの公式HPによれば、
Claude3の最上位モデルであるOpusは、
複数のベンチマークでGPT-4を上回る実績を
あげているようです。
この記事では、
webブラウザー版で、
Claude3とGPT-4に同じタスクを与えて、
その精度を比較し、
Claude3の実力を検証してみたいと思います。
なお、比較対象とするモデルは以下の通りです。
点線囲みの二つのモデルを比較します
Claude3の料金
比較の前に、Claude3の料金を先に整理しておきます。
ChatGPTのようにwebブラウザで使う分には
無料で使えます。
ちなみに、APIで使う際には、
入力トークン、出力トークンの量に対して課金されます。
以下は100万トークンあたりの、入力トークン・出力トークンに対して課せられる料金です。
ブルーの網掛けがClaude3のモデルになります。
Claude3とGPT-4を比較する
0. 結論
先に結論を申し上げると、
Claude3はGPT-4に比べて画像認識に強い
一方、論理的な問題には弱い
ということです。
以下、検証結果を見ていきます。
1.画像認識ー日本語・写真
Claude3は高度なビジョン機能(画像認識能力)を
備えていると言われています。
そこで、そのビジョン機能の精度を見ていこうと思います。
プロンプト
以下の画像をアップロードして、
「何が書いてありますか?」と入力します。
Claude3とGPT-4で、
それぞれ回答を見ていきます。
Claude3(Sonnet)の回答
日本語の文章を読み取るだけでなく、
写真を読み取った上で、人物の名前までも当ててきました。
これは凄いですね!
GPT-4の回答
日本語の文章を認識できないばかりか
写真の人物を特定することもありませんでした。
2.画像認識ーグラフ・チャート
次に東証REIT指数のチャートを分析させてみます。
プロンプト
以下の画像をアップロードして、
「何が書いてありますか?」と入力します。
Claude3(Sonnet)の回答
グラフの数値やトレンドを認識した上で
的確な分析ができていると思います。
GPT-4の回答
まず、回りくどいですね。
トレンドは把握できていますが、具体的な数値までは
認識できていないようです。
3.画像認識ー手書き文字
GoodNoteで書いた
私の(汚い)手書き文字を認識させてみます。
プロンプト
以下の画像をアップロードして、
「何が書いてありますか?」と入力します。
Claude3(Sonnet)の回答
σを6と表示していますが、
最後の文章を読む限りにおいては、
意味的には正しく認識してくれているようです。
GPT-4の回答
こちらはσをσとして認識しています。
4. 論理的な問題 その1
生成AIがあまり得意としない
ロジック系の問題を与えてみます。
プロンプト
太郎、次郎、三郎、四郎は4つ子。
ママが赤・青・黄・緑のTシャツを買ってきてくれました。
太郎は「赤か黄色がいい」と言っています。
次郎は「緑以外ならなんでもいいよ」と言っています。
三郎は「絶対に黄色がいい」と言っています。
四郎は「どれも好きだから、残った色でいいよ」と言っています。
誰に何色を与えればいいでしょうか?
ステップバイステップで考えよう。
Claude3(Sonnet)の回答
これは間違っています。
次郎は緑以外ならなんでもいいと言っているのに、
緑を与えるのはおかしいですね。
GPT-4の回答
GPT-4は正解しました。
5. 論理的な問題 その2
Claude3の実力を見極めるため
もう1問、出してみます。
プロンプト
5人の子供がお弁当を食べています。 AはBより遅く食べ終わりましたが、Cよりは早かったです。 DはEより早く食べ終わりましたが、Cよりは遅かったです。 5人がお弁当を食べ終わった順番を答えてください。 ステップバイステップで考えてください。
Claude3(Sonnet)の回答
Claude3は今回も間違えましたね。
GPT-4の回答
GPT-4は今回も正解でした。
さいごに
いかがでしたでしょうか。
限られたタスクではありますが、
Claude3が画像認識に強いことは分かりますね。
一方、論理的な問題は少し弱いかと。。。
ただ、Claude3のSonnetでも、
GPT-3.5をはるかに凌駕するレベルであり、
無料でAI使うなら、ChatGPTよりClaudeかなと思いました。
なにより、ClaudeはUIがシンプルで素晴らしいです。