話題のClaude3の実力を検証する〜GPT-4と比べてみる

Non

2024年3月14日 06:34

2024年3月4日に、
米Anthropic（アンソロピック）から
新しいAIモデルClaude3が発表されました。

世間では、Claude3はGPT-4を超えたと
盛り上がりを見せています。

Authropicの公式HPによれば、
Claude3の最上位モデルであるOpusは、
複数のベンチマークでGPT-4を上回る実績を
あげているようです。

この記事では、
webブラウザー版で、
Claude3とGPT-4に同じタスクを与えて、
その精度を比較し、
Claude3の実力を検証してみたいと思います。

なお、比較対象とするモデルは以下の通りです。

【比較対象】
Claude：Claude3 sonnet （webブラウザ版無料）
ChatGPT： GPT-4（webブラウザ版有料）

点線囲みの二つのモデルを比較します

Claude3の料金

比較の前に、Claude3の料金を先に整理しておきます。
ChatGPTのようにwebブラウザで使う分には
無料で使えます。

今回は、無料で使えるClaude3のSonnetと
ChatGPTのGPT-4を比べています。

ちなみに、APIで使う際には、
入力トークン、出力トークンの量に対して課金されます。
以下は100万トークンあたりの、入力トークン・出力トークンに対して課せられる料金です。
ブルーの網掛けがClaude3のモデルになります。

Claudeの最上位モデルOpusはGPT-4 turboよりお高いです。
ただし、SonnetであればGPT-4よりかなり安いです。

Claude3とGPT-4を比較する

0. 結論

先に結論を申し上げると、
Claude3はGPT-4に比べて画像認識に強い
一方、論理的な問題には弱い
ということです。

ただし、自分が使用したClaude3は無料版のSonnetなので、
有料版のOpusならば、論理的な問題にも強さを出すかもしれません。

以下、検証結果を見ていきます。

1.画像認識ー日本語・写真

Claude3は高度なビジョン機能（画像認識能力）を
備えていると言われています。
そこで、そのビジョン機能の精度を見ていこうと思います。

プロンプト

以下の画像をアップロードして、
「何が書いてありますか？」と入力します。

Claude3とGPT-4で、
それぞれ回答を見ていきます。

Claude3（Sonnet）の回答

この画像には、"これはたぶん私の偏見だろうが、集団の中から飛び抜けた投資実績は生まれてこない"という引用文が書かれています。

そして、引用者は眼鏡をかけた年配の男性で、有名な投資家のウォーレン・バフェットさんのようです。この言葉は、集団のなかでは平均的な実績しか期待できず、卓越した投資パフォーマンスは個人の優れた能力によってもたらされるという、バフェット氏の投資哲学を表していると思われます。

日本語の文章を読み取るだけでなく、
写真を読み取った上で、人物の名前までも当ててきました。
これは凄いですね！

GPT-4の回答

環境に日本語のデータファイルが存在しないため、テキストを読み取ることができませんでした。

この画像には、文字がはっきりしていて読みやすいので、私が直接内容を読むことができます。画像に書かれているテキストは以下のとおりです。

「それはたぶん私の側見たるうから、美術の中から真ひぬかけた投資機会は生まれてこない」

このテキストは、投資に関する何らかの見解を示しているようです。もしご質問があれば、お知らせください。

日本語の文章を認識できないばかりか
写真の人物を特定することもありませんでした。

2.画像認識ーグラフ・チャート

次に東証REIT指数のチャートを分析させてみます。

プロンプト

以下の画像をアップロードして、
「何が書いてありますか？」と入力します。

Claude3（Sonnet）の回答

この画像は東証REIT指数のチャートを示しています。いくつかの重要な点を分析します。

1. 全体的な傾向として、チャートは下落傾向にあります。価格は1,800台から1,700台に低下しており、下降トレンドが続いています。
2. 値動きは非常に変動が大きく、ボラティリティが高い状況です。価格の上下動が激しく、投資家にとってはリスクが高いことが伺えます。
3. 移動平均線(黄色と赤の線)を見ると、現在価格は移動平均線を下回っており、弱気の様相を呈しています。
4. MACD指標は-24.2とマイナス値で、売り優勢の状況が継続していることを示唆しています。
5. 出来高(ボリュームゾーン)を見ると、売り注文が買い注文を上回る局面もあり、売り圧力が高まっている可能性があります。

総じて、東証REIT市場は現在下落基調にあり、ボラティリティが高く売り圧力も強まっている状況と分析できます。今後の値動きには注意が必要でしょう。

グラフの数値やトレンドを認識した上で
的確な分析ができていると思います。

GPT-4の回答

この画像は株価チャートを示していて、特定のREIT(不動産投資信託)の価格の動きを表しているようです。チャートにはいくつかの異なる指標が示されています。具体的な分析を行うためには、これらの指標をどのように解釈するかが重要です。

画像には以下の要素が含まれています：

・移動平均線: 短期、中期、長期の平均線が示されており、これらは市場のトレンドを把握するためによく使われます。移動平均線が重要な価格レベルを超えたり、交差したりすると、多くのトレーダーはこれをトレンドの変化と見なします。
・ローソク足: 各ローソク足は一定期間の価格変動を示しており、その色（赤は価格下落、緑は価格上昇）と形状は市場の感情や可能なトレンドの変更を表すことができます。
・一目均衡表（Ichimoku Kinko Hyo）: これはトレンドを識別し、サポートとレジスタンスのレベル、および運動量を決定するために使われる指標です。チャートでは、雲（赤色と緑色の線で構成されたもの）が見られます。
・MACD（Moving Average Convergence Divergence）: MACDは運動量の指標で、短期と長期の移動平均の差から構成されます。MACDライン（青線）とシグナルライン（オレンジ線）があり、これらの線の交差は市場の運動量の変化を示唆しています。

これらの要素から、チャートを読み解く際には次のような分析が行われます：
1.　移動平均線の傾向と位置関係を確認します。長期線が上にあり、短期線が下にある「デッドクロス」は、ネガティブなトレンドを示しています。
2.　ローソク足のパターンを分析します。例えば、大きな赤いローソク足は売りの圧力を、大きな緑のローソク足は買いの圧力を示しています。
3.　一目均衡表の雲の厚さや位置は、サポートやレジスタンスのレベルを示しています。雲を通して価格が動いている場合、それはトレンドの強さを示すことがあります。
4.　MACDのラインの交差は、運動量の変化を示しており、これをトレンドの転換点と見ることができます。

これらの分析はあくまでテクニカル分析の一環であり、実際の取引判断を行う際にはファンダメンタルズ分析や市場ニュース、その他の要因も考慮に入れる必要があります。また、株式投資はリスクを伴うため、投資判断は自己責任で行う必要があります。

まず、回りくどいですね。
トレンドは把握できていますが、具体的な数値までは
認識できていないようです。

3.画像認識ー手書き文字

GoodNoteで書いた
私の（汚い）手書き文字を認識させてみます。

プロンプト

以下の画像をアップロードして、
「何が書いてありますか？」と入力します。

Claude3（Sonnet）の回答

この画像には、チェビシェフの不等式に関する2つの確率の式が書かれています。
最初の式は、確率P(|X-u| > k) < 6^2 / k^2 を表しており、これはある確率変数Xの値が、その平均値uから距離kを超える確率の上限を与えています。
2番目の式は、P(|X-u| < k) > 1 - 6^2 / k^2 となっていて、確率変数Xの値が平均値uから距離k以内にある確率の下限を表しています。
これらの式はチェビシェフの不等式と呼ばれ、確率変数の値が平均からどの程度離れているかを見積もるのに使われる重要な不等式です。
確率論や統計学の分野で幅広く活用されています。
式中のuは平均値、kは正の実数、6^2は確率変数Xの分散を表します。

σを6と表示していますが、
最後の文章を読む限りにおいては、
意味的には正しく認識してくれているようです。

GPT-4の回答

画像には、確率の不等式が書かれており、「チェビシェフの不等式」と題されています。チェビシェフの不等式は、確率論において、確率変数の分散を用いて、その変数が平均値からある範囲を超える確率を上限あるいは下限するために使用されます。
書かれている不等式は以下の通りです：

確率変数Xがその平均値μからkより大きく外れる確率は、σ²／k²より小さい。
確率変数Xがその平均値μからk未満である確率は、1 - σ²／k²より大きい。
ここで、σ²は分散を表します。

こちらはσをσとして認識しています。

4. 論理的な問題　その1

生成AIがあまり得意としない
ロジック系の問題を与えてみます。

プロンプト

太郎、次郎、三郎、四郎は4つ子。
ママが赤・青・黄・緑のTシャツを買ってきてくれました。
太郎は「赤か黄色がいい」と言っています。
次郎は「緑以外ならなんでもいいよ」と言っています。
三郎は「絶対に黄色がいい」と言っています。
四郎は「どれも好きだから、残った色でいいよ」と言っています。
誰に何色を与えればいいでしょうか？
ステップバイステップで考えよう。

答えを最初に言うと以下の通りです。
太郎：赤のTシャツ
次郎：青のTシャツ
三郎：黄色のTシャツ
四郎：緑のTシャツ

Claude3(Sonnet)の回答

はい、それでは順を追って解決していきましょう。
ステップ1: 条件を整理する
太郎は赤か黄色を希望
次郎は緑以外の色なら何でも良い
三郎は絶対に黄色がいい
四郎は残った色でよい
ステップ2: 三郎に黄色を与える
三郎は黄色を絶対に希望しているので、まず黄色を三郎に与えます。
ステップ3: 太郎に赤を与える
太郎は赤か黄色を希望していますが、黄色は三郎に与えられたので、残りの赤を太郎に与えます。
ステップ4: 次郎に緑を与える
次郎は緑以外の色なら何でも良いと言っていますが、残りの色は緑しかありません。なので、次郎に緑を与えます。

ステップ5: 四郎に青を与える
四郎は残った色でよいと言っていたので、最後に残った青を四郎に与えます。

まとめると:

太郎に赤
次郎に緑
三郎に黄色
四郎に青

となります。このように与えれば、4人の希望を満たすことができます。

これは間違っています。
次郎は緑以外ならなんでもいいと言っているのに、
緑を与えるのはおかしいですね。

GPT-4の回答

この問題を解決するには、子供たちの希望を一つずつ考えてみましょう。
まず、三郎は「絶対に黄色がいい」と言っています。これが最も制約が厳しいため、三郎に黄色のTシャツを与えます。

次に、太郎は「赤か黄色がいい」と言っていますが、黄色は三郎が取るので、太郎には赤のTシャツを与えると良いでしょう。

次郎は「緑以外ならなんでもいい」と言っています。この時点で赤と黄色はすでに取られていますので、次郎には残った色である青か緑から緑を除外した青を与えます。

最後に、四郎は「どれも好きだから、残った色でいい」と言っています。この時点で残っている色は緑のみですので、四郎には緑を与えます。

結果として、以下のようになります：
太郎には赤のTシャツ
次郎には青のTシャツ
三郎には黄色のTシャツ
四郎には緑のTシャツ
このようにして、全員の希望に沿った形でTシャツを分配することができます。

GPT-4は正解しました。

5. 論理的な問題　その2

Claude3の実力を見極めるため
もう1問、出してみます。

プロンプト

5人の子供がお弁当を食べています。 AはBより遅く食べ終わりましたが、Cよりは早かったです。 DはEより早く食べ終わりましたが、Cよりは遅かったです。 5人がお弁当を食べ終わった順番を答えてください。ステップバイステップで考えてください。

答えを最初に言うと　B, A, C, D, Eの順となります。

Claude3(Sonnet)の回答

はい、順序の問題を解くステップバイステップで説明します。
ステップ1: 与えられた情報から制約条件を抽出します。
A > B (AはBより遅く食べ終わった)
A < C (AはCより早く食べ終わった)
D < C (DはCより遅く食べ終わった)
D < E (DはEより早く食べ終わった)
ステップ2: この制約条件から、5人の順序の可能性を絞り込みます。
最初にA < Cという条件からCはAより後に食べ終わったことがわかります。
次にD < Cという条件からDはCより前に食べ終わったことがわかります。
そしてA > Bという条件からBはAより前に食べ終わったことがわかります。
最後にD < Eという条件からEはDより後に食べ終わったことがわかります。
ステップ3: 得られた情報から、順序の可能性を組み立てます。
B - D - A - C - E
これが唯一の可能な順序になります。なぜなら、すべての制約条件を満たしているからです。

Claude3は今回も間違えましたね。

GPT-4の回答

まず、お弁当を食べ終わる順番に関する問題から考えてみましょう。
AはBより遅く食べ終わり、Cより早かった。
DはEより早く食べ終わり、Cより遅かった。
この情報から、CはAとDの間に位置します。つまり、CはAより遅く、Dより早く食べ終わりました。この情報だけで、以下のように順番を部分的に決定できます。
B, A, C, D, E の順になる可能性がありますが、Bが最初かどうかはまだ分かりません。
次に、DはEより早く食べ終わったので、Eは最後です。そして、AはCより早く食べ終わりましたが、Bの位置はまだ不確かですが、AがBより遅く食べ終わることから、Bが最初であることが確定します。従って、食べ終わる順番は以下の通りです。
B, A, C, D, E

GPT-4は今回も正解でした。

さいごに

いかがでしたでしょうか。
限られたタスクではありますが、
Claude3が画像認識に強いことは分かりますね。
一方、論理的な問題は少し弱いかと。。。

ただ、Claude3のSonnetでも、
GPT-3.5をはるかに凌駕するレベルであり、
無料でAI使うなら、ChatGPTよりClaudeかなと思いました。

なにより、ClaudeはUIがシンプルで素晴らしいです。

この記事が気に入ったらサポートをしてみませんか？

話題のClaude3の実力を検証する〜GPT-4と比べてみる

Claude3の料金

Claude3とGPT-4を比較する

0. 結論

1.画像認識ー日本語・写真

プロンプト

Claude3（Sonnet）の回答

GPT-4の回答

2.画像認識ーグラフ・チャート

プロンプト

Claude3（Sonnet）の回答

GPT-4の回答

3.画像認識ー手書き文字

プロンプト

Claude3（Sonnet）の回答

GPT-4の回答

4. 論理的な問題 その1

プロンプト

Claude3(Sonnet)の回答

GPT-4の回答

5. 論理的な問題 その2

プロンプト

Claude3(Sonnet)の回答

GPT-4の回答

さいごに

4. 論理的な問題　その1

5. 論理的な問題　その2