【画像あり】ChatGPTの画像認識で遊んでみた!
どうも、ゆっけです
ChatGPT始め、AI、特に生成系AIのニュースがすさまじい勢いで飛び交ってますね
先日、先頭を走るOpenAIが、
ハードデバイスの開発にもトライしてゆく、みたいな記事を見かけまして、
もはやOpenAIに全て任せたら良いのではと思ってます笑
それはともかく、
今回は、ChatGPTがマルチモーダル対応した、ということで、
まずは画像認識で遊んでみて、見えてきたこと、
何が出来そうで、何が出来なさそうか
をちょろっと書こうかと思います!
ーーーーーーーーーーーーーーーーー
その前にまずは簡単な自己紹介だけ
経歴
社会人歴4年目の26歳
2020.4〜総合コンサルベンチャー
2023.8〜AIメガベンチャー
どんな人か
マドリディスタ
最近武道始めようか迷い中
Twitterやってます
Podcast配信してました(過去配信の番組をご紹介します)
お遊び
最初に読み込んだのはこのグラフ
過去に調査した川崎フロンターレさんの会計数値
数値を読み取れるか、あわよくば表から何か示唆だし出来るかを検証
結果はこんな感じ↓
OCRを使って読み込んでいるみたい
すごい
ただ、どうも日本語への対応が難しいっぽい
英語で解析し直してくれるけど、それでも数値は全て解読出来ず
色々読み込んでもらうべく、
試行錯誤したプロンプトを入力するも残念ながら解読は難しいよう
今回のグラフは、
・日本語
・指標が3つ
とハードルが高いかと思ったので、
試しに以下の簡単そうなグラフを読み込ませてみる
結果は・・・
完璧
観光客数という文字は特にどこにもないが、
イベントや数字の羅列から推測したのか?
先ほど読み込めなかったグラフも、英語に直せば読めるのでは?
ということで、諦めずに以下画像を読み込ませてみる
色々コメントしてくる
なぜか数字を読み取るのではなく、バーの高さから推測しようとしている笑
数字で読み込むよう依頼してみる
残念ながら読み取れず、、
やはり数字の種類が多すぎるのか
ということで、3つの数字を3つの表に分けて読み込み、
後でまとめてみることに
結果は・・・
いけた!!!
けど、数字に線が重なっていたり、引出線が近くにあったりすると、
読み込めないみたいです
今日はここまで
考察
分かったこと、感じたことを記載しておく
・日本語には弱い
・テキストではなく、表やグラフをOCR使ってここまで読み込めるのは驚き
・エラーが発生すると、自動で別の方法をトライしてくれる。トライ&エラーを高速で回してくれるので凄く助かる
・一方で、自分が何をしたいかの目的意識を持って使わないと、ChatGPTを使いこなせない。ある程度気を利かせて色々やってくれるから、それに引っ張られないようにするのが大切
・同じプロンプトを入力しても、回答が異なっていたり、さっきは出来たのに出来ない、みたいなケースも結構多い
・画像やグラフの読み込みは、自分が作成したものは問題ないが、他人が作成したものは許されるのか?
この記事が気に入ったらサポートをしてみませんか?