見出し画像

Google Bardで画像解析ができるようになった!

こんばんは。よしともです。
今回はGoogle Bard(Chat GPTのライバル)が「画像解析機能」をリリースしたことについて書こうと思います。

1.何ができるか?

では早速ですが、画像解析機能でどんなことができるか色々試してみました。

1-1.モノ

まずは野菜の写真を見せてみました。

Q:この写真には何が映っていますか?
A:あなたが送ってくれた画像は、テーブルの上にあるさまざまな野菜を描いています。最も目立つ野菜はカボチャで、これは日本原産の冬野菜の一種です。画像には他にも、パンプキン、ゴード(瓢箪)、そしてフィグリーフゴード(イチジクの葉の瓢箪)があります。また、画像にはいくつかの葉や茎も写っており、これらはカボチャやパンプキンのものかもしれません。
この画像は、ウェブ検索結果で名前が挙がっている唯一の野菜がカボチャであるため、カボチャを販売または宣伝しているウェブサイトからのものである可能性が高いです。画像に含まれる他の野菜は、カボチャがさまざまな方法で調理でき、多くの異なる料理に使用できるという、その多様性を示すために含まれているかもしれません。

カボチャだけ教えてくれました(笑)
わかりやすそうなニンジンやトマトはスルー…。
真ん中にカボチャがあるから「他の野菜は、カボチャがさまざまな方法で調理でき、多くの異なる料理に使用できるという、その多様性を示すために含まれているかもしれません。」と答えたのかもしれません。
個人的には個数も答えてくれることを期待していました。

1-2.ヒト

続いてはヒトです。

Q:写真には誰が映っていますか?
A:申し訳ありませんが、人物の写真にはまだ対応していません。

実は大谷選手の画像を入れてみたのですが「まだ対応していない」と返ってきてしまいました。まだベータ版だからこれからという感じでしょうか。

1-3.場所

次は富士山の写真を入れてみました。今度こそうまくいくか…。

Q:写真の場所はどこですか??
A:画像に映る場所は日本です。具体的には、山中湖に映る富士山が写っています。これら二つの名所は、富士五湖地域に位置しており、日本の人気観光地です。
あなたが送ってくれた画像は、多くのウェブサイトで見つけることができる人気のストックフォトです。しばしば日本を象徴する画像として、または富士五湖地域の観光を促進するために使用されます。
お役に立てれば幸いです!

上手くいきました!しっかりと富士山ということを認識し、山中湖も補足してくれました。
また似たようなアングルの写真が多いからか「あなたが送ってくれた画像は、多くのウェブサイトで見つけることができる人気のストックフォトです。」ということも教えてくれました。


1-4.文章

次は少し応用編です。
取引先からクレームが入ったと仮定し、それに対する返信を考えてもらいました。

クレーム文の詳細


Q:取引先からこのようなメールが来ました。 取引先を怒らせないような返信を考えてください。
A:山田様
この度は先日お届けしたボルトに関してご不便をおかけしてしまい、誠に申し訳ありません。ご注文数より3つ少ないボルトが届き、さらに2つのボルトが錆びて使用できない状態だったこと、承知いたしました。
私たちはお客様のご意見を非常に重視しております。この問題について調査を行ったところ、製造ミスが原因であったことが判明しました。影響を受けたボルトを即座に回収し、できるだけ早く新しい商品をお送りする予定です。
この度の件でご迷惑をおかけしたこと、心よりお詫び申し上げます。お客様とのビジネスを大切に思っておりますし、私たちの製品にご満足いただけるよう尽力いたします。

英語の返信案が返ってきましたが、内容としては概ね問題なさそうです。
ちゃんと謝罪、原因調査、今後の対応が記載されています。
日本語版も使えるようになったら、もっと便利になりそうです(詳細は後述)


1-5.表

最後は適当な決算書を入力し、分析をしてもらいました。

Q:この会社の決算書を分析してください。その際、安全性について実際の数値を用いてコメントしてください。
A:画像の会社の財務諸表についての分析結果を以下に示します:
流動資産は9,158,509円、一方流動負債は1,470,647円です。これは、会社の流動比率が6.2であり、財務の安定性を示す良い指標であることを意味します。
総資産は9,498,259円であり、一方総負債と株主資本もまた9,498,259円です。これは、会社がレバレッジをかけていないことを示し、これもまた財務の安定性を示す良い指標です。
利益剰余金は8,027,612円で、これは過去に会社が利益を上げていたことを示します。
全体として、画像の会社の財務諸表は財政的に安定した会社であることを示しています。会社は良好な流動比率を持ち、レバレッジをかけておらず、過去に利益を上げています。
しかし、これは利用可能な限定的な情報に基づく予備的な分析に過ぎないことに注意が必要です。会社の財政的安定性を完全に評価するためには、より詳細な分析が必要です。
より詳細な分析で考慮すべき追加の要因は以下のとおりです:
会社の収益と利益の成長
会社の負債構造
会社の流動性
会社がキャッシュフローを生成する能力
会社の競争位置
会社の業界の見通し

ちゃんと分析してくれました!流動比率6.2も計算できています。加えて今回は貸借対照表(BS)しか入れていないので、PL、CF、その他外部環境も考慮しなさいと返しています。

レバレッジに関しては上手く識別できていなさそうですか、ベータ版としてはまあまあと言う感じです。

総資産は9,498,259円であり、一方総負債と株主資本もまた9,498,259円です。これは、会社がレバレッジをかけていないことを示し、これもまた財務の安定性を示す良い指標です


2.どんな使い方ができるか?

自然言語処理と画像解析が組み合わさるといろんなことに応用できそうな気がしました。

・顧客から不具合が起きてきる製品画像を送ってもらい、問題を特定する
・設計図(展示会のブースなど)を見て、レイアウトの改善点を考えてもらう
・Instagramで見た美味しそうな料理の写真からお店を特定し、経路案内する
・冷蔵庫の写真を撮って、残り物で献立を考えてもらう

今までは文章でしか対応できなかったものが、一気に幅が広がりそうです。BardやChatGPTに入れるために文字に変換していたもの(メールなど)も、今後はその手間がなくなります(スクショでOK)。


3.まとめ

画像解析機能が実装されたので早速利用、レビューしたみました。正直実際に活用するにはまだまだといった感じですが、大きな一歩だと思います。

BardがやればもちろんChatGPTも…というのでもっとAI競争、進化のスピードが早くなるのを期待しています!


4.設定方法

ちなみにBardで画像解析をするには設定が必要です。やり方のリンクを貼っておくのでぜひ使ってみてください!(現時点では英語版のみ対応)


いただいたサポートは勉強代に使わせていただきます! twitter:https://twitter.com/LibertyCh_univ Youtube: https://www.youtube.com/channel/UC5OTKijj7dh-BISBTujTY7A