見出し画像

Day-6 生成AIを使ってみる #5

おはようございます。
学びを楽しむ探究人・masamuneです。

前回は、
生成AIの代表的なサービス
について学び始めました。

今日は、
マルチモーダルについて学びます。
今回もこちらのサイトの解説から学んでいこうと思います。

マルチモーダルAI とは

テキスト・画像・音声・動画など複数の種類のデータを一度に処理できるAIの技術のこと。マルチモーダルという用語はマルチ=複数、モーダル=形式や手段を合わせた用語で、複数の形式や手段を組み合わせることを意味します。

出典:ai-market.jp

以前投稿5日目の記事で紹介したMeta社の
SeamlessM4Tについては、いつもお世話になっているこちらの記事から学ばせていただきました!

音声→音声
音声→テキスト
テキスト→音声
テキスト→テキスト
に変換してくれるこの生成AIの精度を確かめる実験が、とても興味深かったので、ご紹介します。

SeamlessM4Tを実際にやってみた

というパートで詳細に説明されているので、上のリンクから見に行って欲しいのですが、

SeamlessM4Tを使う伝言ゲームみたいな手法で、翻訳能力を確認してみます!

という遊び心が好き❤️

まずは、以下のテキストを音声として入力します。

アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?

次にそれぞれ、以下のような手法を通じて翻訳していきます。

speech-to-speech(日本語→韓国)
speech-to-text(韓国→ロシア)
text-to-text translation(ロシア→英語)
speech recognition(英語→中国)
text-to-text translation(中国→日本語)
最後に出力される日本語テキストが、最初の入力とどれくらい変わってしまったのか確かめます。

サイトでは順を追って確認していますので、気になる方はサイトの方を読んでいただければと思います。

気になる
中国から日本語への変換がこちら💁

出力:アダムとエバの子孫も遠くの親戚ですが ⁇ なぜこの戦争は終わらないのでしょうか?

これは、伝言ゲームとしてはほぼほぼ正解ではないでしょうか!?

SeamlessM4T
すごい精度です!

普段Facebookで読んでいる翻訳は、かなりの精度だったのが証明されました。
ポルトガル語の翻訳をよく使ってますが、この精度ならば勉強に使えますね…!

今週は、生成AIを使ってみながら、学びながら、その奥深さを楽しんでおります。
今回のように、多国語への変換を何度もする機会は少ないと思いますが、すぐ目の前に「言葉の壁」を乗り越えたコミュニケーションが可能になる世界が待っているのかと思うと、とてもワクワクしました!

そして、実際に使ってみるにあたり、皆さんがどのように使いこなしているのかがとても気になってきました。自分でも機会をみて、色々と使ってみようと思います。

今日もお付き合いいただき、ありがとうございました。

この記事が参加している募集

最近の学び

この記事が気に入ったらサポートをしてみませんか?