見出し画像

「想像し創造するAI」で、人間の可能性を拡張する。EmbodyMeが見据えるAIの未来

DEEPCOREの出資先であるEmbodyMe(エンボディーミー)は、生成AIの流行に先駆けて、2016年からAIを活用した映像生成の研究開発を行っています。代表取締役社長 吉田一星さんに技術の優位性や展開可能性についてインタビューしました。

<プロフィール>
慶應義塾大学卒業後、ヤフー株式会社に入社。映像に関わるAI技術の研究開発を行い、そうした技術を世界に先駆けてスマートフォンに応用したサービスを複数立ち上げた。2016年に株式会社EmbodyMeを創業。受賞歴に経済産業省のInnovative Technologies採択、未踏ソフトウェア創造事業採択、 グッドデザイン賞受賞、Hack Dayで過去3回優勝など

AI×映像で世の中にインパクトを与える

——はじめに、EmbodyMeの事業領域について教えてください

吉田:私たちは「学習し模倣するAI」を「想像し創造するAI」へと進化させることをビジョンにかかげ、生成AIを活用した映像生成の研究開発事業を行っています。昨今、生成AIが話題になっていますが、この分野が将来的に世の中を大きく変えるということを見越して2016年から手掛けてきているので、世界でみても先駆的な立ち位置です。

生成AIにはアプリケーションやファインチューニングなど様々なレイヤーがあるなかで、私たちは基盤となるコア技術レイヤーを扱っています。OpenAIやGoogleと同じレイヤーで、研究開発に長い時間がかかり難易度が高いので、プレイヤーの数が少ないです。EmbodyMeは研究開発型企業として創業以来、長い時間をかけて研究開発をしてきたため、世界でも弊社にしかない競合優位性のある技術を持っています。

——研究開発した技術を応用したサービス展開も始めているのでしょうか

吉田:はい、自分自身の外見を好きな人物や動物などにAIで置き換えて、表情や体の動きを連動させたリアルタイムコミュニケーションができるPCアプリ「xpression camera」を提供しています。特別な機材を用意する必要はなく、ZoomやTeams、YouTubeなどあらゆるビデオアプリ上で動作し、好きな画像を一枚用意するだけで、その人になりきることができます。

今年8月には、一枚の画像を用意するだけで、そこに写った人物等が生き生きと動き出す映像をAIがリアルタイムで生成し、それにChatGPTで生成されたリアルな会話内容を組み合わせ、まるで写真の人物と会話しているような体験ができるスマホアプリ「xpression chat」の提供もはじめました。

——かなり実用化されているんですね。企業に勤めていた吉田さんが起業に至ったのはなぜでしょうか

吉田:大学卒業後はヤフーに入社して、広い意味で映像に関わるAIの研究技術開発に携わり、在籍時にいくつかプロダクトをリリースしました。
例えば、2013年には、当時はまだ技術的に難しかったARアプリの走りになるものを世界で初めて作りました。この3年後にSnapchatやMeta社などが参入してきました。2015年にはアバターと自身の映像を同期しながらビデオチャットができるプロダクトをリリースしていて、これもVTuberが登場する2018年より前のタイミングでした。

Snapchatをはじめとした企業がこれらを実現できたのは、海外にある別の企業を巨額買収したからです。ヤフーでの経験から、技術的に先駆者であっても、企業内の一担当者という立場でプロダクトをスケールさせる限界を感じました。そこで、もっと世の中を語り、世の中にインパクトを与えることがやりたいと考え、起業に至りました。

——AI×映像の分野を選んだ理由はありますか

吉田:AIは人間を模倣してつくられます。人間の認識のなかで聴覚はもちろん重要ですが、やはり視覚の占める割合は大きいです。その視覚に特化したものであれば、社会に与える影響が大きいのではないかと考えたのが、AIと映像を組み合わせた領域を手掛けることにしたきっかけです。マーケットサイズでみても、画像よりも映像のほうが断然大きいため、今後の活用可能性や事業機会は非常に大きいと考えています。

——生成AIが注目を集めていますが、これをどうみていますか。脅威になるのでしょうか

吉田:脅威とは感じていないです。特に大手企業が私たちのコアレイヤー領域に参入しようとしても、研究技術開発には非常に時間がかかります。OpenAIの発表があってから、社会もお金も大きく動いていますが、GPT4に適うレベルはなかなか難しい。仮にやってきたとしても、それはチャンスです。そういった企業が当社に注目する確率も高まってビジネス機会が拡大するかもしれないですし、買収の提案もあり得ます。世の中が盛り上がることで訪れる脅威は大歓迎です。

——順調に成長してきているのですね

吉田:結果的にそう見えるかもしれませんが、そうでなかった時期はもちろんあります。
これまで研究技術開発型企業として、研究成果をショーケースで展示して学習データを集めてみたり、写真一枚から3Dアバターを作り出してVR上でコミュニケーションできるサービスを無料提供したりしてきました。

会社経営にあたっては資金調達を行ってきましたが、ステージを追うごとに研究開発だけではなく、ビジネス化してマネタイズすることが求められるようになってきました。正直にいうと、資金調達が難しくなってきたのです。
会社の見せ方を変えていかねばと、「xpression camera」の提供からはビジネス展開を模索しはじめました。そして、今年に入って生成AIが注目されたことで、追い風が吹き始めましたという状況です。研究技術開発は他社とPoCを行いながら継続しています。

先駆者としてのAI×映像技術

——改めて、EmbodyMeの優位性について教えてください

吉田:やはり技術面で圧倒的な強みがあることです。長年取り組んで作り上げたモデルが当社の優位性です。

まず、Face Tracking技術です。従来のものは70点程度の2Dのポイントを推定するに留まっていましたが、当社の3D Dense Face Tracking技術は5万点以上の3Dのポイントを推定し、詳細な表情の認識を可能にします。3Dセンサーを使う必要がないので、一般的なカメラがあればどのようなマシンでも動作することが大きな特長です。

次に、Neural Rendering技術です。画像や、テキスト、音声を元にして、生成AIを活用することで、現実と区別がつかないレベルのクオリティの映像をイチから生成します。サーバを経由せずとも、デバイス側でリアルタイムに動作するほか、エヌビディアのGPUを搭載したハイスペックなPCではなく、ローエンドなPCやモバイルで使用可能です。

——マシンスペックが必要なく、一般の人でも活用可能なのは展開可能性を広げますね

吉田:そうなんです。しかも、当社の技術であれば、AIで映像を生成する他社よりも少なくとも50倍のスピードで動作します。そのため、ビデオチャットやライブ配信などリアルタイムなもので使えるのです。競合企業の中で最も速いものは、リアルタイムで動くことを謳っていますが、エヌビディアの一番いいGPUを使っていますから、その競合企業に比べて50倍高速に動作します。その他のほとんどの競合企業に比べると数百倍の速さで動作します。

競合企業の中で最も速いものは、エヌビディアの一番いいGPUを搭載したマシンであればリアルタイムでの動作は実現可能ですが、サーバ側で動かすため、非常に利用シーンが限られてしまいます。ネットワーク遅延が起きるので、リアルタイム配信で活用することが難しくなってしまうのです。
また、スケールの観点でも、万単位のアクセスを同時処理するには、エヌビディアの一番いいGPUをクラウドで必要に応じて動的にスケールするのは難しく、万単位のエヌビディアのGPUを常に用意しなければならないです。そのため、コストの面で非現実的になってしまいます。
現実的な多くのシーンで動作するのは当社技術くらいなのではないかと考えています。

これを実現可能にしているのが、当社のAIのモデルです。長年研究してきた成果でありますし、いわゆる「秘伝のタレ」的な要素も大きいです。コアレイヤーを手掛ける企業が少ない中で、競合優位性を発揮できるAIの根幹となるモデルを作ってこれています。

AIの力でコミュニケーションの可能性を広げる

——海外展開も視野に入っていますか

吉田:既に「xpression camera」は95%が海外のユーザーです。Product Huntというシリコンバレーで生まれた新サービスの投稿サイトでも、1位を獲得したことがあります。日本の人口と比べて母数が違いますから、真剣に広く展開するなら海外の目線は必須です。サービスは地域に限らず展開でき、他に世界に競合プロダクトがないのが大きいです。海外ユーザーが多数を占めていますが、全世界の国にユーザーが広く分散していて、人口比で考えると日本はそのなかでもかなり人気の国なんですよ。

一方で、BtoBは日本がメインです。今後、海外進出はしていきたいと考えています。そのためには、幅広く展開するのが重要でしょう。
まず、既存の業界に向けてはSDK(ソフトウェア開発キット)を提供することで、プロダクトに組み込みやすいようにしています。映像制作からライブ配信、ゲーム、スマホアプリなど映像に関わる様々な分野へ提供していきます。また、ChatGPTと組み合わせると、テキストだけでなくビジュアルとともにコミュニケーションができます。そのためChatGPTが活用できるようなシーンすべてに付加価値を提供できる他、ChatGPTだけでは展開が難しかったような利用シーンにも広げることが可能です。例えばサイネージ、学習、カスタマーサポート、HRなど様々な領域に対して提供していきます。 

「xpression camera」「xpression chat」のように、今までない領域を切り開いていくことも重要な戦略です。社会変化のタイミングで新しいプロダクトが生まれ、その変化を牽引することになると考えています。

——今後どんなことに取り組んでいきたいと考えていますか

吉田:企業との取り組みを強化したいですね。生成AIに積極的に取り組む企業とは相性がいいはずです。具体的には生成AIをバーチャルヒューマンとして利用しようとしてる企業や映像制作に関わる企業、リアルなインフルエンサーに関わる企業などです。
特に、インフルエンサーとしての活用には注目しています。VTuberは見た目がバーチャルで中身が人間ですが、これが逆転して、体はリアルな人(=インフルエンサー)で中身はバーチャル。これには可能性を感じています。

——もう少し具体的に教えてください

吉田:近年のChat GPTのようなチャットボットの台頭で、人間とのコミュニケーションと同様に、AIとのコミュニケーションが重要になってくる新しい時代を迎えています。しかし、チャットボットが生成する対象はテキストに限られており、テキスト以外のより幅広い分野に展開する必要性が高まってきているのです。

チャットボットは検索エンジンとは異なり、人間の対話を模倣していることが特徴です。チャットボットがテキスト以外の分野に進出するためには、見た目や身体、動き、声とセットで人間とコミュニケーションをする必要があり、バーチャルヒューマンへと進化する必要があります。

当社の映像生成AI技術は、チャットボットの出力したテキストを元に、バーチャルヒューマンの見た目や動きにリアルタイムで変換する技術であり、こうした進化をまさにそのまま実現します。

これをインフルエンサー向けのチャットボットに展開します。これまで話題になっているのは、インフルエンサーとのテキストや音声のコミュニケーションに留まっています。これが映像とセットになることで、インフルエンサーとよりパーソナルな会話ができ、価値が倍増するのではないかと考えているのです。

——ここに技術の優位性が効いてくるのですね

吉田:インフルエンサーを例に上げましたが、領域は絞っていません。例えば、なんらかの障がいでコンプレックスを抱える人でもテキストを打つことができれば、コミュニケーションを取る手段が増えます。

チャットボットはリアルタイムで動作する必要があるので、当社の映像生成AI技術がチャットボットの可能性を大きく押し広げます。こうした技術優位性を活かして、さらに幅広い市場を切り開いていきたいです。

■会社概要
会社名:株式会社EmbodyMe
設立日:2016年6月
コーポレートサイト:https://embodyme.com/ja/
アプリサイト:https://xpressionchat.com/


この記事が気に入ったらサポートをしてみませんか?