次世代のAI技術、Generative Adversarial Networks(GANs)のビジネス応用可能性を考えてみる

今回はAIの中でも次世代の大きなトピックとなる技術である、Generative Adversarial Networks(通称GANs)と呼ばれる技術を紹介し、今後どのようなビジネスが置き換わっていくかの予測をしてみます。

GANsのインパクトを理解するために、まず以下の画像をみてください。

どうでしょうか?通常の写真に見えませんか?

実はこれ、全てAIが生成したオリジナルの画像であり、この世には存在しないものです。
よくよくみてみると、狼の後ろ足がうまく表現できていなかったり、コーヒーカップも曲がって見えたりしています。
まだまだ完璧とは言えませんが、ここまで高解像度でゼロから画像を生成できているという点に驚きを感じませんか?
ここで使われているのがまさにGANsを応用した技術であり、今回のテーマになります。

上の画像に限らず、GANsの成果は、一部のニュースなどで見聞きしている方も多いのではないかと思いますが、この技術が現時点でどのような成果を出していて、今後どのようなことを実現できるようになるのかまで踏み込んで理解しているビジネスパーソンは少ないのではないでしょうか。

たしかに、AI研究者の中ではかなりホットなテーマなのですが、まだまだモデルの学習が安定しているとは言えず、単独での実用化まではもう少し時間がかかるかなという印象です。
しかし、一部ではかなり精度の高いモデルも現れたり、他の機械学習タスクの補助として利用されたりするなど、少しずつですが実業界でも影響力を発揮してきています。

AIの分野の中でも今後影響力をさらに強めていく技術を紹介することで、スタートアップや大企業の新規事業に少しでも繋がるといいなと思います。

目次
・GANsとは
・GANsのこれまでの成果
・GANsによって実現する(かもしれない)ビジネス

GANsとは

あらためて、GANs(日本語では大抵ガンもしくはギャンと発音します)について概要を説明します。

Generative Adversarial Networksとは日本語では「敵対的生成ネットワーク」と呼ばれる技術で、AIにおける「生成系の技術」に分類されます。
GANsは2014年に、当時カナダのモントリオール大学で博士課程の学生であったイアン・グッドフェロー(Ian Goodfellow)氏によって初めて提案されました。

GANsのもっとも特徴的なアイデアは、「二つのディープラーニングのモデルを競わせることで、お互いの精度を高めていく」という点になります。
これはよく、「偽札を作る犯罪者」と「それを見破る警察」に例えられます。

偽札を作るときに、最初のうちは犯罪者の作る偽札は全然精度が高くないので、警察は簡単にそれを見破ります。しかしそれに対抗して、犯罪者は精度の高い偽札を頑張って作るようになり、警察を欺こうとします。警察はさらに精度の高い偽札を前に、彼ら自身の偽札を見抜く目を鍛え上げます。
これらのステップを繰り返すことで、最終的には「精度の高い偽札を作り上げる力」と「偽札を本物かどうかを見分ける力」をもったディープラーニングのモデルがそれぞれ出来上がるわけです。
ここでの「精度の高い偽札を作り上げる力」というのが、「AIにおける生成技術」となるわけですね。

このアイデアは非常に革新的で、AIが創造性を持つ可能性を示唆(GANsは学習データの特徴分布を学んでいるだけなので、「創造性」という言葉を使うのを嫌がる研究者もいますが)していますが、一方でこの「二つのディープラーニングモデルを競わせて学習させる」というステップは技術的に非常に難しく、安定させて良いモデルを作成するにはかなりのコツが必要です。GANsの研究は非常にホットなトピックで、研究論文の数も毎年指数関数的に増えているのですが、主な論点はこの「学習の安定性」に置かれていることも多いです。

まとめると、人間にのみ許された「創造性」という分野にまでAIが進出するという点で革命的な技術ですが、実用化にはまだいくつかハードルがあるというのが現状と言えるでしょう。

GANsのこれまでの成果

それではGANsのこれまでの成果をざっと振り返ってみましょう。
最初に断っておくと、ここでは主に画像に対するGANsの進化過程を振り返ります。GANsの応用先は画像に限らず、音声、動画などにも広がりますが、基本的にもっとも研究が進んでいるのは画像生成の分野です。画像生成の分野は比較的試しやすく、目視で結果を確認できたり(Twitterなどで拡散してもわかりやすいので)するので、研究が盛んな傾向にあります。

最初期のGANs(2014)
それではまずはIan Goodfellow氏の最初の論文内で発表された画像生成のサンプルをみてみます。以下が最初期のGANsで生成された画像になります。一番右側の黄枠で囲まれた画像は元の学習データに存在する実在の画像で、それ以外はすべてGANsによって生成されたものです。

数字の生成はかなりうまくいっているように見えますね。数字は0〜9までの限定的なデータなのと、RGB画像ではなく白黒画像なので学習しやすいという点があると思います。

右上の人の顔については学習データセットもちょっとぼやけがちなのもありますが、生成された画像も全体的に靄がかかっています。人の顔というのはなんとなく分かりますが、あまり綺麗な画像とは言えないですね。

下部の画像はCIFAR-10と呼ばれるAIモデルのベンチマークでよく利用される画像データセットです。元の解像度もあまり高くないのと、画像のパターンがたくさんあるため、生成されている画像はなんとも言えない感じです。

最初期のGANsは、大本のアイデアを単純なデータセットでうまくいきそうだと示した点で重要ですが、まだまだ実用的とは言えなさそうです。


DCGANによる高解像度画像への対応(2015)
画像データに対するディープラーニングにおいてはCNN(Convolutional Neural Network)という技術が高い精度を出す上で利用されることが多いのですが、こちらをGANsに応用することで、生成精度をあげることができました。通称DCGANと呼ばれる学習方法によって生成された画像が以下です。

人の顔を生成していますが、初期の論文の頃よりだいぶ綺麗になっているのがわかるかと思います。当然、まだまだぐにゃぐにゃな部分が多いのですが、より高い解像度で、色もついた状態でここまで進歩させたのは大きな貢献ですね。

また、人の顔以外でも実験しており、下記ではベッドルームの画像を生成させています。よく見るとおかしな点はたくさんあるのですが、ぱっと見でベッドルームのサムネイル写真と言われるとなんとなくそれっぽいかなと感じる面もあるのではないでしょうか。

GANsが発表されてわずか1年程度でここまで進化することができたのはAIコミュニティの情報共有の速さに寄るところも大きいと思います。


StackGANによる文字列からの高解像度画像生成(2016)
2016年にはテキストから画像を生成するStackGANと呼ばれる手法が話題になりました。テキスト情報から画像を生成できるようになることの意義は大きく、アートの生成や自然言語処理・コンピュータビジョン技術間の結びつけといった応用が可能になります。

StackGANにおいては以下のような画像が生成されています。

たとえば、一番左の画像をみてみると、「とても短いくちばしを持つ、青と白色の鳥」というテキスト情報をインプットにとっています。こちらも細かくみると不自然な点はいくつかあるのですが、遠目に見るとうまく画像を生成できているように見えます。おそらく、AIが生成した画像と言わなければ特に違和感を感じない人も多いのではないでしょうか。

テキスト情報からの画像生成の分野も一時期かなり盛んになり、Microsoftが発表したAttanGANはこの研究をさらに推し進めたものになっており、学習させたデータに対しての精度はかなり高まってきています。

しかし、学習させたデータセット以外の分布の情報をインプットすると、おかしな画像が生成されてしまいます。
大量のデータ学ばせることにも限界があると思うので、ここらへんをどう解決するかが今後の課題になりそうです。


高解像度な顔画像生成・画像ドメイン変換(2017)
2017年はGANsにとって非常に大きなマイルストーンがあった年だったと言えます。NVIDIAが開発した「Progressive Growing of GANs」と呼ばれる手法を用いることで、特定ドメインの高解像度画像をうまく生成できるようになりました。

下記はセレブの顔画像データを学習させたモデルから生成された画像のモーフィング動画です。恐ろしい精度ですね。実在する人物として写真を見せられたら完全に騙されてしまいます。

また、この頃からGANsの他の分野への応用も増えてきます。

例えば、画像のドメイン変換です。通常の馬をシマウマに変換したり、夏の景色を冬の景色に変換したりといったことを実現できます。
もっとも有名なのはCycleGANと呼ばれるタイプのものですが、以下の動画をみていただくとすごさがわかるかと思います。

ドメイン変換の技術は画像の加工などの分野への応用が期待されており、数年前から流行っている画風変換アプリなどもこれと似たような技術が利用されていたりします。

また、フェイクニュースや偽ポルノ動画などが話題になったのもこの頃からですが、こちらもGANsをつかったもので、ある人の顔を他の人の顔にドメイン変換することによって実現していたりします。


BigGANによる特定ドメインの高解像度画像生成(2018)
2018年に大きな話題になったGANsの技術は何と言ってもBigGANではないでしょうか。こちらの「Large Scale GAN Training for High Fidelity Natural Image Synthesis」という論文で提案されたもので、学習させた画像のドメインであれば、特定のドメインを指定して画像を生成することができます。
当然、そのような技術は以前からあったのですが、それをここまでの精度で高解像度の画像を生成できたことに研究関係者は盛り上がりました。

こちらがBigGANによって生成された画像です。

もはや写真ですね。。
実はこの記事の冒頭で紹介した画像もこのBigGANによって生成された画像です。適当な単語を指定するだけでこのような画像を簡単に生成できるようになったら様々な業界が変わってきそうです。

また、NVIDIAが発表した技術では、もはや完全に通常の人の写真と言えるような画像ばかりが生成されていることがみて取れます。
髪型を変えたり、年齢を変えたりといったことが簡単にテストすることができるようになり、合成アプリなんかもいろいろ出てき始めています。


GANsによって実現する(かもしれない)ビジネス

主に画像分野におけるGANsの変遷を一通りみてきました。
技術的にはなんかすごそうだなというのは感じていただけたのではないかと思いますが、これを具体的にどのようにビジネスやプロダクトに活用できるのでしょうか。

研究者の間で想定されている応用や、すでに活用されている例などを元に、今後この技術を使って置き換わるであろうビジネスを検討してみます。なかなか大胆な予測も含まれますが、技術の可能性をoptimisticに広げてみるので、スタートアップや新規事業のアイデアの一つ出発点として参考にしていただけると幸いです。

(以下、有料です。9つの大きなトピックについて、参考記事・動画・スライドなどを引用して解説しています。)


ストックフォトビジネスが成り立たなくなる

まず容易に想定できることとして、ストックフォトビジネスは大きな岐路に立たされているのではないかと考えています。

ストックフォトのビジネスモデルは、大量の写真をシチュエーションごとに保存しておいて、ユーザーが必要な画像を販売するといったものです。今現在は解像度にもよりますが、一枚あたり数千円〜数万円するのが普通です。

しかし、自分が欲しいシチュエーションの画像をテキストベースで説明し、それに対応した画像が自動的に複数枚提案されるサービスが実現したら、これまでのフォトストックサービスよりも圧倒的に安価かつ大量の(見方によっては無限の)写真を生成できるようになります。

Googleで検索するのと同じくらいの気軽さで画像を生成できるような世界がそのうち成立するかもしれません。条件を指定するだけで誰でも無限に欲しい画像が手に入ります。


アートビジネスの価値が置き換わる

AIの技術をアートに応用する取り組みも徐々に活発になっています。
アート業界で2018年に大きく話題になったことの一つに、著名なオークションである「クリスティーズ」で、史上初めてAIが描いた肖像画が競り落とされたということがあります。

どこまでを人間が担うとアートなのか?という論点は結構議論が難しく、GANsのように大量に画像を生成できるようになると一枚の画像の価値が薄れると考える人たちもたくさんいます。
一方で、AIが生み出すアートに強烈な印象を抱く層もいるので、今後のアートビジネスはAI活用についてどのようにマーケティングするかという点によっては大きなビジネスになりえます

ちなみにクリスティーズの件はアート業界とは少し違った形で、AI業界でも大きな話題になりました。
実はこのアートの作成に使われたコード(プログラミングのソースコード)は、ある方がフリーで公開していたものをベースにちょっといじっただけではないかとの話があり、こちらの面でも著作権とはそもそもなんなのか、という議論が巻き起こりました。

自動運転の事故の責任を誰が取るのか?といった倫理的問題と合わせて、AIの著作権という面も今後さらに顕著に議論に上がってくると思います。
自動運転の場合で考えると、たとえばトヨタの自動運転車で事故が起こった場合には一体誰が責任を取るのでしょうか?
現状の自動車保険などでは単純に事故後の補償などがうまく適用できないので、既存の保険産業や弁護士などの法律家にも大きな影響が出てきます。

また、絵画だけではなく、サンプルとしてGANsによる音楽生成のデモもあげておきます。
作詞・作曲がAIの曲もいずれオリコンに並んでくるかもしれません。


デザイナーの仕事内容がよりクリエイティブになる

GANsは画像加工などにも威力を発揮します。

これまではフォトショップなどで手作業で画像加工していたものが、画像内でのオブジェクト選択をするだけで特定の物体を綺麗に除去することなどが実現できます。

物体の除去というのは裏を返すと、その物体があった場所を何かしらの形で補完する必要があるということです。これをこれまで人間が頑張ってやってきていたものがAIによって自動化されると予想されます。

こちらはすでにNVIDIAなどがデモを発表しており、プロダクトに組み込まれるのは間近かと思います。
AdobeなんかはAIの分野に非常に力をいれていますから、いずれフォトショップなどの一機能として登場するかもしれません。

また、日本が誇る文化であるアニメ業界においても生成系AIの活用は進みつつあります。

アニメにはキーとなるフレームをいくつか作成し、そこの間の動きを埋める複数の中割りと呼ばれるフレームを作成する作業がありますが、こちらを自動化しようという動きがあります。

こちらはDeNAが開発中の中割り生成AIです。動画のサンプル付きなので、非常にわかりやすいかと思います。

このようなある意味労働集約的な仕事だった部分を、どんどんAIに任せることができるようになると、より本質的なクリエイティブな面を人間が担うことができるようになりますね。


そもそもデザイナー・イラストレーターがいらなくなる

上記の続きですが、こちらはもう少し大胆な予測です。

例えば、本の表紙や小説の挿絵などに使われるイラストを、その本の中身の文章からうまくイメージして生成することができたらどうでしょうか?
また、Tシャツやカバンなどのデザインも全てAIが行うことができるようになったら今のデザイナーの付加価値はいったい何になるのでしょうか?

テキストからの画像生成などはまさにそのような分野ですし、特定の感情やキーワードと組み合わせたイメージ画像の生成などもいずれ実現できるでしょう。
AIによるファッションデザインの分野も研究が進んでおり、こちらの論文などでは以下のようなサンプルが生成されています。

「この文章の情景を表現したい」「この写真をイラスト化したい」「この服をアレンジしたい」などの設定をするだけで、うまくそのシーンにあったイラストやデザインを生成してくれるようになったら、AIイラストレーター・デザイナーのみが所属するデザイン製作会社なども誕生するかもしれませんね。


AIの学習に、大量のデータが必要なくなる(データ量がAI導入のハードルではなくなる)

これは単独でのビジネスというわけではないですが、GANsが及ぼす大きな影響の一つです。

これまで、AIの導入の大きなハードルの一つになっていたのが、学習データとして意味のあるデータを大量に持つことであるというのは多くの方がご存知かと思います。ディープラーニングの学習では、大量のパターンを学習することで、汎用的な特徴量を抽出するプロセスが不可欠なのです。

最近のディープラーニング研究では、なるべく少ないデータ量でモデルをうまく学習させるための研究も進んできてはいるのですが、そもそもGANsをつかって少量のデータから、似たようなデータを大量かつ簡易に生成すればいい、というアプローチも考えられます。

これはすでに実用化されている例もいくつか報告されており、例えば「手書き文字認識」のOCRサービスを提供している企業が、大量の手書き文字をGANsによって生成することで、異なる筆跡で同じ文字の画像を大量に生成することで、学習データ量を増やすといったことを行なっています。

これはAI活用を考えているスタートアップや中小企業にとっても重要なポイントで、GAFAや中国勢などに代表される企業の、「大量のデータを持っていること」という優位性が大きく揺らぐ可能性があります。

前述したようにGANsの実装やトレーニングはまだまだ難しく、安定した成果を出すには時間がかかるのですが、この擬似データを大量に生み出すための仕組みをビジネス化することもできるかもしれません。


映画・動画業界で加工パターンを大量かつ簡単に試せるようになる

GANsの応用は画像だけではなく動画にも及びます。
動画の事前のフレーム(1枚画像 or 複数枚の画像)を元に、そのフレームの続きを予測し、画像を生成することによって動画を作り上げます。

以下のリンクでサンプルを確認することができます。

現状の精度はまだまだですが、こちらも画像生成の分野と同じくらいの研究リソースが注がれることによって驚きの結果を生み出す可能性があります。

また、テキストからの画像生成のような形で、大まかなプロットをベースにして映画や動画を丸々生成してしまうといったこともいずれ起こるかもしれません。非常にチャレンジングですが、小説の映画化なども全て自動化されることもいずれはありそうです。(もっとも、脚本ベースで内容が異なることなどはたくさんあるでしょうが)

実際の作品として出すクオリティには届かなかったとしても、ある程度の精度が出れば、映画や動画の作成プロセスは大幅に効率化されます。
これまで絵コンテのような形でプロットを作っていたものが、台本を作成するだけで大体のシーンを目に見える形でイメージできるようになれば、何本も並行して作品のストーリーを検討することができるようになります。


過去の動画像データを全て簡単にリマスタリングできるようになる

画像データを高解像度化する「超解像」と呼ばれる分野があります。こちらはそもそも技術的な分野としては長年研究されてきたものですが、近年のディープラーニングの発展により飛躍的に成果を出し始めている研究の一つです。
この分野にも、GANsを応用することによって、より現実的な見た目に近い、綺麗な画像を生成することが可能になってきています。

ディープラーニングベースの超解像の最新の成果をみてみてください。

この技術により、例えば昔の人気の映画やテレビ番組を高解像度かつノイズ除去も行なってリマスタリングを行うことで、DVD化や再放送などで付加価値をつけることができるようになるかもしれません。

また、この超解像技術のキモは、少ないデータ量で大量のデータを表現することができることにあります。
たとえば、インターネットから取得する画像や動画のデータは低解像度(少ないデータ量)にしておいて、パソコンやスマホ上でこの高解像度化技術を働かせることによって、データ転送量の大幅な削減を見込むことができます。
画像や動画の圧縮技術は長年研究されている分野ですが、ここにもディープラーニングによるブレイクスルーが期待できそうです。


フェイクニュースを見分けるビジネスが成立する

日本でも少しずつ話題に上るようになってきていますが、特に欧米のメディアやSNSではフェイクニュースは大きな問題になっています。

すでに述べたように、GANsはフェイクニュースをテキストベースではなく、画像・動画ベースで作成してしまう力を持っているために悪用されるとこれまでの嘘記事とは比べ物にならないほどの影響力を持つ可能性があります。

特にアメリカなどではTwitterなどのSNSでの政治的発言をベースに政権の勢力が大きく動くこともあるので、この技術を悪用することで世界を動かすことさえできてしまうわけです。これはテロリストなどにとっても好都合なツールなのです。

そのため、SNSやメディアなどを運営する会社は、自社サービスの規律を管理するために、そういった動画像のフェイクニュースを自動かつ正確に見破るAIが必要になり、新たな産業として生まれてきます。

これはすでに実例もあり、欧米ではフェイクニュースを見破るAIを開発しているスタートアップも存在します。動画を偽物と見破るだけではなく、ファクトと思われるデータソースをまとめる技術なども開発しているようです。


ブロックチェーンとの組み合わせにより、データの信頼性担保を行うプラットフォームができる

AIによる生成系の技術が当たり前になると、SNSやメディアで取り上げられる動画像データの信頼性が一気に揺らぎます。

そのため、上記のようなフェイクニュースを見破るサービスが成立するのですが、そもそもデータの信頼性を担保するための共通規格(or デファクトスタンダード的なサービス)がいずれ現れるかと考えています。

この領域には、AIそれ自体よりも、仮想通貨などで注目を浴びたブロックチェーンが活用されることが考えられます。
ブロックチェーンの有用な応用先の一つとして、これまでコピーし放題だったデジタルデータに唯一性を持たせることができるという点があります。
これをデータソースの担保に利用することで、誰がどのようにこのデータを作成したのかを明確にすることができる可能性があります。

ブロックチェーンはデジタルデータの著作権保護などにも利用されるようになってきているため、おそらくいずれはメディアのニュースや動画像データの信頼性を担保するような刻印を押すプラットフォームがビジネスとして成立するのではないでしょうか。


まとめ

近年のAIブームの中でも次の波とも言われるGANsのビジネス応用について検討してみました。AI研究者の中では、生成系の技術は本当にホットなトピックで、毎年驚くような成果がどんどん更新されています。

一方で、ビジネス応用を見据えた取り組みは少なく、これだけ有望な技術に真剣に取り組んでいる企業はまだまだ少ないです。

海外では一部すでにプロジェクト化されているような事例も見かけますが、特に日本では議論の対象にすらなっていない印象です。こういった最先端の技術をどのように応用できるかを積極的に議論し、少し拙速でも実用化を進めれば大きなビジネスチャンスをつかめると思います。

そして、こういう新規性のある分野こそスタートアップがどんどんチャレンジすべき領域だと思いますが、まだまだ基本的な技術を用いたAI受託でお金を稼いでいる会社も多く、正直なところ日本のAIスタートアップに技術的な面白みはあまりないのが残念です。

今後もこのような最新の技術をご紹介することで、少しでも日本のAIコミュニティに貢献できると嬉しいです。

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

12
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。