見出し画像

データを生成するアルゴリズム ~webの新たな住人について~

これまでSNS上のデータは人間に由来するものがほとんどであった。
特に画像や動画については、写真、絵、スマートフォンで撮影した映像など、人が作り出したものがほとんどだ。
しかしながら、将来についてもそうであり続ける保証はない。なにせ、今やコンピュータは高品質な画像生成、音声生成すら可能だからだ。
契機になったのはGAN (generative adversarial networks) という技術で、特にここ2年の進歩は著しい。
今日は現在の技術水準を理解して頂くため、そのうちの幾つかの例を紹介したい。

画像生成

深層学習はここ数年、画像認識の分野で爆発的に注目を浴びるようになった。
画像データは我々がwebにアクセスする上で極めて重要なデータであるが、長らく機械にとって扱いやすいデータではなかった。いわば、webデータにおける聖域であった。
しかし、今や画像データは深層学習によって人間以上にうまく扱うことができる。更には、今度はその仕組を逆に使って生成が可能になったのだ。

上記の記事で挙げられている画像は、まさに本物と見紛うレベルだ。
画像生成におけるGANの技術進展の速度は凄まじく、半年もすれば既存のものより高性能なアルゴリズムが生み出される。
今はまだ専門知識のある人間でないと取り扱うのが難しいが、誰もが簡単に扱えるようになる時代はすぐ目の前に来ていると言っていいだろう。
その時、web上の画像の何割が機械によって生成された画像になるのだろうか。SNS上には現実のものとしか思えない架空の人物が映った写真が溢れるかもしれない。

音声変換

上記の記事は機械学習による音声変換アルゴリズムを紹介している。
従来の技術でもボイスチェンジャーで結果的に同じことは再現できる。しかしながら、ボイスチェンジャーで自然な音声を生み出すのは難しく、高度なノウハウを必要とする。
機械学習の最大の長所は、変換に必要なパラメータをソフトウェアが学習することだ。つまり、目的の声があって、ソフトウェアにあなたの声を大量に吹き込めば、ソフトウェアがパラメータを自動決定してくれる。

また、原理的には一律のピッチ調整よりも複雑な変換が可能だ。
従来手法ではできなかった声をつくることも可能になりうる。

その他の分野

テキストについては、GANの適用は画像に比べると一歩遅れている印象がある。
これは、テキストの時系列性や、離散的なデータであるといった性質から、ニューラルネットワークでの扱いがより難しくなるためだ。

とは言え、小説の本文を入力としてあらすじを生成したり、会話の応答文を生成するような研究も着実に成果を積み重ねている(現状のLINE botは、応答文を自分で生み出すのではなく、定型文に一部単語を差し替える程度であり、根本的に仕組みが異なる)。
プログラマの手を離れて自由に文章を綴るようなソフトウェアが生まれる日もそれほど遠くはないかもしれない。


今回はGANという技術を中心に、アルゴリズムによるデータ生成について紹介した。
データ生成はSNSを始め、web全体に大きな影響を与える可能性がある技術だ。
法的な扱いについても議論すべき点がある。たとえば、アルゴリズムの生成物は著作物ではないとするならば、GANによって生み出された画像は誰がどう利用するのが適正なのか?
この分野は筆舌に尽くし難い速度で進展しており、私が想像しているよりも早く社会に浸透するかもしれない。
この記事を見て興味が湧いたら、Googleの検索ウィンドウに「GAN」と他に気になる単語を入れてみるとよい(「GAN ポケモン」などだ)。
一歩先に未来を覗く気分を味わえることだろう。

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

ありがとうございます。宜しければフォローお願いします
29

センリ

研究者、カジュアルゲーマー。ご意見・ご質問などあればお気軽に連絡下さい。

drsenri's tech lab

人工知能、データサイエンスを中心としたテクノロジーの話題について書きます
2つ のマガジンに含まれています
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。