【翻訳記事】The Future of Augmented Reality Will Be Boring

2018年7月30日 19:32

はじめまして、GraffityというARのスタートアップで働いている、しょーた（@shota_mapo）です。
普段は会社のUS展開を担当したり、ユーザーヒアリングを行ったりと、社内の何でも屋として活動しています。

今回は、MediumでARについての素晴らしい記事を見つけたので、こちらの翻訳版を公開したいと思います。
初翻訳なので、色々とお見苦しいところがあるかもしれないですが、ご容赦ください。（尚、記事の作者様にはメールにて許可をもらっております。）

ARの未来は退屈なものになるだろう

最近、多くの人々が「AR（拡張現実）」と呼ばれるものに熱狂しているように見えます。Twitterでは非常に多くの素晴らしいデモが発表されています。Facebookは独自のARカメラプラットフォームを発足しました。AppleはARのデベロッパーキットを持ち、iPhoneXのイベントではARを活用したゲームのデモを披露しました。GoogleもAR coreと数多くの実証実験を発表しています。Magic Leapは未だ秘密主義的ではありますが、デモ動画はリリースされています。さらに、Snapchatの「ダンシングホットドッグ」は世界初のARスーパースターと言えるでしょう。

この記事では「AR（拡張現実）」の定義をスマートフォンのカメラを使って、写真や動画を撮る以外にできることとして扱います。

－

最近見かけるほとんどのARデモは、オブジェクト・キャラクター・フィルターなどの効果を、周囲の環境に対してスーパーインポーズ（訳者注：「複数のものを重ね合わせる」という意味の英語。映像に画像や文字を合成する技術）するものです。大半がスマートフォンのカメラを通してモノを描く形で実現されていますが、一部にはhololensやMagic Leapなどのヘッドセットを使うものも存在しています。

これらの「スーパーインポーズ系のデモ」達はあなたに「これまで不可能だったこと」を見せてくれるため、イケていて、シェアされやすいです。「現実の世界」ではマリオカートが道路を走ったり、ホットドックがデスクの上でブレイクダンスを踊ったりすることはないのですから。

このようなタイプのARは「Additive AR（加算的なAR体験）」と呼ばれ、写真や映画の文脈で確立されてきました。ーその理由は、デモ動画によるAR体験が主流であるだけでなく、カメラをどのようなモノとして捉えるかが一世紀前から変わっていないからでしょう。未だに、我々はカメラのことを録画するためのメディアとして考えているのです。初期のカメラは化学薬品に光を当て、フィルムに焼き付けていました。それが動画の録画になり、ついにはデジタル写真と動画になり、今だに進歩し続けています。これらの機能は利用者の周囲にある世界を保存するためのものでした。

Additive ARは写真・動画の延長線上で論理的に考えうる次のステップです。この一連の流れはカラーレンズを使ったフィルターや、特殊効果、偏向板、字幕、デジタルCGI、そして近年ではSnapchatフィルターの延長線上です。Additive ARは、CGIの技術をリアルタイムに、ワンタップで実現できるところまで簡易化しました。あなたのスマホが、カメラを通してAR体験を処理・実現してくれるのです。極限まで短縮されたフィードバックループが、Additive ARが直感的に操作できる理由の一つです。カメラがあなたの代わりにモノを見て、更にモノを追加し、あなたに見せてくれるのです。

加えて、ここ10年で写真もしくは動画を使ったメディアの割合が急激に増加しています。その原因は、Facebook, Instagram, Snapchat, Youtubeといった、写真や動画の共有・消費をあり得ないほどに簡便化したプラットフォームにあるでしょう。これらのメディアはいずれも、スクリーンやカメラの製造コストが下がり続けていることで実現可能になりました。予定調和のように、人々はより多くの写真を撮影するようになってきており、メディアに関わる多くのエグゼクティブ達は「動画へのピボット」が良いアイデアであると考えています。

人々がARを用いて写真や動画を撮影するようになるというのは、既に見えている未来であり、ほぼ確実に起こることでしょう。ARフィルターやキャラクター、スタンプなどを既存の行動に溶け込ませること（インスタフィルターやSnapchatステッカー等）は、最も抵抗なくARコンテンツを見てもらい、知ってもらうための方法です。写真や動画をよりイケてるように見せるツールというのは、最もわかりやすく、実現しやすいARのユースケースだと言えます。（加えて、これらのアプローチは既存のプラットフォームにすぐに取り入れられるでしょう。）

－

私には、退屈でワクワクしないけれど、日々の生活に役立ちそうな活用方法があるだろうという直感があります。私たちはARをただの次世代型写真技術ではなく、コンピューター処理の次世代プラットフォームとして考えているのです。ARは、これまでのコンピューター処理が培ってきた伝統と実践を現実の世界やモノに対して最速で適用する技術になりうるのです。（ここでは、コンピューターテクノロジーという言葉を私の父が考えているような概念として扱います。技術とインターネットを用いて、それまではできなかった便利なことを実現するといった意味です。例えば、ミリ秒単位で海を越えた写真共有を可能にしたり、自動で打ち間違えを直してくれたりすることもコンピューター処理に当てはまります。）

Additive ARはすでに実現可能なのは、カメラが見ているものが何なのか、自分で判断できるくらい賢く（あるいはそれらしく）なったからです。基本的なレベルでも、床、壁、角を判別することができます。さらに、一部のカメラアプリは本や靴、車などを見分けることができます。将来的にはほとんどのモノや場所、あるいは状況すら理解できるようになるでしょう。
もし、あなたが既存の実現不可能なAdditive ARを軽視し、カメラが認識するものに集中したらどうなるでしょうか？「テーブルを認識して、その上にマインクラフトのマップを表示する」ではなくテーブルを認識すところだけに特化するのです。

テーブルがテーブルであることを理解するのにAR技術は不要です。また、カメラがテーブルを認識することは、カメラにとっては大した意味を持たないでしょう。最大のチャンスは、カメラによって認識されたテーブルが、コンピューター処理とネットワークへのアクセスを手に入れた状態になるということです。カメラが「テーブル」を認識していて、携帯がネットに接続されているということは、そのテーブル自体がネットに繋がった状態だと言えるでしょう。カメラはアプリ/インターネットとテーブル、本、ソファーなどのモノを繋ぐためのハブとしての役割を持つのです。テーブルを撮った写真や動画は、プロセスの結果になります。あなたがするのは、写真を撮るというより、（Webでしているような）テーブルをクリックする動作に近くなるのです。

では、テーブルや本、リビングがコンピューター処理に接続されると何が起きるのでしょうか？何が面白いんでしょう？モノや場所、状況に対してカメラを向けたとき、何が起きるのでしょうか？予測するには賢さが足りないが、他のカテゴリでネットワークへのアクセスを獲得したモノについて見ることはできます。スピーカーがネットワークに接続されると、私達に話しかけ、話を聞き、職場に出発する時間を教えてくれます。Uber/Lyftによって車がネットワークに接続されたことで、全ての交通産業自体が数年で変わりました。Airbnbが家をネットワークに接続すると、世界中のどこにでも、泊まることができるようになりました。FacebookやInstagramによって友達がネットワークに接続されると、コミュニケーションのやり方自体が、一晩で大きく変わりました。（もう若者達は外に出なくなったでしょ？）

あなたのテーブルがネットワークにアクセスすると、もしかしたらテーブルが夕食を注文してくれるかもしれません、もしかしたらテーブル自身が他のテーブルと自分を比較するかもしれません、場合によってはテーブル自身が自分を売りに出すかもしれません。携帯をオーブンやランプに向けると、その状況で取れる全ての行動にアクセスできるようになります。このレシピはこのオーブンでできるだろうか？もし電球を交換したらどれくらい節約できるだろう？このように、ARはコンピューター処理を使った便利な機能を身近な環境で想像できる技術です。

すでに一部の人々は「物体認識→コンピューター処理→結果の表示」からなるモデルの実証実験に取り組んでいます。Brad DwyerのMagic Sudokuは数独パズルを認識して自動的に解いてくれるアプリです。Judith AmoresとAnna Fuste’sのPaper Cubesは特定のモノを認識し、それを中心として少人数でカメラによるインタラクティブな体験ができます。

「物体認識→コンピューター処理→結果の表示」モデルを一般化するには大きな課題が一つ存在します。ほとんどのケースにおいて、コンピュータープログラムは処理したいモノのカテゴリー毎（文字・歌・写真・友人など）に制作されるので、それぞれに対して手動でアクションと情報、どんなことができるかを作り上げる必要があります。写真をコンピューター上で使えるようにするためには、写真編集アプリを作る必要があります。GPSで携帯がどこにあったかを知るためには、マッピングアプリを作る必要があります。

しかし、もしカメラがモノの認識精度をどんどん向上させていくと、将来的にはコンピューター上で高速に動作する新たな機能が必要になります。そのようなプログラムを、携帯が認識する全てのオブジェクトのカテゴリーで制作することはできるのでしょうか？仮にできたとしても、あなたがカテゴリー毎に異なるアプリをダウンロードすることはないでしょう。

－

ARが（簡単かつ便利で）広範なコンピュータープラットフォームとして機能し、複数のイケてるアプリ群にならないためには、多くの要素が揃う必要があります。特に、文脈理解と探索が乗り越えるべき最大のハードルになりそうです。あなたはそれぞれの文脈やモノ毎に異なるARアプリを探したくはないでしょう。というのも文脈はモノの種類は多すぎてキリがない上に、そのそれぞれにARアプリが存在しているかどうかも分からないのですから。あなたがやりたいことは、携帯を何かに向けるだけでモノの文脈に基づいたアクションの提案を受け取ることでしょう。これを実現するためには携帯は何を理解する必要があるのでしょうか？

1. 物体認識（Object-recognition）
あなたの携帯が見ているものが何か理解できる必要があります。この分野ではここ数年で大きな進歩が起きています。そして市場のビッグプレイヤー達は常にこの技術の改善に取り組んでいます。

2. マクロ的な位置情報の理解（Global context）
あなたの携帯がどこにいるのかを理解できる必要があります。（幸運なことに、GPSが登場してしばらく経っています。）バカンス先とあなたの故郷では、必要となる情報は異なってくるでしょう。

3. ミクロ的な位置情報の理解（Local context）
あなたの携帯が、ローカル上のどこにいるのかを理解できる必要があります。そうすることでインタラクトする全ての人に一貫性のある情報を提供することができます。

4. 個人の状況理解（Personal signals）
私の携帯は、私が最近引っ越したことを知っている必要があります。それによって、私がTarget（訳者注：アメリカのスーパーマーケットチェーン）でソファーにカメラを向けている理由を携帯が理解できるからです。個人の状況を理解することで、携帯から受ける提案を「なんでも知りたいでしょう？」から「あなたは何処へでも自転車で移動するし、この自転車に興味を持っているんじゃないですか？」というように具体化することができるようになります。

（ちなみに、これらの情報を1デバイスもしくは1企業が独占的に保持するようになるのは、壊滅的なディストピア世界への一歩だと思っています。このテーマについてはまた別の機会にお話ししましょう。）

－

技術的なハードルを除いて考えたとき、ARコンピューティングプラットフォームは有用でしょうか？人々が周囲のモノをコンピューター制御できる世界では何が得られるでしょうか？私にはわかりません。しかし、全てのカテゴリーのモノがコンピューター処理へのアクセスを手に入れるとき、アプリケーションの可能性は加速度的に増加するでしょう。

GPSとカメラが同じデバイスに載ることで、素晴らしい良いデーティングアプリを作り出せるということに我々が気づくには、5年かかりました。もしあなたの携帯があなたの周囲の世界を知っているとして、私たちが想像できていないアプリにはどのようなものがあるでしょう？コーヒーカップ用のTinderはどんなものでしょうか？もし冷蔵庫や魚をクリックしたら何が起こるでしょうか？もしARが今まで通りの退屈なコンピューター体験と同じようなモノになってしまったらどうなるでしょうか？未来がどうなるかはわかりませんが、私にとっては、少なくとも踊るホットドックを携帯に加えることよりははるかに興奮できる世界です。

最後に、素晴らしいフィードバックをくれたPrit Patel, Amit Pitaru, Heather Luipold, Ryan Harms と Teo Soaresに感謝を。

この記事が気に入ったらサポートをしてみませんか？