3499ドルの価値はある？Apple Vision Proがもたらす未来型体験

2024年2月20日 21:20

2024年1月19日の夜、AppleはヘッドマウントデバイスVision Proの予約販売を開始しました。価格は3499ドルから3899ドルで、約25万円から28万円に相当します。しかし、サーバーが開始から5分でダウンし、さらに10分後には完売と表示されました。

今回の記事では、この高級デバイスについて技術的な紹介をします。

名はVision Pro

まず、VR（仮想現実）とMR（混合現実）のどちらと呼ぶべきかですが、実際にはこれらの機能を両方備えているため、そのオリジナル名であるVision Proと呼ぶのが最も適切です。

Vision Pro体験は、ユーザーにとって全く新しい次元を提供します。Vision Proを装着して電源を入れない場合、見えるのは真っ暗な画面で、黒いアイマスクをしているのと同じです。電源を入れると周囲の環境が見えます。見える景色はVision Proを外した時と大差ないように感じますが、実際にはVision Proに搭載された12台のカメラが捉えた映像が超高解像度の画面上に表示されています。捉えて処理する過程があるため、シーンはリアルですが、約12msの遅延があります。

Vision Proのすべてのアプリケーションは、リアルタイムで捕捉された3Dの実際のシーンを背景にしており、この立体空間内で様々な仮想ウィンドウやアプリケーションが表示されます。ほとんどの場合、iOSシステムとアプリケーションが空中に浮かんで操作できるように感じます。

Vision Pro体験により、従来のディスプレイとは一線を画す使用体験を提供します。例えば、15個の株に注目している場合、以前は15の画面とスタンドを購入し、テーブルに満たなければなりませんでしたが、Vision Proを使用すると、これらの画面が視界内に設置され、解像度、明るさ、彩度が実際のモニターと非常に似ており、さらに分散させることができます。例えば、天井に3つ掛けることは、現実では不可能です。

フルスクリーンアプリケーションの体験も可能です。この場合、実際のシーンはフルスクリーンアプリに完全に遮られます。しかし、「フルスクリーン」という言葉を使用すべきではありません。以前の概念では、フルスクリーンとは一つのウィンドウがディスプレイ全体を占めることを意味していましたが、現在のフルスクリーンは全視野、あるいはあなたの視覚世界全体を意味します。そのため、Vision Proでフルスクリーンになると、新しい世界に入ったような感覚になります。この世界の情報は3Dです。

Vision Pro体験は、ユーザーに対して没入感のある環境を提供し、現実世界と仮想世界の境界を曖昧にします。例えば、いくつかの瞑想アプリはフルスクリーンで動作し、下を向くと瞑想用の座布団が、周囲を見ると静かな森や遠くへ流れる川が見えます。視覚が我々の情報の90%を提供するため、Vision Proのフルスクリーンはほぼ瞬間移動の効果です。例えば、オフィスから海底、ジュラ紀の大陸、砂漠、または廃墟へ瞬間移動します。

Vision Pro体験を通じて、ユーザーは日常生活では体験できないような環境に身を置くことができます。このようにリアルな仮想環境も、Appleのソフトウェア標準化の成果です。これについては後ほど詳しく説明します。

称賛すべきVision Proのハードウェア

最も驚くべき部品は画面

画面はソニー製で、左右の目にそれぞれ一枚ずつあり、解像度は3660×3200で、それぞれ1150万ピクセルがあります。標準の4K解像度（3840×2160）は約830万ピクセルです。したがって、Vision Proの画面は実質的に5Kの画面2枚分に相当します。通常の4K画面は少なくとも70cmの対角線サイズが必要ですが、Vision Proの画面の対角線サイズはわずか2.8cmで、そのためピクセル密度が非常に高いです。

どれほど高密度かというと、iPhone 15 Pro MAXの画面に1つのピクセルがあれば、その中に54個のVision Proのピクセルを詰め込むことができます。単一のピクセルの幅はわずか7.5マイクロメートルで、平均的な赤血球のサイズ7.2マイクロメートルと似ています。

Vision Pro体験の鮮明さと細部の再現性は、その高密度の画面によって支えられています。PPIでピクセル密度を計算すると、Vision Proは3386PPIで、同じくVRデバイスのフラグシップモデルであるHTC Vive Proが950、Oculus Quest3が1218で、Vision Proの約三分の一です。

これらのVRデバイスのディスプレイもその時代の極致を代表していましたが、わずか一、二年の間に、Appleはその基準を数倍に引き上げました。

重役のセンサー

Vision Proのセンサーが特に驚くべき指標を持っているわけではありませんが、今回Vision Proに使用されたセンサーは、以前にiPhone、iPadに使用されたものです。例えば、iPhone 12から導入されたLIDARは、微光や暗光下で写真撮影の対象物の距離を特定し、より良いフォーカス効果を得るために使用されました。その後、このLIDARカメラは光学カメラと協力して、一部のモデリング機能を完成させるために使用されました。例えば、AppleのヘッドフォンAirPodsを使用する際、最初にFaceID機能で耳をスキャンし、カスタマイズされた空間オーディオを提供するための耳の3Dモデルを生成します。

Vision Pro体験のリアリズムと精度は、これらのセンサー技術によっても大きく向上しています。Vision Proに使用されるLIDARは、マスク内の表情の変化を監視し、必要に応じて、あなたに非常に似た、動的でリアルタイムの表情を持つカートゥーンのアバターをPersona機能でレンダリングするために使用されます。このアバターは、ビデオ会議やチャットで使用することができます。

センサーのもう一つの巧妙な使用法は加速度センサーです。

Vision Proを使用する際、フルスクリーンでない場合、多くのウィンドウが視野に表示されます。これらのウィンドウの追従モードは異なります。一部はスクリーン投影のように、頭の位置の変化や移動に伴って変化します。このような追従モードには特に困難はなく、加速度センサーの支援さえ必要ありません。しかし、別のタイプのウィンドウの表示は、実際の世界に固定されているかのように追従します。

例として、Vision Proを着用して歩行ナビゲーションを開始することができます。通常、この地図は先ほど述べたスクリーン投影の方法であなたを追従すれば十分です。どのように歩くかわからないときは、目を上げて見ればわかります。

しかし、別のモードに設定すると、この地図はあなたが歩くときには追従しません。立ち止まっているときは、地図が斜め上にあり、スクリーン投影と変わらないように見えます。しかし、歩き始めると、地図は実際の世界で木に結ばれた凧のように、元の場所に留まり、あなたと共に移動しません。遠くに歩くほど、この仮想地図から遠ざかります。この問題に気づいたときは、振り返って走り戻り、何かをつまむ手の動作で地図を拾い上げ、手に持って地図を持って歩くしかありません。

実際の世界でほかの人がこれを見ると、不思議に思うでしょう。彼には、分厚いスキーゴーグルをかけた人が歩いていて、突然振り返って走り戻り、空中で何かをつまむ動作をして、それを手に持って前に進む姿が見えますが、彼にはその人が何を持っているのかわかりません。

Vision Pro体験を介して提供される、このような革新的なインタラクションは、従来のAR、VR、MRデバイスでは体験できなかったものです。似たようなアプリケーションには仮想的な犬の散歩もあります。もちろん、犬だけでなく、さまざまな奇妙な生物を散歩させることもできます。

これには、表示内容と加速度センサーが密接に連携し、仮想物体と実物体のシームレスなインタラクション効果を実現する必要があります。さもなければ、仮想物の位置が不正確になったり、異常な振動が発生することがあります。これらはすべて、加速度センサーの操作に豊富な経験が必要です。

AppleはiPhone、Apple Watchの転倒検出、AppleのスピーカーHomePodの移動検出、空間オーディオの校正機能、Appleのヘッドフォンのいくつかの異なるタップコマンドで、加速度センサーの使用を十分に検証しました。

Vision Pro体験において、これらの技術が組み合わされることで、ユーザーは現実世界とは異なる、全く新しい方法でインタラクションを楽しむことができます。Vision Proは仮想出来事を実際の映像に組み込み、そのようにリアルなインタラクションを可能にしますが、これはセンサーに頼るのではなく、最先端のデータ分析技術によるものです。この方法は驚くべきものであり、ハードウェア指標の大幅な向上に依存しないため、他の競合製品が最初に追いつく可能性のある部分です。

3D写真・ビデオの時代

Appleは上記のハードウェアの面で非常に優れた性能を発揮しており、新しいファイル形式、すなわちVision Proの空間画像と空間ビデオ形式であるUSDZを開拓することができました。Vision Proで撮影された3D写真は、実際にはその瞬間の3D全景記録です。

2050年になって、私たちが老いたとき、第一世代のVision Proで撮影された写真を見返すと、もし3Dヘッドマウントディスプレイで見るなら、26年前にその場に立っていた位置の前後左右上下を完全に再現することができます。過去の一幕を回想するというよりは、26年前にタイムスリップするようなものですが、その3D世界は静的です。

Vision Pro体験は、将来に向けて価値ある記憶の保存にも革命をもたらします。当時記録されたのが動的なビデオであれば、まるで26年前の記憶にタイムスリップしたかのようです。

私たちは今、2000年の写真を手にしていても、豊かな記憶を頼りにある程度の臨場感を得ることができますが、それにはかなりの想像力が必要です。しかし、2050年にVision Proで撮影された3D写真を見るときは、想像力は一切必要ありません。あなたは100%の臨場感を持ってその場にいるのです。

Vision Pro体験を通して得られる3D記録は、私たちが過去を体験する方法を根本から変えるでしょう。もちろん、これには避けられない問題が多くあります。例えば、データ量が大きすぎる、計算能力が不足している、ストレージスペースが不足しているなどです。しかし、Appleは実際にはそれほど驚くべきパラメータを持たないいくつかのカメラで撮影された景色を組み合わせて3Dシーンを作り出しています。将来、この分野での最適化はさらに進むでしょう。例えば、ハードウェアが向上しない状況で、AIアルゴリズムを使用して解像度と詳細を空から引き上げるなどです。

欠点はまだまだある

これがVision Proの先進的な部分です。次に、その欠点について話しましょう。

まず、弱い光の下でのジェスチャー認識が不正確です。

光が特に弱い場合、例えば夜の車内では、認識されないことがあります。Vision Pro体験において、技術的な限界も存在しますが、これらは将来の改善に向けた重要な課題となります。

次に、ジェスチャーの認識が周囲の人の手の干渉を受けやすいです。

例えば、2人が並んで座り、同時にVision Proを使用して手のジェスチャーで操作する場合、一方の手がもう一方のカメラの視野に入ると、他方の操作が干渉されます。

また、現在の鼻より下の部分のシーン再現能力が不足しています。

最も典型的な例は、Vision Proを着用してラーメンを食べる場合、麺、箸、ボウルが見えない可能性があります。Vision Pro体験におけるこれらの課題は、ユーザー体験のさらなる向上に向けたフィードバックとして重要です。

もう一つの欠点は、先ほど賞賛したパラメータが非常に高い画面です。なぜ欠点かというと、実際にはこのパラメータがまだ十分に高くないからです。

画面が細かく見えるかどうかの最も重要な指標は、面積あたりのピクセル数（PPI）でも、ピクセルの幅でもなく、角度あたりのピクセル数です。これは画面の細かさを非常によく反映しています。

例えば、30cmの距離でiPhone 15 Pro Maxを見ると、1°の視角で何ピクセルを含むでしょうか？94ピクセルです。2mの距離で65インチの4Kスクリーンを見ると、1°の視角で何ピクセルを含むでしょうか？95ピクセルです。したがって、これら2つの用途で感じる画面の細かさは実際にはほとんど変わりません。しかし、実際には、iPhone 15 Pro Maxのピクセル密度は460PPIで、65インチの4Kスクリーンは68PPIで、7倍以上の差があります。

しかし、Vision Proを装着した後、1°の視角で横切るピクセルはいくつでしょうか？わずか34ピクセルです。つまり、Vision Pro体験における画面の精細さは、現在の技術ではまだ完全なリアリティを実現するには至っていません。細かさは我々が通常使用する高解像度スクリーン装置の1/3に過ぎません。

その理由は、目から非常に近いためです。1°の角度で延長しても、数センチメートルで画面にぶつかります。そのため、ピクセルが赤血球ほど小さくても、十分に細かくありません。

ただし、この粗さは驚異的な3D体験の下で人の感覚によって無視されます。しかし、この視野内に複数の浮かぶサブスクリーンを設置した場合、スクリーン内に表示されるものは粗く感じられるでしょう。

Vision Pro体験は、技術の進歩とともに、これらの問題を解決し、よりリアルな仮想体験を提供する可能性を秘めています。Vision Proのピクセル密度が今日の10倍になったとき、真偽が区別できない世界が始まります。

この記事が気に入ったらサポートをしてみませんか？