機械に話しかけられない日本人～音声AIと人間のギャップ～

2018年5月15日 20:35

　この記事『「OK、Google!」って言えない……』によると、日本に『「ＯＫ、Ｇｏｏｇｌｅ」って言えない族』なる種族が増殖中だといいます。AIスピーカーなど、増えつつある音声入力デバイスに抵抗を感じる人が想像以上に多いようなのです。記事中のデータでは、「人前での音声検索を恥ずかしいと感じている日本人は男性で68％、女性は75％。自宅で周囲に人がいない状態でも、音声操作をしたいと思わない人は60％もいた」とのこと。元来人間にとって最も自然なインタラクションであるはずの音声によるUI（ユーザーインターフェース）が、なぜ拒絶反応を起こしてしまうのでしょうか？

　実は、この問題は、単に「嫌ならAIスピーカーを使わなきゃいいでしょ」では済まされない、とても重要な課題です。何故なら、日本はいざ知らず、今、世界的には、ITビックによる音声AIのエコシステムが構築されつつあることから、目を背けることはできないからです。

最近ではカメラまで備えるようになってきたスマートスピーカーは、消費者を見える化し、消費オケージョン（場面と状況）に関するデータを蓄積します。スマートスピーカーのハンズフリーなUX（ユーザーエクスペリエンス）は、ストレスレス故に習慣性があり、その分データの蓄積が早まります。人間に自然なインタラクションである音声インターフェースが、人間とAIを親和させ、膨大なデータが収集されるようになるのです。

このようにして収集されたデータの活用（レコメンドなど）は、API（アプリケーションプログラミングインターフェース）によって行われるのが最大の特徴です。APIなので、外部企業は、自身に特化したソフトウェアをプラットフォーマーのソフトウェアに埋め込む事ができます。その効果は絶大で、外部企業は、時間とコストを大幅に圧縮して、効率的にサービスを開発できるため、どんどん多様なサービスが開発され、スマートスピーカーは、どんどん便利になっていく……。外部企業にとっては、自身のサービスをプラットフォーマーの経済圏で運用するリターンは大きいので、この流れはどんどん加速して、プラットフォーマーのAIを中心としたAI経済圏ができるのです。

このような潮流から取り残されることは、SNSの時同様にプラットフォーマーのデータ寡占に甘んずることであり、また、世界市場で日本の商品（モノ・サービス）がシェアを維持できなくなる恐れすらあるのです。論より証拠、日経電子版に載っていたＧｆＫの調査では（この投稿の末尾にその記事を添付します）、スマート家電に対する期待度は、日本がわずか19％なのに対して、世界平均は50％程あります。

　しかし、この状況は、考えようによっては、日本企業にとっての優位性ともなります。音声UIに拒絶反応のある日本においてこれを普及させられたなら、ユーザーにとっての音声UIの敷居を下げることができたなら、ユーザーインターフェースのあり方が、人間にとって最も自然なインタラクションである音声による会話を使った音声UIへとパラダイムシフトを起こしている現在、一歩先を行くことを意味するのです。

そこで、まず、音声UIが、従来のGUI（グラフィカル・ユーザー・インターフェース）より優れている点を整理してみます――

①　GUIでのコマンドは、まず、その使い方を学び、そして、その使い方を覚えておく必要があります。音声UIであれば、自然に会話するようにコマンドするだけです。使い方を覚える必要はありません。やって欲しい事を言葉で伝えるだけなのです。②　GUIによる視覚的なインタラクションと違い、機械と会話するように接することができる音声UIは、とても自然な感覚をもたらします。いかにも機械を操作しているという感覚はなくなります。③　音声UIでのコマンドが進化すると、もはや細かい設定が不要となります。例えば調理ロボットが実現すれば、温度・火力・時間などいちいちその都度設定しなくても、「〇〇作って」で、後はAIが対処してくれます。音声UIは、単に音声認識・自然言語処理と繋がっているだけではなく、将来的にはあらゆる場面でAIによって自動化される機械のためのインターフェースなのです。音声UIとAI自動化は、切っても切れない関係にあると考えられます。④　③とも関連しますが、音声UIだと、いちいちアプリを起動するする必要もありません。問題は、その音声UIに何ができるか、だけです。GUIだとアプリのアイコンが見えますが、音声UIには一覧性がないので、その点は何らかの形でクリアする必要があります。うっかりスペックを忘れてその音声UIに出来ないことをコマンドしてしまい、いらいらしないで済むシステムが必要です（単純に「それは出来ません」と答えてくれるだけで良いかも）。⑤　音声UIは、『ながら操作』に最適なインターフェースです。何かをしながらでも、離れたところから、声を発するだけでコマンドできます。デバイスに触れたり、手に持つ必要がないのです。

こうして見ると、音声UIは、数々のメリットのあるインターフェースで、何故これが拒絶されるのかますます分からなくなりそうです。記事などから、人が音声UIを敬遠する理由を列挙してみると――

①　（気取った感じが）恥ずかしい。②　無視された（音声AIが反応してくれなかった）。③　雑音があると伝わらない。④　発音が悪いと伝わらないのではないか？⑤　機械相手にしゃべるのは虚しい。⑥　一人でしゃべりかけている自分がキモい。⑦　日本人は人前で話すのが苦手。⑧　音声コマンドでしゃべり続けると声が疲れる。⑨　周囲の人に聞かれたくない。⑩　音声AIはクラウドベースなので、プライバシーが気になる。

まだまだありそうですが、これらは、いくつかのポイントに整理できそうです。

（1）音声AIの聞き取り能力⇐②③④（2）機械と会話することへの抵抗⇐⑤⑥（3）羞恥心⇐①⑦（4）プライバシー⇐⑨⑩（5）しゃべる方が疲れる⇐⑧

ここから直ちに分かる事は、人が音声UIを敬遠する理由は、先に挙げた音声UIのメリットを直接否定するものではないという事です。音声UIのメリットに反作用があって、それが敬遠する理由になっているのではなさそうです。してみると、企業としてまず大切なことは、音声UIがいかに便利であるか、音声UIの実現してくれるUXをしっかりユーザーにアピールする必要があります。

　音声UIの最大のUXは、何と言っても、それが機械（操作）が苦手な人への福音だという点です。自然に会話するようにコマンドするだけですから、この点は絶対受けると思います。『言うは易し行うは難し』という格言がありますが、音声UIでは、『行うは難し』事はAIが処理してくれます。格言とは真逆の意味で『言うは易し』なのです。

『（1）音声AIの聞き取り能力』については、AIの学習と精度の向上が欠かせませんが、技術的な問題なので解決可能です。

『（4）プライバシー』については、まず、周囲の人の耳が気になる点は、ある程度小さな声でもAIが認識できる指向性センサー、コストダウンして部屋にいくつかAIスピーカーを設置する、あるいは、部屋全体がAIスピーカーシステムとなってどこにいても小さな声で話しかけられるような技術が考えられます。

次に、AIがクラウドベースである点は、しっかりとしたプライバシーポリシー、データ保護の仕組みが不可欠です。

『（5）しゃべる方が疲れる』、これは手の打ちようがないかも知れません。全てが音声UIになってしまうのではなく、最低限のGUIは残した方が良さそうです。

『（3）羞恥心』については、ウェイクワードなどで気取った言葉で話しかける必要がない、小さな声でも認識してくれる等々、細やかにユーザーに寄り添う必要がありそうです。ある程度は慣れの問題だと思いますが、ユーザーに対して「慣れてよ」と言ってはいけない。むしろ、『慣れる』ようなUXを提供できるかがカギです。

最後に『（2）機械と会話することへの抵抗』については、音声AIを擬人化するのが手です。そうすることによって、機械の苦手な人が、いかにも機械と接しているという苦手意識、抵抗感なしに、簡単コマンドで機械を操作できるようになるという効果もあります。おばあちゃんが自動運転のスーパーカーを高速で走らせる、なんてことも可能なのです。あるいは、AIスピーカーを、機械ではなく親しみやすいロボット（ロボットも機械ですが）としてビジュアル化すれば、話しかけても不自然ではありません。

　日本人が音声UIを敬遠しないで使いこなすようになるには、音声UIのUXをユーザーがイメージできるようなプロモーション、そして、デリケートなユーザーの心情に細やかに寄り添う開発が不可欠となりそうです。

https://www.nikkei.com/article/DGXMZO30323940Q8A510C1HF0A00/

https://www.nikkei.com/article/DGXMZO29862200W8A420C1X12000/?df=2

この記事が気に入ったらサポートをしてみませんか？