音声UIは進化なのか

音声UIは進化なのだろうか?

今日もAIスピーカーの音声UIについて書いてみたいと思います。我が家にGoogle HOME miniがあるのですが、その一番の使い方は、
「ねえGoogle、J-WAVEを聞かせて」
です。

この一言でradikoからJ-WAVEを選局して、流してくれます。
スマホ探して、スピーカーの電源入れて、アプリ立ち上げて、、、、という手間が一言ですみます。なんて便利なんでしょう。

けど、これをインタフェースの歴史と合わせて考えてみると、これは本当に進化してるんだろうかと思うところが出てきます。まずは、ふりかえってみましょうか。

1980年代 CUIの時代

この時代、コンピューターといえばコマンドラインでした。そして、コマンドラインの特徴は、そのコマンドの記憶が必要なことです。
“cp”と入力することを知らないと、ファイルをコピーできない。
“rm”と入力することを知らないと、ファイルを消せない。
このように記憶が必要なキャラクタユーザーインタフェース(CUI)というものがありました。覚えてしまえば、とても早く操作できますが、覚えるまで使えない、初心者はとっつきにくいUIです。

1995年ごろ GUIの時代

Windows95が発売されて、グラフィカルユーザーインタフェース(GUI)というものが広く一般家庭でも使われるようになりました。

GUIはCUIと大きく違います。メニューに何ができるか書いてあります。それを選べば良いのです。例えばファイルを右クリックすれば、開く、コピー、削除、名前変更・・・できることが全て表示されています。そこから選べば良いのです。

これで、使うために記憶しなければならないという脳の負担を減らすことができるようになりました。初心者にとっつきやすくなり、大きな進歩を遂げ、そして広く普及しました(この話、「記憶より再認」と言われる部分です)

現在

音声UI(Voice User Interface : VUI)を搭載した機器が多数発売され、普及しつつあります。考えたことを話せば使えて魔法のようですよね。

一方、これをある視点から考えると、”どう話すか覚えなければならない”と言うこともできます。

例えば、冒頭の事例、私はラジオを聴くために、「[放送局] を 聞かせて」と言うことを記憶していたと言えます。

VUIと記憶

この記憶、「[放送局]」と「聞かせて」の2つに分けて考えてみましょう。

まず「聞かせて」の部分です。これは何をしたいかの主目的を示しています。"音楽を聴くには"、"テレビを見るには"、"電気をつけるには"、と私がしたいことに応じて、いろいろ覚える必要が出てきます。CUIのコマンドみたいですよね。
ただ、幸いにも、人知を結集できる範囲でもあります。人が何と話すかを徹底的に調査してカバーすれば良い訳です。たとえばラジオなら「聞かせて」「聞く」「聞きたい」「つけて」、、と全部対応すれば良いのです。
究極的には、人間が話す動詞を全て解釈することができれば、人は何も覚えなくて良くって、思ったことを話せば良くなる訳です。
やっぱり音声UIは、過去にない進化を遂げたと言えそうですよね。

ところが、、、
やっかいなのが、「[放送局]」の部分。。。
放送局ってそもそも覚えてなかったり、地方や国によって呼び方が全く違います。
GUIならその地域に応じた放送局一覧や、番組表みたいな形で見せて、その中から選択することが可能になります。これだと、とりあえず "文化放送" を選んで、どういう放送局か学習して、好みを探すという過程を踏むことができます。

一方、VUIでは人の記憶に頼ってしまい、覚えてないと何といえば良いかわかりません。東京に引っ越してきたばかりの関西人は東京の放送局を知らないし「FM802(大阪のFM局)を聞かせて」と言っても流せない、、、
候補を全部読み上げてみることはできるにはできますが、
「TBSラジオ、文化放送、日本放送、ラジオNIKKEI第1、、、」という風に、東京ならラジオ放送局16局を読み上げる事になります。
けど、人間の短期記憶は7±2個。これまた、とても覚えられません。
このように音声UIは、記憶に頼るインタフェースで、その面では退化したインタフェースと言えるのではないでしょうか。

慣れた環境では記憶するという負荷は感じないかも知れませんが、引っ越してしばらくの間とか、初めて使うものとか、初心者に非常にハードルの高いインタフェースだと言えます。

この問題、解決方法はいろいろ考えられます。
1. 使い方をwebで提供する
2. 画面をつけて、選択肢は画面に表示するとか(amazon echo showはこのアプローチだと思います)
3. もっとユーザーのコンテキストを把握して、「ラジオ聞きたい」って言うと、ユーザーが好むであろう放送局を選局してくれるとか、、、
ただ、1はユーザーの利用シーンに合わないので読まれなさそう、2はハードの普及に、3は技術の進歩に時間がかかりそうで、かんたんな解が思いつきません。

これから音声UIは一般家庭にどんどん広がっていくと思います。
そしてその開発に携わる人も多くなると思います。そのときに、ターゲットユーザー次第ですが、環境に慣れてない人や初心者にどういう形で使い方を知ってもらうか意識して機能提供する必要があるなと思いました。

よろしければ、サポートお願いします! 書籍や、ユーザビリティ調査のための機材購入費用に充てます。