見出し画像

受付システム「超受付さん」ができるまで ~第2回 「超受付さん」の音声UIはどうしてる? その1~

アップフロンティアの R&D 統合新カテゴリー「超技研」のxR分科会活動から生まれた、受付システム「超受付さん」。

訪問先の人を呼び出すために、いつも同じ手順を踏まなければいけない今までの受付システムとは違って、初回の受付登録さえしてしまえば、次回の受付では「顔パス」を実現できます。

縦長ディスプレイ+PC・カメラ・マイク。

組み合わせや見た目は地味かもしれませんが、そこには開発メンバーの英知が詰まった、技術のインテグレーションとなっています。

今回は、本業の合間を見ながら長い長い時間をかけて生まれたこのシステム開発の裏側をお届けします。

内容に入る前に、ギャップロを運営しているアップフロンティアでは、一緒に働いてくれる仲間を募集しています。興味がある!一緒に働いてみたい!という方は下記の「ギャップロ」公式サイトよりご応募お待ちしております。また、公式サイトではアプリエンジニアの為のさまざまな技術情報を
発信しています!是非公式サイトもチェックしてみてください。

「ギャップロ」 公式サイト

第2回「超受付さん」の音声UIはどうしてる? その1


出演
ギャップロ編集部:G
「超受付さん」開発チームリーダー: N

試行錯誤を重ねた音声UI


G: 今回は「超受付さん」の音声UIの技術について、Nさんに聞いていきたいと思います。よろしくお願いします。

N: よろしくお願いします。

G: 「超受付さん」ではスマートスピーカーのように音声のみでやり取りするUIとなってるようですが、これはどういった技術で実現されているのでしょうか?

N: そうですね、まず音声認識は、今に至るまで一貫してそうなんですけど、全部クラウドのサービスを利用して実現しています。最初はGoogleのサービスを使いました。

G: 「Google Cloud Platform」ってやつですよね?そこからはじまったと。

N: はい。当時、ちょうど社内では「S式マイク」なるものが作られていまして…。

G: 「S式マイク」?どういったマイクなんですか?

オリジナル「S式マイク」の誕生


N: ハードから自作したマイクです。アレイマイクという小さな指向性の高いマイクが円状に付いていて、個々のマイクで発した音声の方位を精度高く受取ることができる状態になっています。そこに、Raspberry Pi(ラズベリーパイ)のボードを付けて、Google の Speech to Text API でテキスト化したものを、さらに形態素解析※しています。「名詞」「動詞」「助詞」「助動詞」などの情報も取得する機能を入れた上で、ひとつのハードウェア「S式マイク」が完成しました。ちなみに「S式マイク」はSさんというウチのシステム開発部マネージャの名前に由来しているのですが…ひねりもなにもないですね(笑)
※ 形態素解析 … 普段生活の中で一般的に使っている言葉である「自然言語」を、言葉が意味を持つまとまりの単語の最小単位「形態素」にまで分割する技術。

S式マイク

N: で、次にアプリ側の方に対してWebソケットで形態素解析した結果を定期的に送るところまでを試してみました。結果、ここに問題がありまして…あまり日本語に対して相性良く動いてくれなかったんです。

G: 精度が高くなかったんですか?

N: そうですね。受付システムなので名詞を多く扱うんですけど、この名詞の認識…もっと言うと少しクセのある(独特な)氏名に対する認識があまりよくなくて。困った挙げ句、次に試したのが Microsoft Azure の 提供している Speech to Text サービスでした。

G: 順当な流れですよね。

N: そうですね。まあ、Azure の方は顔認識の方でも使っていたこともありまして、利用しているものをそちらに全部集中させた方が管理もしやすいよね、ということで Azure を採用しました。
それで、問題も無かったんですけど、私が今年の Unity の Unite Tokyo 2019※ に参加した時にドコモさんがやられてたドコモAIエージェントAPIの講演※を見て、その時の日本語の認識能力が非常によかったんです。
※ Unite Tokyo 2019 … Unityユーザーのためのテクニカルな講演やブース展示が数多く行われる、国内最大のUnityカンファレンスイベント。2019年は9月25日(水)・26日(木)で行われた。
※ ドコモAIエージェントAPIの講演 … NTTドコモ社 他が行った講演。「中の人がいない!? 音声対話型AIサービスを使ったバーチャルキャラクターの作り方」(リンク:https://learning.unity3d.jp/3235/)

画像3

ドコモAIエージェントAPI
N: これまでは「はい」とか「いいえ」とか「ええ」といった短い言葉の認識率が難しかったんです。その点でドコモさんのAPIは短いフレーズ…特に「はい」の認識がすごく良かったんですね。
で、他の機能も「AI」を構築するうえですごく優秀だったので、「それならドコモさんのAPI使おうよ」という話になり、今にいたります。

G: なるほど、そんな経緯があったのですね。じゃあもし、NさんがUnityのイベントに行ってドコモAIエージェントAPIに出会って無ければ、また違う形になってたかも知れないですね。

N: そうですね。

G: 運が良かったのかな、きっと。

N: ですかね(笑)

次回
第3回 「「超受付さん」の音声UIはどうしてる?その2」へ続く

前回
第1回「「超受付さん」のキャラクターはどうしてる?」はこちら

関連リンク
超受付さん: https://chouketsuke.upft.jp/
ドコモAIエージェントAPI: https://www.nttdocomo.co.jp/biz/service/ai_agent_api/
Unite Tokyo: https://events.unity3d.jp/unitetokyo/

この記事が気に入ったらサポートをしてみませんか?