見出し画像

スマートフォン向けにカスタマイズが可能なサイレントスピーチインタフェース

蘇 子雄 (そ しゆう)
方 詩涛(ほう しとう)

 Amazon AlexaやApple Siri など,誰もが簡単に使える音声インタフェースは,特別な訓練や知識を必要としないため,スマートデバイスだけでなく,テレビリモコンからカーナビ,家電とさまざまなものに広く活用されている.ただし,この音声インタフェースにも弱点がある.自らが発話でき,騒音がなく,また他者の音声を拾わない環境条件を必要とする.

 たとえば,電車の車内,静粛な図書館,または掃除機をかけながらでの音声入力を想像すれば,その制約を理解してもらえるだろう.このような環境下では音声入力は活用できない.

 蘇さん,方さんは,この問題を解決する,つまり,音声入力の自然さを保ったまま無発声で活用できる,サイレントスピーチインタフェースを,スマートフォンなどの携帯端末で利用できるシステムを開発した.例えるならば,カメラを活用した「口パク」での端末操作を可能にする,読唇術インタフェースである.

図-1 iPadでのサイレントスピーチ操作例

 サイレントスピーチインタフェースの実現のためには,口唇の動きを認識するリップリーディングのAI技術が必要になるが,すでにLipNetを始め,Lip-Interactなどさまざまな取り組みが行われている.ただし,スマートデバイス上で簡単に利用できるようにするのが大変難しい.コマンド数や事前の学習に手間がかかってしまうのである.実際,Lip-Interact では 44 個のコマンドを区別するために,それぞれ 28 回,合計 1,232 回の発話による学習が必要になってしまう.これでは現実には使いものにならない.

 蘇さん,方さんは,これを学習済みのモデルを特徴抽出器として,入力された口唇映像をエンコードし,ワンショット転移学習(One-shot Transfer Learning)を加えることで,既存のリップリーディングシステムの課題を解決した. ユーザは,1 回分の発話データを提供すれば,使いたいコマンドを登録でき,誰もがいつでも簡単に利用できる,「口パク」操作をスマートフォン iOS 上で実現したのである.

図-2 対照学習パイプライン(自己教師あり学習で有用な表現を抽出)

 サイレントスピーチインタフェースは,多数の登録済みコマンドへの無音声UIによる操作を実現しており,カメラ読唇,リップリーディングによる不特定多数に対するあらゆる発話の文字起こしではないことは,誤解のないようお願いしたい.

図-3 iOS アプリの実装

 サイレントスピーチインタフェースは,従来の仕組みでは難しかった課題をわずか1サンプルのデータで認識可能にし,5つのサンプルでは,98.75%の精度を達成している.決められたコマンドの音声認識でなく,ユーザ自身で登録したいコマンドをiOS上で簡単に作成することが可能になっている.語彙数の制約もなく,さらには複数の言語にも対応できていることは,想定以上の素晴らしい成果である.

 成果報告会では,日本語,英語,中国語でのデモに加えて,iPadでのスライド作成のデモを行ってくれたが.第3の手のように,カメラと口をうまくつかって,ショートカットを効率的に利用する姿は,新たな可能性を感じさせてくれた.

図-4 音声によるコマンド登録のパイプライン

 最後に,本プロジェクトが,中国出身クリエータ2人のみからなるプロジェクトであることにも触れておきたい.蘇さんは,河北省出身.日本のアニメ・ゲーム好きから,千葉大への交換留学を経て,2019年に東大大学院へ.方さんは,浙江省出身.日本映画好きで,早稲田大学への交換留学を経て,2020年に東大大学院へ入学している.2人が,未踏OBも多い暦本研で知り合ったことが,中国籍2名での未踏へのチャレンジへと繋がっている.

 未踏プロジェクトでは,会議などコミュニケーションは日本語が中心.2人は流暢な日本語で中国での事例などさまざまな情報を共有してくれたのだが,やはりそんな2人であっても,日本語ネイティブ同士を前提とした会議環境には,とても苦労したとのことである.

 PMとしてもっと配慮すべきだったと大いに反省しているが,プロジェクト終了後に,彼らの口から,米国での会議はもう少し Inclusive な雰囲気がありますよねとのコメントを聞き,はっとして言葉に詰まってしまった.日本流のコミュニケーションが,礼儀正しすぎるからかもしれないが,2人のように,日本好きで日本で活躍したいと考えてくれる,海外からの優秀なクリエータに対して,ダイバーシティとイノベーションを志向する未踏コミュニティこそ,どこにも負けないInclusive な環境を提供すべきであろうと思う.
蘇さん,方さんだけでなく,みなさんが海外からの留学メンバなどと出会う機会があれば,サイレントでなく,ぜひ積極的に話しかけてほしいものである.

(担当PM・執筆:藤井 彰人)

[統括PM追記] 藤井PMがお書きになっているように,2人は日本文化をこよなく愛している.未踏がこういう想いをしっかり受け止められる器になったと感慨深い.実際,蘇さんは,アニメ好きが昂じて,2023年度の未踏アドバンスト事業に,アニメ制作現場でのデータ資産を有効利用できるAIというテーマで共同イノベータとして採択された.

(2023年7月3日受付)
(2023年9月15日note公開)