見出し画像

音声入力インタフェース作成という目標を達成するためのマンダラチャート

先日、以下の記事を書きましたが、わたしは本人の声なら五十音を「100%」認識して入力するインタフェースを開発したいと考えております。

そこで、その開発という目標を達成するためにマンダラチャートを使いました。マンダラチャートとは、元は仏教の「曼荼羅(マンダラ)」から来ておりますが、曼荼羅は規則正しいパターンに基づいて模様が作られており、その曼荼羅を基にしたマンダラチャートも、9つのマスを軸に作成します。(詳しくは以下に参考記事がありますので、そちらをご覧ください。)

マンダラチャートは目標達成という用途に限らず、アイデアを出すために使ったり、何かを記録するために使ったりするなど、様々な用途で使用することができます。

今回は【本人の声なら「100%」認識可能な音声入力インタフェースの作成】というわたしの大目標の1つを達成するため、マンダラチャートを作りました。そのマンダラチャートは以下の通りであり、全部で9×9=81マスになります。

マンダラチャート
【本人の声なら「100%」認識可能な音声入力インタフェースの作成】

一つのマスにぎゅうぎゅうと長い文を入れているので、ぱっと見るとわかりにくいと思います。そこで、マンダラチャートの見方について説明を以下の通り補足します。

(1) ど真ん中のマス(9×9マスの中央マス)に大目標が書いてあります。(以下の図)

中央マス(大目標が書いてある位置)

(2) マンデラチャート中央部分(9×9マスの中央に位置する3×3マスのブロック)に中目標①~⑧が書いてあります。(以下の図)

中央ブロック(3×3のマス、中目標①~⑧が書いてある位置)

中目標①~⑧は上の図で見ていただいた通りであり、大目標よりも少し具体的なものを記載しており、番号順に中目標を達成すれば、自然と大目標となるように設定しております。

(3) マンデラチャート中央ブロック以外の周辺ブロック(3×3マス)ごとに中目標①~⑧に対応する小目標が時計周りに書いてあります。(以下の図)

中央ブロック周りの周辺ブロック(各ブロック3×3マス、小目標が書いてある位置)

中央ブロック以外の周辺ブロックごとに、中央ブロックに記載している中目標①~⑧に対応する小目標が時計周りに配置しています。それらの小目標も順に達成すれば、対応する中目標も達成するというように考えております。

ただし、必ずしも、小目標を決めたらその通りに進めなければならない、ということではなく、あくまで中目標に向かうまでの道のりをあらかじめ考えておくことで、何が必要か、自分の中で目に見えるようにするのが目的です。

実際に進めてみて、中目標を達成するのにそぐわない小目標であれば、その小目標の修正を検討します。(中目標の場合も同様で、大目標を達成するのにそぐわない中目標であれば、その修正も検討します。)

なお、大目標を達成するために、中目標①~⑧を設定しておりますが、それらの中目標を設定した理由については、次の通りです。
①母音の「あいうえお」を認識する。
→五十音の最も要となる部分と考えているから。「あいうえお」以外の「か行」や「さ行」など発声時も、子音に母音がくっつくことが多い。

②母音を発声している、いないを認識する。
→コンピュータが音を認識する際、「音自体が発生していない」、「音が発生しているが母音ではない」、「母音が発生している」等、状態を区別できようにしておきたいから。そうすれば、「音が発生しているが母音ではない」状態の音声データを子音データとして後々結び付けられるかも。

③子音データを効率的に収集できるシステムを作る。
→母音よりも子音のほうがデータを収集しづらいから。「あいうえお」の母音は長期的に発声しやすくデータを収集しやすいことが考えられるが、子音は瞬間的にしか発声できないため、データ収集に時間がかかることを予想できる。

④母音・子音を高精度に認識する。
→認識システムのプロトタイプを使って、トライ&エラーを早い段階からできるようにしておきたいから。③で子音データが集まっていれば、機械学習できるようになるので、④で音の認識に本格的に取り組む。


⑤認識結果(音)が言葉になるように構成する。
→④の音の認識結果を言葉として構成し、日本語の文章となるように実際に使えるようにしたいから。日本語の文章として成立できるようになったら、入力インタフェースとしては使える。

⑥構成した言葉が入力となるインタフェース作成。
→生活や仕事など様々な場面で使えるようにしたいから。開発したシステムで構築できた言葉が、他のシステムと連携できたり、Web上で使えるようになれば、どんどん広がっていける。

⑦自分以外の人にも使うための方法を手順化する。
→自分だけではなく、他の人にも使えるようにしたいから。これまでは自分を実験台にして基本的なシステムを作っていたけど、他の人でも使えるようにする。

⑧自分以外にも高精度に入力できる方法を確立する。
→他の人にも使ってもらっても、必ずしも安定して高精度に入力できるとは限らないから。使ってもらって、改めて高精度に入力するための方法や条件を洗い出して、修正しながら方法を確立させていく。

以上のように考えて、中目標①~⑧を順に設定しました。ちなみに、中目標ごとにだいたい1年くらいで終わればいいなあ…と思いますが、自分の中で達成【しなければならない】という執着ではなく、達成【したい】という純粋な意思をできるだけ思い出しながら、進めていこうと思います。
また、楽しみながら気長に取り組もうと思いますので、その内容をnoteにて少しずつ共有できればと思います。

ということで、今後はこのマンダラチャートを軸に進めていきます。現在の目標はそれぞれ、
【大目標】本人の声なら「100%」認識可能な音声入力の作成(10年程度)
【中目標①】母音の「あいうえお」を認識する(1年程度)
【小目標】音の概念を理解する(1か月程度)
となっておりますので、まずは『【小目標】音の概念を理解する』ところから取り組んでいきます。次回の記事はその音の概念を理解するところから記載できればと思います。

ここまで読んでくださってありがとうございました。今回のような音声認識の取り組みに関する記事は、以下のマガジンにてすべてまとめて公開していく予定ですので、良ければフォローをお願いいたします。

この記事が気に入ったらサポートをしてみませんか?