音声認識の学習中(フーリエ変換①)

おはようございます。
現在、音声認識技術を一から身に着けたいと思っており、そのために必要な知識を学んでいる最中です。
前回の記事はこちらです。

前回は人がどのように「音」を認識しているか学んだことを簡単にまとめました。
今回はコンピュータがどのように音を認識していくか、調べていきたいと思っておりますが、膨大な量になりそうなので、少しずつ書いていこうと思います。

また、必要に応じて、プログラミングもやって、その内容を共有しながら、楽しんで進もうと思います。
技術的な内容をnoteへどのように書いていくかはまだまだ検討中ですが…できるだけ自分なりにわかりやすくいたします。

今回から、コンピュータが音を認識する最も基本的な技術だと思うもの、「フーリエ変換」について数回の記事に分けて記載していきます。

前提

フーリエ変換を根本的に理解しようと思ったら、最低限数学の知識を知っておいたほうがよさそうですが、なるべくわかりやすくしたいので、できるだけ数式を使わないようにします。
それでも、言葉だけで説明が難しそうな場合は数式を使います^^;
・三角関数とその四則演算
・微分積分(三角関数の定積分まで理解できていればなんとかなりそう)

コンピュータが音を感じる最初の入口

コンピュータが音を感じるためには、まず、パソコンやスマホに搭載しているマイクを使う必要があり、マイクを音の入り口として使うところから始まります。

音は空気の圧力を瞬間瞬間で変化(振動)しながら、波のように伝わるものですが、わたしたち人間の場合、その空気の振動が、わたしたちの耳の鼓膜へ最初に伝わって、その鼓膜で受けとった空気の振動は、聴神経などを介して電気信号へと変わり、脳が変換されて届いた電気信号を音として認識するようになります。

マイクも、同様の流れで、マイクの中にある振動板が空気の圧力の変化を受け取り、受け取った振動を電気信号へと変えて、CPU(Central Processing Unit:コンピュータの脳のようなもの)へと伝わります。

その際、空気の圧力の変化は音圧で表すことができますが、以下のように音圧は時間とともに変化するので、時間を横軸に、音圧を縦軸で表したグラフの上で、波のように描かれます。(波の形は適当に作りました。)

空気の振動(音圧)の時間変化

この描かれている波(空気の振動の時間変化)が、コンピュータが音としてそのまま感じる世界そのものなのだと思います。

しかし、ここから、この感じる音に対して、例えば
「どんな音なのか?」
「人の言葉なのか、動物や鳥の鳴き声なのか、川のせせらぎか」
「言葉だとしたら、どんな内容の言葉を発しているのか?」

そのようなことをコンピュータが理解(認識)するためには、コンピュータが感じた波の世界に対して、コンピュータが自ら意味づけや区別(分類)を行なうことができるようにする必要があります。
そこで、その意味付けや区別を行なうための基本的なものとして、「フーリエ変換」の出番です。

フーリエ変換とは何か

※本当はフーリエ変換は音声認識に限らず、画像認識など様々な分野にも使えるのですが、ここでは音声認識に限定して伝えます。

フーリエ変換とは、コンピュータが感じる音(一つの波)を何百、何千、何万通りもの複数の周波数の波に分解することです。

先ほどの図(空気の振動(音圧)の時間変化のグラフ)で表現したのは1つの波の図形であり、複雑な波の形を描いています。
その複雑な波は、フーリエ変換を使うことにより、いくつかの単純な波に分けることができ、そしてそれらの波には、それぞれ異なる独自の周波数を持っています。

複数の単純な波に分解することで何がわかるのかというと、例えば、それらの単純な波の周波数が高いところに集まっていたら高音、逆に低いところに集まっていたら低音というように、区別をつけることができます。(下の図のようなイメージ)

音と周波数の関係

上記の例はとても単純な例ですが、フーリエ変換を使って、色々な周波数の音を詳細に分析することによって、歌声や楽器の奏でる音などは、それぞれ独自の周波数を持っていることがわかり、それが音色として繋がっているということもわかるようです。
つまり、フーリエ変換を使えば、音の細かい特徴がわかり、音の性質も理解しやすくなるようです。

コンピュータからすれば、最初に感じた空気の振動(複雑な波)に関してどのように意味づけ、区別を行っていけばよいかとてもわかりにくいのですが、複数の単純な波に分解することによって、コンピュータがより細かく音の特徴を感じることができるようになるので、意味づけや区別(分類)を行いやすくなります。(実際の意味づけや区別は、わたしたち人間がプログラミングをする、またはAIが自ら考えて行ってもらう必要がありますが。)

ここまで読んでいただいて、ありがとうございます。
次回に続きますm(_ _)m
次回を公開するまでに少し日が空くかもしれませんが、興味ありましたら、またよろしくお願いいたします。

参考

・どんな構造?どんな原理?ダイナミックマイクロフォン概要
https://www.shimamura.co.jp/shop/nagoya/pa-rec/20210804/8263
・ぷち マンガでわかるフーリエ解析
https://www.ohmsha.co.jp/book/9784274219054/
・【画像45枚あり】フーリエ変換を宇宙一わかりやすく解説してみる
https://www.yukisako.xyz/entry/fourier-transform
・【イラストで解説】耳の仕組みと聞こえの仕組みって?わかりやすく解説します
https://ohmiminavi.co.jp/how-to-ear/

この記事が気に入ったらサポートをしてみませんか?