なぜ音声認識技術の精度が上がったのか？｜#3｜AI×Speaking Test

2023年2月7日 10:05

《今回のポイント》

・2017年のTransformer登場が技術向上のターニングポイント
・Transformerは、深層学習モデルの一種
・特長は「速くて正確」

音声認識技術と機械学習の歴史

2017年に、“Attention is All You Need”という論文が発表されました。その中で提案されたのが「Transformer」という機械学習モデルです。従来のモデルの利点を組み合わせて《いいとこどり》したことで、推論速度と深層学習の精度が上がり、転移学習もしやすいという土壌が整いました。元々は文字データを扱うモデルでしたが、これらの特性により、画像認識や音声認識の分野でも使われ始め、過去の音声認識技術と比較して精度も高くなった…という流れです。

Transformerのすごさと、モデルの説明

Transformerの何がすごいのかを理解するために、深層学習に関していくつかご説明します。

（おさらい）
・深層学習
…機械学習の学習方法のひとつ。データの背景にある特徴やルール、パターンなどを学習するために「ディープニューラルネットワーク」という手法を用いる方法。
→データから読み取れる特徴やルール、パターンを学習するために、いくつもの層（＝深層）をつくります。
また「ニューラル」という名称が示す通り、生物の神経細胞のようなイメージで、情報を受け取る（入力）→内容を踏まえて別の情報として受け渡す（出力）が、ネットワークのようにつながっている仕組みです。

・CNN（Convolutional Neural Network）：畳み込みニューラルネットワーク
…主に、画像データの認識で活用されるモデル。データの位置関係から特徴を抽出します。言語認識で活用する場合は、文章ではなく単語単体を扱います。
→文章のように可変長のデータを扱う言語認識には、それほど適していません。たとえば、CNNで扱えるのが10単語だとすると、11番目の単語は考慮できない…といったイメージです。但し、画像認識に強いだけあって、局所的な特徴を抽出するのにはとても長けています。

・RNN（Recurrent Neural Network）：再帰型ニューラルネットワーク
…主に、時系列データを扱うモデル。たとえば、文章中に「太郎」が登場し、2度目から「彼」に変化した場合、記憶容量を参照し「太郎＝彼」と導き出します。
→ 内容をさかのぼって過去の情報を参照できますが、内部に蓄積できる記憶容量には上限があります。そのため、文章が長くなると過去の単語を忘却していってしまい、文章が長くなると精度が極端に落ちるという難点があります。

要するに「速くて正確」だからすごい

「音声認識技術にかかわるTransformerに、なぜ画像データを扱うCNNが必要なの？」「RNNの何が問題なの？」と思われたかもしれません。
ここからは、Transformerの仕組みについてご説明します。

Transformerは、CNNでもRNNでもない（厳密に言うと、CNNとRNNのいいとこどりをしているが、実際には別のモデルを使った）深層学習モデルです。シンプルに言うと「速くて正確」だからすごいのです。

速さと正確さを持てた背景には、2つの特長があります。

・文字データや音声データなど可変長のデータを扱える
…RNNと同様に可変長のデータを扱うことができ、入力の長さが変化する自然言語処理や音声認識に適した機構になっています。

・過去の単語に直接アクセスできる
…RNNでは、過去の単語を参照するためにさかのぼる単語数に比例して処理の隔たりが生じます。そして、施された処理の回数が多いほど、情報は劣化していきます。
一方で、Transformerは過去の単語を直接参照することができ、過去の情報の参照時に情報劣化が起こらないので、RNNと比較して長い入力でも精度が落ちにくいという特性があります。

これは《伝言ゲームで長い文章を伝える》イメージに近いです。
長い文章や音声を伝言で伝えようとすると、Aさん→Bさん→Cさん→Dさん…と経ていくうちに、最初の内容から変化しやすくなってしまいます。これがRNNのイメージです。
対してTransformerは、Aさんに対して直接なんと言ったのか確認できる仕組みなので、入力内容が長くてもRNNより精度を高く保ちやすいのです。

Transformerは自然言語以外の分野にも応用されはじめ、2019年にはCNNとTransformerを組み合わせた「Conformer」という音声認識モデルが登場しました。
これは、局所的な波形の処理はCNNで行い、CNNが抽出した情報をTransformerで処理させるという…まさしくCNNとTranaformerの《いいとこどり》を実現したことで、局所的な波形の処理性能と可変長の時系列処理の両方を必要とする音声認識技術の精度が飛躍的に高まったのです。

#4「音声認識技術をめぐる外部要因」はこちら

今回は、音声認識技術の精度を高めたTransformerについてご紹介しました。
本シリーズでは、AIを活用したスピーキングテストを支える音声認識技術など、テクノロジー界隈の情報とトレンドをまとめてお届けしていきます。

取材をご希望の方、本件に関してのお問い合わせはこちら
株式会社レアジョブ　広報
メール：press@rarejob.co.jp

【レアジョブが提供する英語関連サービス】

オンライン英会話サービス「レアジョブ英会話」
ビジネス英会話コーチング「スマートメソッド®コース」評価指標のCEFR
AIビジネス英語スピーキングテスト「PROGOS®」