MMDおしゃべりって何だろう

 前回から一ヶ月以上経っておりますが、なんとか生きてます。10月は怒涛のように忙しかったです…。今月は少し楽。少し。

 前回のしたいことリストは遅々として進んでおりませんが、羽根だけはつけてみました。黒長谷部に。かわいい。→「【MMD刀剣乱舞】堕天使長谷部

 そして今日ぼやっとTLを眺めていたら、「MMDモデルとおしゃべりするソフト 「MMDおしゃべり」 のご紹介」を見かけたのでなんじゃろと思ってごそごそ調べてみました。どうも、MMDAgentをバックエンドに持ってるぽい。MMDAgent自体は前から知ってはいたんだけど、よりUIが簡単になった感じ?

 まあせっかくなので、長谷部でも常駐させてみようかと思いつつ、常駐させるならMMDAgentそのものでも良さげ?と思ってざっくり見てみたけど、音声がない気がする、というところで止まる。音源再生自体は、MMDAgentプロジェクトの一環であるOpen_JTalkというシステムを使用している模様。また、VOICEROIDを音源にするためのプラグインもあるぽい

 デフォルトで配布されている音源はメイさんで、ほかの音源はVOICEROIDプラグインを介して使用するので、VOICEROIDのインストールが必要である。青年男性声は水奈瀬コウというのがいるらしい、けど、ちょっとイメージ違うかな…。

 ゆっくり系だとシステム付属含めていろいろ音源があるのでそっちの音源を利用したいところなんだけど…ざっくり見た感じアプローチとしてはふたつ。

1.Open_JTalkの音源を作る

2.VOICEROIDではなくシステム付属音源含むゆっくり系音源利用のプラグインを独自に作る

 どっちも結構めんどくさそう…(白目)

 1のOpen_JTalkは、ざくざくっとこの辺、

・「【FHC】合成音声をデフォルトからミクさんに変える【健全】

・「MMDAgentをミクの声にしてみよう!~僕を呼ぶ君の声~

・「音響モデルの作成

・「Project-NAIP2 α版 リリース

を読んだ感じ、音響モデルというのを音声データの学習から作り出している模様。で、元となる音声データは本来はなんでも良さげなんだけど、ラベル(モノフォンラベルとフルコンテキストラベル)付けしてないと学習できないので、あらかじめラベル付けが用意されている文(ATR音素バランス503文)(ATR503文の全文)に合わせたデータを生成して、学習させているぽい。

 つまり、任意の音源からOpen_JTalkの自作音源を作る手っ取り早い方法は、この503文をボカロなりで発声させてWAVファイルにして学習システムにぶち込むこと、の模様。ただし、学習システムがLinux用なので、普通の人には敷居が高そうではある(個人的には特に問題はない)。

 音素バランスとか考えなければ、ラベル付けさえできれば、ゲームやアニメの音源からダイレクトに音源生成もできそうではある。ラベル付けの法則を理解するまでが大変そうだけど…。

 一方2のアプローチは既に存在するいくつかの読み上げ音源を利用するプラグインを独自に開発する方法。たとえば、Softalkは「AquesTalk,AquesTalk2,SAPI(唄詠含む),Microsoft Speech Platform」に対応してたりします。

AquesTalkシリーズ

・SAPI (SAPI4のことか)、唄詠はこちら

・Microsoft Speech Platform、SAPI5、SDKは5.4が最新ぽい

 SAPI5はSDK持ってきて、Visual C++でAPI叩けばWin7以降のWindows環境なら使えそうな感じ。Visual C++の環境要るけど、まあフリー版もあった気がする。MSDNのサンプルコードもあるし。

 SAPI5側はなんとかなりそうな感じで、後はMMDAgent側のプラグインとの連携部がどのくらいめんどくさいか次第かなぁ。プラグインの雛形はこの辺に置いてある、のでなんとかなりそうだけど、データ形式のコンバートが入るとめんどくさそう。

 まあ、どっちもめんどくさそうなので、やってみたいことリストに積んでおこう…。

 それはそれとして「MMD Credit Helper配布」が便利そうだったので、後で使ってみるメモ。

この記事が気に入ったらサポートをしてみませんか?