見出し画像

DJスタイルAITuber制作記録【AIチューバーの最も重要な要素について】様々なバリエーションを試作してみた

DJスタイルのAIチューバー制作の副産物

現在のAIチューバーといえば「視聴者からのコメントに対してリアクションを返す」定番のスタイルがあります。私が制作しているDJスタイルのAIチューバー制作では、楽曲の紹介や解説後に感想コメントを読み上げる部分を実装しています。せっかくなので、コメントを積極的に拾い、トークする部分のプログラムを分離してみました。定番のトークモードと言う事です。

まず、今回の生成物はこちらです。

大まかなシステムの流れとしては
まず、事前に用意したオープニングトークのテキストを読み上げます。
次に、コメントからの返答をOpenAIのGPT-3.5 Turbo APIで生成したテキストとして、Style-Bert-VITS2のローカルAPIで音声読み上げを行います。
これをループで繰り返しています。指定したループ回数を終えるとエンディングトークに移りますが、トークが長いため省略しました。
配信システムはOBS、キャラクターはLive2DモデルとVTube Studio、コメントはYouTubeからpytchatで取得しています。
BGMはOBS上でmp3ファイルをループ再生しています。

工夫した点は、コメントを1つずつ取得すると短い返答の際に処理時間が確保できず、沈黙時間が長くなるため、まとめてコメントを取得しテキスト生成に回しています(これにより1回のテキスト生成量が増えるため、GPT-3.5のトークン数にも注意が必要ですが、返答の文字数調整が必要です)。
テキスト生成とコメントの読み上げは、常に並列処理で裏で進行し、沈黙時間をなくしています(たまにGPT-3.5の遅延で数秒かかることがあります)。これもAIプログラミング「Cursor」に依頼して実装しました。

システム上の課題としては、ローカルLLMの導入とキャラクターの記憶に関することです。これらについては、さまざまなものを試しつつ実験していきたいと思っています。


一度システムを作ってしまえば、別バージョンも作成可能

ここまで作成してしまえば、キャラクターを変更するもよし、配信デザインやコンセプトを変えるもよし、声を変えて別キャラクターで楽しむこともできます。
試しに、ラレリルナさんを「都市伝説」や「オカルト」が好きなキャラクターに変更してみました(中身はプロンプトによる設定変更のみ)

通常バージョンではStyle-Bert-VITS2の話者の速度を0.9に少し早めていますが、このバージョンは1に設定しており、デフォルトの読み上げ速度です。


せっかくコメントを取得し、視聴者とコミュニケーションを取れるので、様々なコンテンツと組み合わせて特化型のAIチューバーを作成したいと思っています。
この、最も重要なコンテンツ部分では、ChatGPT-4とさまざまなアイデアを毎日のように考えています。

例えば、AIチューバーが与えられたテーマを基に「小説のストーリー」を考え、視聴者のリアルタイムのコメントに応じて内容がどんどん変化するようなものも面白いかと思っています。
とりあえず、自分自身が楽しめるレベルに達したので、他の人にも楽しんでもらえるようなものを作っていきたいです。

今回も読んでいただきありがとうございました。

この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?