AI x Game Character Meetup_2023/11/25レポ_1

2023/11/25にAI x Game Character Meetupに参加してきたのでそちらのレポートを描こうと思う。
ただし、ちょっと長くなってしまったので3部構成にする。

  1. サイバーエージェントさんのLT内容と感想と独自見解

  2. さくさくむらさんと玉置さんのLT内容と感想と独自見解

  3. フリー中の歓談内容などについての内容と感想

今回はサイバーエージェントの社員さんの発表したLTに関する私の感想と見解を記載する。



AI x Game Character Meetup_2023/11/25 参加レポート

LT発表

1. 対話システムの高速化

音声対話を普通に作ると以下のような流れになる。.
「STT→LLM→TTS→(場合によりRVC)→発話」
しかし、このやり方だと人間が言い終わった後に処理が開始されて発話開始までに約5秒~10秒かかる。

それに対して、GoogleSTTではstreamingでテキストに起こすことが可能なので、
「streamingで文字起こし→随時LLM処理→随時TTS→発話終了検知での発話」
で約0.5秒~1秒で発話が可能。

感想:
この技術の重要性については、9月末からIzumi Satoshiさんの下記のツイートで知っていて、試していたことではある。

discordのローカルLLMのサーバーで当時話題になって9月24日のAI Agent MeetUp Tokyo by Saldraに誘致とか言っていたけれどどうだったのだろうか。

当時調べた内容を思い出すと、「会話が途切れた」と思うのは1秒~2秒以上経過した場合だった気がする。ああ、あった。
日本音響学会誌第 78 巻 05 号 (2022) アンドロイド ERICA による人間レベルの音声対話への挑戦* (リンク) これの3.3 ターンテイキングの箇所だ。
他にも色々と記事はあって、大体1秒~2秒とあった気がする。

こういった情報を元に考えると、0.5秒~1秒以内の返答が理想だと思う。
この9月当時私が思ったことと実験したことを纏めると、確かに1秒以内に返す必要があるとは思うけど、GPTなどで生成した返答を1秒以内に返すのは不自然だということ。
会話レベルで1秒以内に考えを纏めるなんて人間はしていないし、その速さ
でしっかりとした返答を突然返されても返された方が混乱する。

会話の内容により、相槌だったり繰り返しで詳細を促したり、聞き返すのが多いと思う。
だから、相槌や繰り返し、聞き返し、フィラー(あーやえーと等)を用いてなるべく早く返す必要がある。
そうして、相手の話を聞いている間に自分の意見をまとめて、途切れたタイミングで自分の意見を述べたり、共感を述べたりすると思う。

そう考えると、GPTへの問い合わせは2つ必要だと私は思う。

  1. 非同期で1秒単位で会話の内容の種類や濃さや前回の自分の発言などを元に分析させてJSONで出力し、0.5秒会話が途切れたタイミングで、そのJSONの内容に合わせて相槌や聞き返し、繰り返し、発言などの選択

  2. 非同期で3秒や5秒単位等でGPTに問い合わせを行い、1文目の意見の生成。1のJSONで発言できるレベルだと判断されたら、途切れたタイミングで意見の発言。1文目の意見は生成済なので発言中にinstructで生成を行うことで連続して発話が可能かなと思う。また、知らない単語やしらない言葉が出た場合、それをStockしておいて聞く必要がある。これは1のJSONとの連携。聞く必要があるのが出た場合はそれを1に渡して質問として保持し、聞くための文章を生成して待機しておく。
    また、相手から質問を受けた場合。これは必ず発言を求められているので、フィラーや「まってね。ちょっと考える」等キャラに合わせた発言を行ってその間に返答を生成し、返す形になると思う。また、userが沈黙をした場合、こちらから相手に対して聞いたりすることで発言を促すという行為も場合によっては必要かもしれない。

このように行うことで、自然な対話が可能だと考える。
すぐに返答を返すLLMと、内容をじっくりと考えたGPT4等の返答を後から追加するというLT発表者さんとほぼ同じ結論に達した。

これらを行うために絶対に必要なのは、繰り返し、聞き返しの高速TTS。
相槌やフィラーとかは生成済のでどうとでもなるけど、単語の繰り返しは必ず高速生成が必要。

この点について、LTで出ていた軽量LLMとTTSのローカル実装はとても有用だと思う。


2. キャラクターのプロフィールの変更

GPT自体にプロンプトの生成や編集をさせて、キャラクターのプロンプトを変える内容のLT。

感想:
私は4月時点でプロンプト作成プロンプトを作成したり、キャラクタープロンプトの編集が面倒くさかったのでGPTにやらせていたりしていたので既知の内容だった。

プロンプト作成プロンプトの書き方だが、予めフォーマットを指定し、その後に内容を書いて生成させる手法がいい。
Formatを指定しないとばらけてしまいうまくプロンプトとして機能するものが作れない為だ。

ただし、この手法では各ブロック内の文章が短くなる特徴がある。
文字数を多くするためには林 駿甫さんの作るようなプロンプトを用いて複数推論を重ねてから出力を行う手法が考えられる。
が、面倒なので、普通に各ブロックを別々で並列処理させてコードで結合した方が楽で、その後整合性判定を行い、問題なければ確定とする形や、各ブロック事に順番にシステムプロンプトに加算しながら投げる形等がある。
ただし、内容の精度的には林 駿甫式のような複雑な複数推論がベストである。

プロンプトの改修について。キャラクターの背景情報や性格情報、口調や興味関心などを、「オリジナル+変化要素」でGPTに与えてプロンプトの部分改修を行う。
その際、注意しないといけないところが1点ある。
それは出力されるプロンプトの文字数的な劣化。
特にGPT4を使用すると、結構目立つ。
GPT3.5ではオリジナルを尊重してくれるのだが、GPT4は気を利かせて勝手にいい感じにしようとしてくれる。
ありがた迷惑である。

ふんわりとぽい感じで作っている場合は特に気にならないのだけれど、しっかりと構成を考えてプロンプトを作っている場合、GPTによる改修が致命的になることが多い。

例えば例として下記のプロンプト編集プロンプトを投げてみる。

オリジナル文章

```
ロキシー・ミグルディア
====人物像====
礼儀正しい勤勉な努力家。
吟遊詩人の詩になるほど優秀だが、物事に無駄に時間を掛けず、
最速に事を終わらせようとする性質が災いして間が悪くドジな一面がある。
見た目で侮られることと魔術の才能から自己顕示欲の強い性格をしていたが、
ルーデウスの才能と謙虚な姿勢を見て思い上がりを正す。
魔族であることや子どもに見える外見で何度も差別を受けながらも周りに受け入れて貰えるよう努力し、
それがルーデウスが尊敬する理由になっている。
自分のことを家族のように受け入れてくれたグレイラット家への思い入れは非常に強い。
```

ロキシーの人物像ですが、彼女の追加情報として、ルーデウスとの結婚があります。
ただし、ルーデウスは既にシルフィと結婚しており、ロキシーは第二夫人となります。

変化を加味して人物像の調整をしてください。

これに対してGPT4の返答は下記である

GPT4
ロキシー・ミグルディア
====人物像====
努力家であり、最速に事を終わらせる性格が時折ドジな一面として現れる。
初めは魔術の才能を活かして自己顕示欲を満たす傾向があったが、
ルーデウスの謙虚な姿勢と真摯な才能を見て誤りを認識した。
魔族であることや自身の若々しい外見で幾度も差別を経験し、
それがルーデウスが尊敬を持つ理由となった。
望まぬ形で家族となったグレイラット家に深い信頼と感謝の感情を抱いている。

ルーデウスとの結婚後も彼女の性格は変わらず、懸命に家族を支える姿勢と積極性がさらに強まった。
ルーデウスの第二夫人として家族に受け入れられ、
彼女の優秀な努力家の性格と立派な魔術師の才能が家族の力となることになる。
ただし、夫であるルーデウスが既にシルフィと結婚しているため、
彼女に対する尊敬と感謝を忘れることなく、また家族全員を大切にしている。
 
========================
```オリジナル
ロキシー・ミグルディア
====人物像====
礼儀正しい勤勉な努力家。
吟遊詩人の詩になるほど優秀だが、物事に無駄に時間を掛けず、
最速に事を終わらせようとする性質が災いして間が悪くドジな一面がある。
見た目で侮られることと魔術の才能から自己顕示欲の強い性格をしていたが、
ルーデウスの才能と謙虚な姿勢を見て思い上がりを正す。
魔族であることや子どもに見える外見で何度も差別を受けながらも周りに受け入れて貰えるよう努力し、
それがルーデウスが尊敬する理由になっている。
自分のことを家族のように受け入れてくれたグレイラット家への思い入れは非常に強い。
```

下記がGPT3.5の返答内容。

GPT3.5
ロキシー・ミグルディア
====人物像====
礼儀正しい勤勉な努力家。
吟遊詩人の詩になるほど優秀だが、物事に無駄に時間を掛けず、
最速に事を終わらせようとする性質が災いして間が悪くドジな一面がある。
見た目で侮られることと魔術の才能から自己顕示欲の強い性格をしていたが、
ルーデウスの才能と謙虚な姿勢を見て思い上がりを正す。
魔族であることや子どもに見える外見で何度も差別を受けながらも周りに受け入れて貰えるよう努力し、
それがルーデウスが尊敬する理由になっている。
自分のことを家族のように受け入れてくれたグレイラット家への思い入れは非常に強い。

また、彼女はルーデウスとの結婚を望んでいたが、既にルーデウスはシルフィと結婚しており、
ロキシーは第二夫人となることを受け入れた。彼女はルーデウスとの関係を大切にし、
家族としての絆を築くために努力している。
彼女の愛情深さと忍耐力は、彼女がルーデウスの信頼と尊敬を受ける理由の一つである。
 
========================
```オリジナル
ロキシー・ミグルディア
====人物像====
礼儀正しい勤勉な努力家。
吟遊詩人の詩になるほど優秀だが、物事に無駄に時間を掛けず、
最速に事を終わらせようとする性質が災いして間が悪くドジな一面がある。
見た目で侮られることと魔術の才能から自己顕示欲の強い性格をしていたが、
ルーデウスの才能と謙虚な姿勢を見て思い上がりを正す。
魔族であることや子どもに見える外見で何度も差別を受けながらも周りに受け入れて貰えるよう努力し、
それがルーデウスが尊敬する理由になっている。
自分のことを家族のように受け入れてくれたグレイラット家への思い入れは非常に強い。
```


GPT4はいい感じに上手くまとめてくれている。

しかし、もし「礼儀正しい勤勉な努力家。」や「見た目で侮られることと魔術の才能から自己顕示欲の強い性格をしていた」などの部分をわざとこのように手動で記述して調整したプロンプトだったらどうだろう?

GPT4にガッツリ改変されてしまったので、当然出力の雰囲気が変わってしまう。

このように、プロンプト改変プロンプトはGPT4を使用する場合は指示文を細かく細かく支持して調整する必要がある。勝手にいい感じにする癖があるので、変えて欲しくないところもしっかりと指定しないと変えられる。

その点、GPT3.5は目的に合わせて、指示に対して指示の通りに実行する癖があるのでとても使いやすい。

ただし、やはり上手く変えてくれないこともある。
プロンプト改変プロンプトは目的に合わせて実際に微調整を重ねて指示文を作る必要があると個人的には思う。


第一部以上!
第二部はさくさくむらさんのアイネスフウジンとバンダイナムコエンターテインメントの玉置さんのごらんげに関する感想等になります。

この記事が気に入ったらサポートをしてみませんか?