学会報告｜第150回日本音響学会（2023）＠名古屋工業大学

2024年3月27日 17:10

2023年9月26日〜28日で行われた日本音響学会にて、「情動発声：ヒトと機械の自然な音声コミュニケーションに向けて」というスペシャルセッションが開かれました。私はそこで「感情アノテーション方法の比較と提案」というタイトルで発表をしてきましたので、その内容をご紹介します。

研究の背景

Affective Computingという分野

　感情を情報工学的に扱う研究には、たとえば感情認識やセンチメント分析などがあります。こうした研究はAffective Computing（感情コンピューティング; Picard 1997）と呼ばれ、近年大きく進展している分野です。
Affective Computingは、感情を含んだ音声、文章、表情などの大量のデータを収集し、機械に学習させることによって、人間と同じようにコンピューターに振る舞わせたり、判断させたりするということを目指しています。その成果は、消費者行動の分析、マーケティング戦略の立案、コールセンター業務の自動化、ヘルスケアなどに応用されています。

　感情をデータとして情報工学的に扱うにあたって、多くの研究ではデータに感情のラベルをつけること、つまりアノテーション作業を行っています。例えば、ある音声を聞いて、その声の主が怒っているように聞こえたなら「怒り」、喜んでいるように聞こえたなら「喜び」といったラベルを付与します。こうしたデータを学習させ、声の聞こえかたについての判断を機械が自動で行うようにしたもの、それが感情の学習モデルとなります。

感情をアノテーションするということ

　アノテーションという過程は簡単ではありません。まず、感情は目に見えない、触ることもできない構成概念であるために、どのような感情ラベルを用意したら良いモデルが作れるのかということが、実はまだよくわかっていません。

　よく用いられている感情ラベルというものはあり、それは20世紀後半に活躍したアメリカの心理学者Ekmanが提唱した基本感情のカテゴリです（Ekmanの著作はいくつもありますが、代表的にはEkman and Friesen 1971）。基本感情は、典型的には怒り、恐怖、驚き、悲しみ、嫌悪、喜びから成ります。Ekmanの理論では、感情は人間に普遍的、生得的に備わった性質であり、怒りや喜びなどの各感情カテゴリは生活課題に対して適応するかたちで、特有の生理的，身体的反応、主観的感情の報告などのセットとして進化してきたということを仮定します。基本感情理論では、特定の感情は特定の反応と結びついているため、各基本感情は互いに独立していて、弁別可能であるとされます。Affective Computingでは、こうした心理学由来の感情カテゴリを「流用」してアノテーションラベルとしたり、音声コーパスを作成する際に演技発話データのカテゴリとしています。

　しかし、こうした心理学由来の感情カテゴリは、直ちにAffective Computingに応用できるものなのでしょうか。第三者の音声を聞いたり、第三者の表情の写真を見て、そこにどんな感情が含まれているかを判断したデータによって、研究者はEkmanが仮定したような普遍的、生得的に備わった性質としての感情にアプローチできているといえるのでしょうか。また、Ekmanの基本感情理論では伝統的に表情と感情の特定の結びつきを論じてきましたが、音声と感情についても同じような関連があると仮定してもよいのでしょうか。

感情をめぐる心理学の議論

　このことを考えるうえで参考になるのが、感情の次元説という心理学上の議論です。
　感情の次元とは、快−不快（感情価とも呼ばれます）、覚醒−沈静の2軸によって構成される2次元空間を指しています。この発想の源流は20世紀の心理学にあります。特に、Affective Computingにおいても多く引用される感情の次元モデルが、Russellの「感情の円環モデル」というものです。
　Ekmanと同時代に活躍した心理学者Russellは、各感情カテゴリの概念どうしの関係がこの空間のなかで連続的に変化する円環を描くということを主張しました。Russellの著作のなかで最も引用件数が多い論文”The Ciecumplex Model of Affecrt”(1980)は、基本感情は互いに独立で弁別可能であるというEkmanをはじめとした基本情動理論の主張を批判するかたちで登場したものです。この論文においてRussellはいくつかの心理学実験を行っており、28の感情を表す言葉の使われかたの統計的分析によって言葉の使われかたを可視化すると、おおよそ円環の形を描くということを報告しています。そして、この円環に2軸を引くと、それがすなわち快−不快と覚醒−沈静と解釈しうるということを、Russellは述べています（下図）。

Russell（1980）による感情の円環モデルが示すもの

　この図が示しているのは、次のようなことです。
　1つ目に、多くの日常的な感情概念を使用するとき、その使い分けを可視化してみると円環の構造になり、近い距離にある感情の言葉は似ている意味で、遠い距離にある感情の言葉はまったく異なる意味で使用されているということです。このことは、例えばHAPPY（幸福）という感情概念は、PLEASED（喜び）やGLAD（嬉しい）と言葉の意味がかなり近く、これらの言葉は非常に似たシチュエーションに対して当てはめられたり、あるいは一つの状況を表す言葉として同時に使用されたりしているということを示唆します。
　一方、HAPPYとは対極に位置するMISERABLE（みじめ）は、HAPPYとはまったく反対の意味で使用されており、人は幸福だと感じるときに同時にみじめだと感じる場合はほとんどなく、幸福とみじめという言葉はほとんど意味が混同されずに使用されているということを示唆します。

　2つ目に、こうした感情の言葉の円環構造のなかに、あえて2つの軸を設けてみるとすれば、それを快−不快、覚醒−沈静というものにすれば円環構造をよく解釈できるということです。そしてその2軸が、感情を表現し意味を使い分けるときの、最も根本的な要素となります。実際、私たちが日常的に使用している感情の言葉をより大ざっぱに表してみると、「快いか、不快か」「覚醒しているか、沈静しているか」という言葉を用いることは、たしかにとてもしっくりきますね。

Russellの仕事の意義

　Russellの仕事の意義は、それまで0か1かで互いに区別できるとされてきた感情カテゴリの関係が、日常的な概念使用の実態としては、0か1かでわけられるというよりも色のグラデーションのように連続的に変化するものだということを明らかにしたことにあります。
　感情の心理学が研究対象とするものを大きく2つに分けたとすると、1つ目はヒトの普遍的な性質としての感情、2つ目は人がコミュニケーションで使用している概念としての感情だといえるでしょうが、1980年ごろのRussellは、自分の研究が2つ目の潮流に属することを明らかに意識しています。コミュニケーションで使用している概念としての感情の場合、概念どうしのあいだに0か1かで明確な区分を設けることはできず、その関係は円環のように流動的なものであるという主張は、基本情動理論とは異なる観点から感情を理解しようとする試みでした(注1)。
　ちなみに、Russell(1980)のこの論文は、掲載から40年以上経ってもなお（コンピューターサイエンスの歴史を考えると長い時間が経ったからこそかもしれませんが）、Affective Computingで次元的な感情モデルを設定するという議論のなかで、必ずといっていいほど引用されます。日々進歩をしているこの分野にしては、1980年のものを引用するというこはかなり珍しいことではないでしょうか。その理由はおそらく、感情のデータ化、解析、機械への実装などの情報工学的アプローチをとるにあたって、「0か1かで変化する感情」というモデルよりも、「流動的に、連続的に変化する感情」というモデルのほうが扱いやすいからではないかと考えています。

研究の目的

本研究の主張

　こうしたレビューをふまえて本発表では、1980年ごろのRussellの立場と同じく、まずは以下のような立場を明示しました。

　まず、少なくとも、演技発話の音声データに対して第三者が感情を表す言葉でアノテーションを行う場合には、日常的な感情概念使用（素朴心理学）のコンピューティングを行っていると考えるべきである。すなわち、感情ラベルがつけられた演技発話の解析によってアプローチできるのは、生物の性質としての感情がどのような現象かということではなく、文化的な約束のもと交わされるコミュニケーションで用いられる言葉としての感情概念が、どのような音声によって表現されるかということである。したがって、文化や時代を超えてヒトに普遍的に備わった性質であると仮定されている基本感情のカテゴリをアノテーションに使用することは、必ずしも適切ではない。もし生物に備わった性質としての感情を捉えたいならば、生体情報と自己報告された感情が紐付けられたデータが必要である。

　また、感情を包括的に理解するためには、生物の性質としての感情、言葉としての感情のどちらからもアプローチすることが必要である。

分析の流れ

　そのうえで今回の発表では、感情のカテゴリが感情の次元においてどのような関係にあるかを特定し、Affective Computingの展望を示すために、以下の段取りで分析を行いました。
1．既存コーパスの演技発話データから、Russell(1980)で提示された感情カテゴリを用いて再アノテーションを実施
2．感情極性（快−不快と覚醒−沈静）の値にもとづいて感情カテゴリを円環モデルのなかに布置
3．感情極性の値をもとに感情カテゴリが識別できるかを定量的に検証
4．Russell(1980)が示した円環モデルとの比較

分析

使用コーパスと再アノテーション

　使用したデータは、感情ラベルを含む音声コーパスである「オンラインゲーム感情音声コーパス」（略：OGVC）です。このコーパスは4人の男女の話者による日本語の短い演技発話があり、Ekmanと同世代の心理学者Plutchikが提唱した8感情（喜び、受容、恐れ、驚き、悲しみ、嫌悪、怒り、期待）に平静を加えた全9感情のラベルがついています。
このなかから、「驚き」の音声は発話内容が感嘆詞中心のため除外し、また発話時間が3〜4秒程度であり発話内容に明らかな感情が含まれていないもの、という基準で、再アノテーションと分析のために500の音声データを抽出しました。

　次に、Russell(1980)の心理学実験において提示された28個の感情カテゴリとその円環図をもとに、以下の12感情カテゴリを選びました。Russellが示した感情の次元空間においては、おおよそそれぞれの象限に各カテゴリが属するという結果になっています。

第1象限：興奮、喜び、幸福
第2象限：緊張、怒り、苦しみ、
第3象限：みじめ、悲しみ、疲労、
第4象限：リラックス、満足、落ち着き

　これに平静を加えた全13感情カテゴリを用意しました。
　また、同時に感情の次元を構成する2軸（快−不快と覚醒−沈静）は−2 ~ 2 をとり、0.1 刻みでアノテーションするように設定しました。

　全9名のアノテーターが分担して再アノテーション作業を行い、1つの音声データに対して5つのアノテーションが付与されている状態になりました。

分析結果

　感情カテゴリに対する感情極性の値について、全アノテーターの平均値をとってみると、下のような散布図が作成されました。

　さらに、これらの平均値の違いが有意なものかどうかについて検証するために、まずは分布の正規性を確認しました。その結果、各感情カテゴリの分布は非正規であることがわかったため、名義尺度でも検定を行うことができるKruscal-Wollis検定を採用しました。
　検定の結果を表に示しました。

　白のセルは感情価と覚醒度どちらの値でも識別できるカテゴリどうしを、赤のセルは感情価と覚醒度どちらの値でも識別できないカテゴリどうしを、黄色のセルは感情価の値では識別できないカテゴリどうしを、青いセルは覚醒度の値では識別できないカテゴリどうしを示しています。

　この結果からは、まず、散布図では比較的近い位置にあった「喜び」「幸福」「満足」の音声は、いずれも快−不快と覚醒−沈静の値によっては区別できないことがわかります。これだけならRussellが描いた円環図とも食い違わない結果ですが、さらに「興奮」「喜び」「幸福」もまた、それぞれ快−不快と覚醒−沈静の値によっては区別できないという結果になりました。
　次に、ネガティヴな感情である緊張、怒り、苦しみ、みじめ、悲しみ、疲労は、どのくらい覚醒しているかということで区別できることが多いものの、どのくらい不快かということでは区別できないということがわかりました。

　これらの結果から、感情の次元空間における感情カテゴリはどのような関係にあるといえるのでしょうか。
　少なくとも、今回アノテーションに使用した12の感情カテゴリの快−不快と覚醒−沈静の値からは、円環構造を見出すことはできなかったと考えられます。快感情どうし、不快感情どうしを区別するのは快−不快の値ではなく、どのくらい覚醒的であるかという値だけであることが多かったからです。また、覚醒度合いが高い快感情どうしは、多くの場合区別が難しいということは、こうした感情は円環上に配置されているのではなく一箇所に固まっていると考えたほうがよいでしょう。

考察と展望

　本研究の結果から、Affective Computingの展望について言及したいと思います。
　まず、やはり神経生理的反応としての感情と、日常的に使用される概念としての感情には、それぞれどのようなアプローチができるのかということに自覚的である必要があると考えます。基本感情理論では基本感情が神経生理的反応のパターンと対応づけられるとされていますが、今回の結果からは感情カテゴリが次元空間に描かれたとき、感情カテゴリの弁別性や関係が異なっていることがわかりました。つまり、神経生理的反応から感情にアプローチした場合と、音声に対する快−不快と覚醒−沈静の値とカテゴリの当てはめかたの違いからアプローチした場合とでは、感情どうしの関係が異なるのではないかということが示唆されたといえます。また、第三者によるアノテーションによってつけられた感情カテゴリのほうが、自己報告された感情カテゴリよりも単純な相互関係をもつということがいえるでしょう。つまり、人は自分で自分の気持ちを考え表現するときよりも、他人の気持ちを読み取るときのほうが、大雑把に感情を捉えているということになります。

　今後の研究に共通する課題としては、まず感情という構成概念を扱うがゆえに、第三者によるアノテーションを行うがゆえに、妥当性と信頼性の確保が必要であることが指摘できます。用意した感情極性や感情カテゴリによって、本当に捉えたい感情が捉えられているか、アノテーション設計者とアノテーターのあいだで感情についての共通認識が形成されているか、そしてアノテーション対象である音声がラベルづけしやすいものになっているかといったことに注意する必要があります。

　そして、これは私の一番の問題意識でもあるのですが、今後の感情をめぐる学問の発展のためには、感情を扱う諸分野（代表的には哲学、神経生理学、心理学、言語学、脳科学、情報工学）の協同が必要だということを強調しておきたいと思います。
　感情をめぐる問いは、古くには哲学、20世紀ごろからは生理学、それから心理学のものとなり、今ではAffective Computingという情報工学にまで進出しています。先行研究の議論を深く理解し、かつ最新の感情解析モデルを試行錯誤しながら自身の研究を一人で進めるのはかなり難しいことです。したがって、効率的に、包括的に感情に関する知見を蓄積するためには、諸分野の協力が不可欠なのです。

注

(注1) ただし、Russell(1980)自身も述べているように、快−不快と覚醒−沈静というのは、実証や検証をする前から決定しているものではありません。この論文の議論は、あくまで円環構造のなかにあえて2軸を引くとすれば、快−不快と覚醒−沈静と解釈しうる2軸を引くことができる、という展開だったはずです。このことは、どんな時代のどんな文化に属する人にとっても感情の言葉の「最小公約数」が快−不快と覚醒−沈静である、ということを必ずしも意味しません。

採用募集

株式会社Poeticsでは絶賛Researcherを募集しています。
AIの会社でよりワクワクする世の中を作ることに興味ある方ぜひご連絡ください。
皆様のご応募お待ちしております。

音声解析・自然言語処理のAI開発を担うResearchエンジニアを募集 - 株式会社Poeticsのデータサイエンティストの採用 - Wantedly

参考文献

有本泰子・河津宏美，音声チャットを利用したオンラインゲーム感情音声コーパス. 日本音響学会2013 年秋季研究発表会講演論文集.1-P-46a: 385-388, 2013.
Ekman, P. and Friesen, Wallace, V., Constants Across Cultures in The Face And Emotion. Journal of Personality and Social Psychology. 17: 124-129, 1971.
Picard, Rosalind, W., Affective Computing. The MIT Press. 1997.
Russell, J. A. A Circumplex Model of Affect. Journal of Personality and Social Psychology. 39(6): 1161-1178, 1980.

この記事が気に入ったらサポートをしてみませんか？