プレスリリース

生体情報から「ユーザはシステムとの対話を楽しんでいるか？」を推定する技術の開発

国立大学法人北陸先端科学技術大学院大学
国立大学法人大阪大学

言語・生体情報から「ユーザはシステムとの対話を楽しんでいるか？」を
推定する技術の開発

ポイント

対話システムとの対話中の人の生体情報^＊１から内面状態（楽しんでいる/退屈している）の推定に有効な情報を抽出する方法を提案
発話内容、声色、表情、姿勢情報と比較して生体情報の有効性を包括的に検証・評価
発話内容と生体信号情報の統合による機械学習モデルを用いた内面状態の推定手法を提案
提案手法は（対話者以外の）人間が観察・推定した場合と同程度の精度で、対話者の内面状態を推定できることを確認

　北陸先端科学技術大学院大学知能ロボティクス領域の岡田将吾准教授の研究グループは、対話システムと対話中の人の生体信号を含むマルチモーダル情報から対話中に変化する内面状態を推定する機械学習手法を提案しました。本件は、大阪大学産業科学研究所の駒谷和範教授との共同研究の成果となります。

【研究の概要】
　北陸先端科学技術大学院大学先端科学技術研究科知能ロボティクス領域の岡田将吾准教授らの研究グループは、音声対話システムと対話中の人の生体信号を含むマルチモーダル情報^＊２から本人の内面状態（システムとの対話が楽しい、あるいは退屈であるといった心理的な状態）を推測する機械学習^＊３手法を提案しました。

　音声認識・言語理解技術の発展により、音声対話システムに関する研究開発が進められ、Amazon Alexa、Siri といった対話システムのサービスが一般市民にも利用されています。今後、言語理解に加えて対話者の感情変化を理解し、対話者の心に寄り添う共感機能の実現は重要な研究課題です。
　マルチモーダル感情分析 (Multimodal sentiment analysis)は人の発話内容、声色、表情、姿勢から本人の内面状態の自動分析を行う技術であり、共感する対話システム・AIの根幹となる技術の一つです。現在までに提案された多くの感情推定^＊４手法では、対話者の発話内容、声色、表情、姿勢といった外面的な情報だけに焦点を当てており、生体信号のような表出しない情報はあまり考慮されていませんでした。対話者の内面状態は必ずしも発話内容などに反映されませんが、生体信号は本人による意識的な制御が難しいため、内面状態の推定に有用である可能性が考えられています。
　
　今回、生体信号情報を含むマルチモーダル対話データセット「Hazumi1911」を用いて、システムと対話中の人の発話内容（言語情報）、声色（音声情報）、表情及び姿勢（視覚的情報）、皮膚電位（生体信号情報）からそれぞれ単独、あるいは各情報を効果的に組み合わせる方法を探求し、人の内面状態を推定する機械学習モデルを提案し、比較評価を行いました（図1）。推定はシステムの発話と実験参加者の発話の対（交換）毎に行い、26人の実験参加者から得られた合計2,468交換を分析の対象としました。
　結果、実験参加者本人が回答した内面状態（どの程度対話を楽しいと感じているか）の推定には、生体信号情報が音声・表情といった情報より有効であったこと、また言語情報と生体信号情報の組み合わせが最も有効であることを明らかにしました。このことは、システム対話時の人の内面状態の推定には外面的な情報だけではなく、目に見えない生理学的な反応も有用であることを示唆しています。一方、第三者による客観的評価に基づいた内面状態（どの程度実験参加者が対話を楽しんでいるように見えるか）の推定には言語情報、音声情報、視覚的情報の組み合わせが有効であることも分かりました。前述の主観的評価に基づいた推定とは対照的に、第三者による客観的評価は実験参加者の外面的な情報にのみ依存している（実験参加者の生体信号情報は第三者には分からない）ことから、このような結果が得られたと考えられます。
　本研究で、AIシステムとの対話時に生体信号の新たな側面が世界で初めて明らかとなり、本研究成果は、2022年3月3日に米国電気電子学会の学術誌「IEEE Transactions on Affective Computing」のオンライン版に掲載されました。

【研究の背景】
　対話は多種多様な要素から構成されていますが、これら複雑な要素から必要な情報を抽出することで、人の感情を理解し人に適応・共感できるインタラクティブシステムの開発が望まれています。一方、研究開発に必要なマルチモーダル対話データは少なく、個人情報保護の観点から公開されないことがほとんどです。またシステムとの対話中に変化する感情状態を、生体信号から推定する方法に関してあまり議論されていませんでした。今回、生体信号情報を含むマルチモーダル対話データセット「Hazumi1911」(2021年公開済)を解析対象とすることで、生体信号センシングの有用性を検証することが可能となりました。さらに本研究では、発話内容の言語特徴量と生体信号の特徴量を密に統合する機械学習方法を提案し、提案手法による精度の向上を確認しました。

【社会への還元として期待できる内容、今後の展望】
　対話時に人は必ずしも本心を明示的には示しませんが、自身の生体信号を意識的に変化させることは困難です。今回、マルチモーダル対話情報の要素として生体信号が人の内面状態の推定に有用であることを新たに見出したことは、人の感情をより理解し、より人間らしくふるまえる対話システムの創出に寄与すると考えられます。

図１　本研究のフレームワーク

【論文情報】

論文名	Effects of Physiological Signals in Different Types of Multimodal Sentiment Estimation
雑誌名	IEEE Transactions on Affective Computing
著者名	Shun Katada, Shogo Okada, and Kazunori Komatani
掲載日	2022年3月3日
DOI	10.1109/TAFFC.2022.3155604

【関連研究情報】
Kazunori Komatani and Shogo Okada
Multimodal Human-Agent Dialogue Corpus with Annotations at Utterance and Dialogue Levels
2021 9th International Conference on Affective Computing and Intelligent Interaction (ACII)

マルチモーダル対話データセット「Hazumi1911」：
https://www.nii.ac.jp/dsc/idr/rdata/Hazumi/
大阪大学産業科学研究所駒谷和範教授が中心となり、北陸先端科学技術大学院大学岡田将吾准教授と共同で収集・公開したマルチモーダル対話データコーパス。基礎技術開発を含む研究目的であれば、データを利用可能

【用語解説】
＊1 生体情報：
　生体内部の活動を様々なセンサを通じて取得した情報（脳波、心拍、皮膚電位など）
＊2 マルチモーダル情報：
　画像、音声、言語といった複数の情報を組み合わせた情報
＊3 機械学習：
　データに内在するルールを抽出したり、新規のデータを予測したりするための技術
＊4 感情推定：
　悲しい/嬉しい、肯定/否定といった感情・心象状態を、様々な情報から自動推定する技術

令和4年3月31日

ニュース・イベント

生体情報から「ユーザはシステムとの対話を楽しんでいるか？」を推定する技術の開発