PCサイトを見る

研究

教員インタビュー(この人に聞く)

岡田将吾 准教授

コミュニケーションを理解する人工知能の実現をめざして

岡田将吾准教授

知能ロボティクス領域 岡田将吾准教授 Okada Shogo

2008年東京工業大学大学院知能システム科学専攻博士課程修了。京都大学特定助教、東京工業大学大学院助教、IDIAP research institute 滞在研究員を経て、2017年より本学准教授。専門は、マルチモーダルインタラクション、データマイニング、機械学習、パターン認識。

人間は言語に加えて、視線、ジェスチャー、表情といった非言語情報を使って対面コミュニケーションを行っています。知能ロボティクス領域の岡田研究室では、対面中に交わされるマルチモーダル(言語・非言語)情報をさまざまなセンサーで取得し、それらの情報を統合することでコミュニケーションを自動理解する技術の研究に取り組んでいます。



「社会的信号処理」に基づく研究で国内トップクラスを走る

私たちの研究室では、「社会的信号処理に基づく人間の行動やコミュニケーションの理解」を主要な研究テーマとしています。
「社会的信号処理」というとあまりなじみのない言葉だと思いますが、人間の内面状態を理解、計算するための人工知能分野の新たな領域です。2000年台から欧米で研究が始まり、2009年に『Social Signal Processing』というタイトルの論文が出ました。近年は複数のトップレベルの国際会議で関連する研究が発表されています。

人間の内面状態は、その人が話す言語に加えて、音声、表情や視線方向、ジェスチャーや姿勢、生体情報などの非言語情報を通じて観察できます。嬉しい、悲しいといった感情はもちろんですが、緊張している、リーダーシップを発揮している、意思疎通できている、協調性がある、説得力がある、信頼関係を構築しているなど、その人の個性やスキル、社会性の側面が見えてくるわけです。
社会的信号処理のもともとの理論は、社会学、心理学で培われてきました。私たちは、この社会学・心理学の理論に基づき,社会的信号を計算機で処理する方法論を確立することを目指して、人間のコミュニケーションに関するデータを取得し、これをインプットすると人工知能が人間の内面状態を予測する技術の開発を進めています。

社会的信号処理技術に基づくコミュニケーション理解・応用の図

研究は大きく二段階に分かれています。
まず、カメラ、マイク、モーションセンサ等を使って、対話中の人間の音声や表情などの言語・非言語情報のデータをとります。ここでは音声処理、画像処理、自然言語処理など、人工知能分野の中で発展してきた技術を駆使します。
次にこれらのデータを入力として、人間の感情や個性、コミュニケーションなどに関連する「変数」を推定する機械学習の問題として定式化します。これにより計算機が「この人はコミュニケーション力が高い、あるいは低い」と推定するわけです。

このように社会的信号処理は、センシング、信号処理、機械学習、パターン認識、データマイニングなど人工知能に関連の深い技術を統合的に扱いつつ、人間の行動やコミュニケーションの理論を構築する社会学・言語学・心理学などの知見も求められる、学際的な研究分野なのです。

話し方や会話中の所作からコミュニケーション能力を推定

具体的な研究事例を紹介しましょう。
近年、就職の選考方式のひとつとしてグループディスカッションを導入している企業が増えています。与えられたテーマについて小グループで議論し結論を出す流れの中で、人事担当者が学生のコミュニケーション能力を見るわけです。

岡田将吾准教授

ここに社会的信号処理の技術を適用して、計算機にグループディスカッションにおけるコミュニケーション能力を推定させようというのが私たちの研究(「マルチモーダル情報に基づくグループ会話におけるコミュニケーション能力の推定」)のアイデアでした。
具体的には、初めて顔を合わせる学生40名を集め、通常の人事採用と同じように小グループに分かれてディスカッションを行い、各参加者の発言の仕方、聞き方、発言の内容などの特徴量を抽出しました。
これとは別に、ディスカッションの映像を21名の人事採用経験者に見せ、参加者のコミュニケーション能力を評価してもらいました。21名はバックグラウンドはばらばらですが、評価値の一致度は非常に高いということが分かりました。そして上記の特徴量から評価値を推定するモデルを構築したところ、評価実験の結果では93%の精度で総合的なコミュニケーション能力値を推定できることが示されました。
世界で初めてコミュニケーション能力を測定しようというチャレンジが認められ、本研究は、人工知能学会の創設30周年記念論文賞(2016年度)の最優秀論文に選ばれました。

企業の人材育成の現場ではコミュニケーション能力の向上が重視されています。また、人間とより自然に、より円滑にコミュニケーションを行える対話ロボットへの期待も高まっています。社会的信号処理の技術は、こうした場面への応用が可能です。
実際、JAISTに着任してから企業との共同研究が複数スタートしています。現在進行中の産学共同研究のひとつが、社内のプレゼンテーション研修において社会的信号処理技術を応用するというものです。現在は社内の講師が社員のプレゼンスキルを評価し、改善点をフィードバックしているわけですが、これと同じことを行う人工知能をつくろう、というものです。
当研究室ではこのように、実社会で私たちの技術がどのように応用できるかを実証することに重きを置いています。

人間の行動や、人間同士のインタラクションを解明したい

当面の目標としては、まず人間のコミュニケーションを理解して実現する人工知能を実現したいと考えています。
その他にもやりたいことはたくさんあります。たとえば、人が他者の話しを聞いて面白いと感じるのはどんなときか。人が見て感動するダンスとはどういうものか。観客が感じる俳優の個性とは何か。そういった人間の行動や人間同士のインタラクションを数値化し、解明していきたいと考えています。
准教授になった今も、自身で研究を行い、研究をする学生の目線で議論できるように心がけています。教育の面では、学生との目線の近さ、距離の近さを活かして、口で言うよりも自分自身が実際に研究をしている背中を見せたいと思っています。
コミュニケーションを含む人間の社会的なふるまいを処理する計算の理論構築、コミュニケーションする人工知能の実現に向けた、多くの課題解決に一緒に取り組む学生さんを歓迎しています。

平成31年1月掲載

PAGETOP