PCサイトを見る

研究

教員インタビュー(この人に聞く)

赤木正人教授

音声信号処理~機械の耳と口を賢くする~

赤木正人教授

情報科学研究科 赤木正人教授

1984年、日本電信電話公社武蔵野電気通信研究所(NTT基礎研究所)に入所。同研究所に在籍中に(株)国際電気通信基礎技術研究所(ATR)に出向。1992年にJAISTに着任。社団法人日本音響学会会長も兼務。専門分野は聴覚・音声知覚モデル、音声情報処理、音声のディジタル信号処理。

スマートフォンやカーナビなど、私たちの暮らしはすでに音声を認識し、それに対してある動作を自動に行ってくれるシステムに囲まれています。しかし機械による音声認識システムには機能的にまだまだ進化の余地があります。
赤木教授は、まず人間の聞く・話す能力について知り、これをコンピュータ上に投影することで、高度な音声処理システムの実現を目指しています。

“ヒト”の振り見て吾が振り直す

私たち人間は、空間にあふれるさまざまな音の中から必要な音だけを聞き取り、また聞き取ったことをもとに新たな発話を行うことで、音声コミュニケーションを実現しています。しかし人間と機械、あるいは機械同士が適切にコミュニケーションできているかというと、そうはいえません。
音声コミュニケーションについては多くの研究者がさまざまな観点で研究を進めていますが、私たちの研究室ではまず人間の「聞く」「話す」能力を観測し、モデル化し,そしてそのモデルを応用するというスタンスで研究を進めています。
人間の音声コミュニケーションの基本は「ことばの鎖」と呼ばれており、図のように話し手と聞き手の間で音声生成過程と音声知覚過程が繰り返されることで成り立っています。このメカニズムをできる限り忠実にコンピュータ上に再現しようというのが私たちのアプローチです。そんな意味で文字通り「ヒトの振り見て吾が振り直す」ということを研究室のモットーとしています。
当研究室では「ことばの鎖」のうち、音声発話、音声伝播、音声知覚に関連する部分を対象としています。このため工学(ディジタル信号処理)に軸足を置きつつも、心理学、生理学などの分野の知見が欠かせません。また他の部分をカバーする研究者とグループで研究を進めることで、「ことばの鎖」全体をモデル化したいと考えています
音声コミュニケーションの研究:赤木研究室のコンセプト

ヒトの耳を忠実に模倣して雑音を抑制

さまざまな雑音が存在する状況では、人間は音声が聞き取りにくく、機械による音声認識システムの認識率も低下します。私たちの研究室では、雑音を抑圧することで人間にとって聞き取りやすい音、機械にとって認識しやすい音を抽出することに成功しています。
前者の応用としては、補聴器のための雑音抑圧への適用を図りました。後者の応用としてはカーナビへの音声入力用マイクロホンアレイの開発を行いました。いずれについても当研究室が前提としたのは、人間が左右の耳で音を聞き取っていることをまねて、2本のマイクで小規模かつ高性能なシステムを実現するということです。手法としては、一方向からの目的音が2本のマイクにそれぞれ到達するときに生じる時間のズレを利用して目的音をいったん消去し、雑音のみを浮かび上がらせ、この雑音を原音から抜き取ることで雑音を抑圧し、最終的に目的音を抽出します。多くのマイクを使って目的音を抽出する一般的なシステムに対し、非常に画期的な方法だといえます。

「聞き耳を立てる」をモデル化

人間にはさまざまな雑音が存在する状況で、特定の情報を選択的に認識できる能力があります。いわゆる「聞き耳を立てる」というもので、パーティ会場など騒がしい環境でも狙った音を聞き取れるということから「カクテルパーティ効果」と呼ばれています。研究室ではこの仕組みのモデル化を進めています。
既に、複数の楽器が複数のメロディを奏でる混合音から、あらかじめ楽器の音色とその楽器の楽譜情報を与えることで、狙った楽器音だけを拾うことに成功しています。
カクテルパーティ効果を逆手にとって開発したのが、会話の盗み聞き、漏れ聞きを防ぐ会話保護システムで、共同研究のパートナーであるグローリーが「ボイスガード」として製品化し、昨年9月から販売しています。これは銀行の相談窓口や薬局の受付などオープンスペースで会話の個人情報を保護することを目的にしたもので、人間が出した声の音韻情報を分からなくする妨害音をスピーカーから出します。これにより第三者はいくら聞き耳を立てても、耳慣れない意味不明の音声しか聞こえません。この技術はJAISTとグローリーが共同して日本はもとより海外五カ国で特許を取得しました。

音声に含まれる非言語情報に着目

音声には2種類の重要な情報が含まれます。ひとつは言語情報そのもの、もうひとつは話し手の喜怒哀楽、性別、年齢、社会的ステータスなどを含む非言語情報です。たとえば電話口で聞いた「もしもし」という声には言語情報としての意味は「もしもし」しかありませんが、聞いたとたんにクレームの電話だと分かることがあります。この言葉にしていないのに伝わる情報が非言語情報です。
言語情報の研究は盛んになされていますが、非言語情報の研究はあまり進んでいません。当研究室では国内外の研究機関と連携して音声コミュニケーションにおける非言語情報の役割を明らかにする研究調査を行っています。これまでに感情や歌声などの非言語情報を平静な音声に付加するための様々な手法を開発しており、これを用いて平穏な口調の音声から感情を込めた音声を合成したり、話し言葉に歌声らしさという非言語情報を与えたりといった実験を行っています。歌声合成の世界コンテストであるInterSpeech2007 Synthesis of Singing Challengeにおいて当研究室は第1位を獲得しました。それだけでは満足せず、その後はファルセットボイスの合成にも挑戦しています。
なおこの非言語情報の研究については、「音声中の非言語情報の生成・知覚の特性解析と多言語間コミュニケーションへの応用」というテーマで平成19年度のSCOPE(総務省戦略的情報通信研究開発推進制度)の採択を受けています。

音声コミュニケーションの新たな枠組みの構築へ

より生理学、医学的な観点からも研究を進めています。口腔疾患のために構音が正常にできず、発話した音声にひずみを生じることがあります。これを異常構音といいます。私たちはMRIによって取得した声道形状から伝達特性をシミュレートすることで異常構音の生成機構の解明を試みており、昭和大学歯学部、東京医科歯科大学と共同して研究を進めてきました。
以上のように音声コミュニケーションを阻害する要因は雑音、残響などの外的要因、言語の違い、あるいは口腔疾患等のために構音が正常にできないなど、多岐に渡ります。私たちの研究の本質は、どうやってこうした阻害要因を取り除き、人間の営みをサポートするか、というところにあるといえます。
当研究室ではこれまで、さまざまな阻害要因を個別の研究対象として扱ってきました。しかし今後は別々にモデル化したものを統合して、音声コミュニケーションの大きな、そして新しい枠組みをコンピュータ上に構築したいと考えています。

平成24年8月掲載

PAGETOP