かつて聖徳太子は同時に10人の訴えを聞きそれを処理した、と言われている。我々一般人がこれを真似ようとしても旨くは行かないだろうが、10人の中の一人の話す内容に注目して聞き取ることは、我々にとってもさして難しいことではない。このように、二つ以上のメッセージが混在していても一方を選択的に聴取可能であるような聴覚上の効果を「カクテルパーティ効果」と呼んでいる。もし、必要な音だけを選択し他の音を除外するというような音源分離問題を解くことができれば、実環境におけるロバストな音声認識システムの実現が期待できる。
カクテルパーティ効果が生じる原因としては、音の到達方向の違い、音源のピッチの違い、音色の違い、また音声の場合には言語的知識、経験などが関係していると見られているが、未だにはっきりしたことはわかっていない。しかし最近、音による情景理解(auditory scene analysis:ASA)に関する研究から新たな知見が報告されつつある[9]。
本文では、カクテルパーティ効果(あるいは、カクテルパーティ効果の重要な側面の一つである音源分離)のモデルとして、音知覚過程からのアプローチであるASAを基としたモデル[10]-[12]と両耳聴の知見を取り入れた雑音除去モデル[13][14]を紹介する。
2.1 ASAのモデル[10]-[12] (研究期間:1992 - )
近年、心理物理学からの知見を取り入れてカクテルパーティ効果のモデル化を試みる研究が見られる。Bregmanによる音による情景理解に関する研究から、人間が音声あるいは音楽を聞く場合、個々の物理的特徴の分離(segregation)/群化(grouping)が起こり、群化された物理的特徴から一連の流れ(stream)を形成した上で聞き取っていることがわかってきた。
Bregmanは、音を通じて環境を把握する情景解析の問題を解くために聴覚がストリーム形成に利用している制約条件のいくつかを音響事象に関係する4つの発見的規則:
(I) 共通の立ち上がり/立ち下がりに関する規則
(II) 漸近的変化に関する規則
(III) 調波関係に関する規則
(IV) 1つの音響事象に生じる変化に関する規則
としてまとめている。そして、これらの発見的規則を物理的制約条件としてとらえ直すことにより、計算論的な聴覚の情景解析の問題を解くことが可能である。
例として筆者らが行った二波形分離問題[10]-[12]について紹介する。
図6に二波形分離の概略図を示す。本システムはAuditory filterbank部、Segregation部、Grouping部の3つの場面からなっている。
今、信号と雑音
が加算された波形
が観測されたとする。Auditory
filterbank部では、観測された波形を聴覚特性を考慮したフィルタであるガンマトーンフィルタ[24]を基底関数とするWavelet分析系に入力し、帯域ごとに分割する。このとき、ガンマトーンフィルタのヒルベルト変換対を考えて瞬時振幅
と瞬時位相
を計算しておく。次に、Separation部では発見的規則(II),
(IV)を考慮して、各フィルタ内で信号の振幅
と雑音の振幅
、それに信号と雑音の位相差を推定する。最後に、Grouping部において、発見的規則(I),
(III)を用いて、信号と雑音それぞれに関係する振幅成分と位相成分を集め、逆Wavelet変換により信号と雑音の波形
を推定する。この処理を行えば、同一周波数帯域に信号と雑音が存在していても分離可能である。
この一連の処理によって求められた波形は、対数スペクトル歪みが約20 dB改善されている。
2.2 雑音除去モデル −NORPAM− [13][14] (研究期間:1993 - )
機械による音声認識においては、雑音等で汚れていないきれいな音声ではほぼ実用レベルに達してはいるものの、周囲雑音が存在する場合には認識率の著しい低下は免れない。一方、人間は周囲雑音が大きく、複数の話者が存在しているような状況、あるいは、残響のある環境においてさえも、左右の耳で着目する話者の音声を選択的に聴取することができる。この能力は、音環境にほとんど影響を受けず頑健である。
音声認識におけるこの問題を解決するために、適応フィルタを用いて雑音を抑圧する方法、マイクロホンアレイを用いて着目する話者の方向の指向特性を鋭くする方法など様々な音響的前処理方式が研究されている。しかし、これらの方法は高速な信号処理装置、また、アレイを形作るための多数のマイクロホンを必要とするため、装置は大がかりとなり実用的ではない。自動車内での音声による携帯電話・ナビゲーションシステムの制御、混雑した環境での自動販売機への音声入力などへの応用を考えれば、マイクロホンの本数が少なく、しかも簡単な処理で雑音・残響抑圧ができる小規模の前処理装置が必要である。
そこで、マイクロホン対を用いて信号音以外のある一方向の時間・周波数が局在した雑音を推定し、推定した雑音を引きさることによって信号音を浮かび上がらせる手法を提案した[13] 。主マイクロホン2本と補助マイクロホン1本を用いた場合の性能評価の結果(図7)、合成波形を用いたシミュレーションの場合SN比が10〜20dB向上し、実環境では雑音が含まれない信号音との対数スペクトル距離が約5dB減少した。
また、音声認識の前処理装置として用いることを前提として、推定した雑音を引き去る場合に、推定した雑音波形そのものを引き去るのではなく、音声認識で良く用いられている振幅スペクトルを引き去る方法(Spectral Subtraction)を用いて雑音除去を試みた[14]。その結果、突発雑音、非定常雑音も除去可能であることが明らかとなった。