まえがき

 人間が相互にコミュニケーションを行う場合、言葉を発して相手に自分の考え、感情などを伝えようとする一方で、相手が伝えてきた考え、感情などの情報を受け取り、理解して、そして、適切な応答を行う手段が必要である。自分自身の中でこのサイクルが上手くまわることによって、コミュニケーションが保たれる。このサイクルのことを“ことばの鎖”(図1)と呼んでいる。機械による音声認識は、「ことばの鎖の中の音声知覚過程を工学的に実現する一つの応用問題」、と言うことができる。将来的に“ことばの鎖”がすべて機械の上に実現され、機械と違和感なくコミュニケーションが行われる状況が来るためには、この応用問題を解かなければならない。

 そこで、「言葉を話す、言葉(音)を聞くは人間の営みである」という原点に立ち返り、機械による音声認識において問題となっている様々な点について、人間の優れた特性から問題解決のヒントを得て、これを解決しようとする研究が行われている。これは、人間には簡単であるが機械は苦手な次のような問題について、音響心理/生理の知見に基づいて解決を試みるアプローチである。

 (1) 調音結合の補正、

 (2) 雑音環境下での信号音の抽出、

 (3) 個人性の制御

 このような研究を行うためには、まず、(a) 解剖学、生理学、心理学から得られた聴覚におけるの知見を整理し、工学的に応用できるかどうかを見極める必要がある。また、知見が不足している場合は自らが測定を行う。そして、 (b) 工学的に応用できるものが見つかれば、これを基にして働きを機能的に模擬するモデルを構築する。この場合に、聴覚特性の関数解析的モデル化とこれを計算機上に実装するディジタル信号処理技術が必要である。最後に、(c) 構築したモデルを音声認識、音声分析・合成へのシステムに適用し、その有用性を検討する、ことが必要である。すなわち、このような研究を行うためには、図2に示すように、工学、心理学、生理学にまたがった分野での総合的な研究が必要なのである。

 本文では、このような研究手法で実際に行った研究のいくつかを研究期間もまじえて紹介する。

図1 ことばの鎖
図2 研究の関連分野