
コンピュータに耳と等価な機能をもたせる 試みをしています
音情報処理学研究室 Laboratory on Acoustic Information Science
教授:鵜木 祐史(UNOKI Masashi)
E-mail:
[研究分野]
マルチメディア情報ハイディング、聴覚情報処理、音声信号処理
[キーワード]
音響情報ハイディング、聴知覚モデル、変調知覚、音環境理解、音声セキュリティ、深層学習
研究を始めるのに必要な知識・能力
聴覚心理学・生理学、情報科学の知識やプログラミング技術、プレゼン能力を必要とします。これらは研究室独自のゼミを通じて皆で知識をつけ能力を伸ばしていきます。一番求められることは、音の研究が大好きで、やりたい研究をやり通す強い気持ちをもっていることです。
この研究で身につく能力
チャレンジングな研究課題に取り組むため、研究に関する専門性が非常に高くなります。また、研究課題に関係なく、共に研究活動を深めていくことで、論理的思考や豊かな発想をもつ能力が向上し、プレゼン能力・技術論文等の執筆能力が磨かれます。博士前期課程(修士)の学生は、与えられた問題を自力で解決する術を身につけるため、研究課題が変わっても広く対応することができます。博士後期課程の学生は、研究に関する高い専門性を有するとともに、広い視点から研究課題を洞察する力をもち、自ら研究課題を発見してそれを解く能力を身につけることができます。基礎研究だけでなく、産学官連携を通じて応用研究まで視野にいれているため、将来はアカデミアの道に進むだけでなく、企業の研究・開発者としての道に進むこともできます。
【就職先企業・職種】 情報通信技術、音響機器、自動車関連企業など・システム開発研究職、研究職
研究内容
私達人間は、雑音や残響がある実環境において、いともたやすく狙った音を聴きとることができます。また、注意を誘導することにより、このような優れた能力をさらに発揮することができます。しかし、同じことを計算機上で実現することは非常に難しい問題です。もし計算機上に聴覚と機能的に等価な信号処理システムを構築することができれば、音声認識のための前処理や補聴システムといった様々な音信号処理に応用することができます。鵜木研究室では、聴覚の優れた能力に着目し、聴覚的な音信号処理の実現を目指しています。
*聴覚特性に基づいた信号分析
聴覚の主な機能は、音信号を周波数分析すること(能動的な周波数選択性)です。この分析は、非線形処理であることが知られています。本研究室では、聴覚心理物理実験から聴覚の優れた周波数選択性の機能を解明し、その実験結果に基づいて、聴覚による信号分析と機能的に等価な聴覚フィルタバンクの構築を試みています。さらに、注意を考慮した周波数選択性の機能解明にも取り組んでいます。
*聴覚特性を考慮した音信号処理
聴覚フィルタバンクを利用した音声信号処理の応用として、選択的音分離法(狙った音を聴きとる「聞き耳」モデル)や雑音残響除去法、変調伝達関数に基づいた残響音声回復法、骨導音声の明瞭度回復の研究を行っています。ここでは、非線形フィルタバンクとその後段の信号処理を確立することで、カクテルパーティ効果のモデル化にも応用することができます。
最近では、図1に示すように、AI音声合成技術の悪用を防ぐために、入力した音声がディープフェイク音声であるかを自動的に識別する仕組みの研究に取り組んでいます。ここでは、聴覚的スペクトルの特徴など包括的に調査し、機械学習ベースで合成されたなりすまし音声の検出がどの程度で可能か検討しています。これまでの検討から、音声の基本周波数成分の振幅と周波数の時間変動の特徴であるシマーとジッター、ならびに音色指標に関する音響特徴がフェイク音声の検出で利用すべき最良なものであることがわかってきました。
図1 ディープフェイク音声の検出課題
主な研究業績
- Anuwat Chaiwongyen, Suradej Duangpummet, Jessada Karnjana, Waree Kongprawechnon, and Masashi Unoki, “Potential of Speech-pathological Features for Deepfake Speech Detection,” IEEE Access, vol. 12, pp. 121958 – 121970, Aug. 2024. DOI: 10.1109/ACCESS.2024.3447582.
- Takuto Isoyama, Shunsuke Kidani, Masashi Unoki, “Computational models of sound-quality metrics using method for calculating loudness with gammatone/gammachirp auditory filterbank,” Applied Acoustics, Volume 218, 109914, March 2024. DOI: https://doi.org/10.1016/j.apacoust.2024.109914
- Candy Mawalim, Benita Angela Titalim, Shogo Okada, Masashi Unoki, “A Non-Intrusive Speech Intelligibility Prediction Using Auditory Periphery Model under Hearing Loss Perception,” Applied Acoustics, vol. 214, 109663, 2023. DOI: https://doi.org/10.1016/j.apacoust.2023.109663
使用装置
聴覚心理物理実験装置
防音室・簡易防音室・簡易無響室
機械学習向け高速計算サーバー
室内音響測定装置
研究室の指導方針
鵜木研究室では、π型(二つの研究課題を柱とした)研究アプローチをとっています。一つは、聴覚機能解明に関する「聴覚科学」、もう一つは、音信号処理に関する「情報科学」の研究です。二つをあわせて「聴覚的信号処理」の研究に取り組んでいます。この研究課題に取り組むために、主に輪講・ゼミを活用して、聴覚心理学、聴覚生理学、情報科学の分野を土台として、広く聴覚・音声・音響信号処理の知識を深めていきます。研究は一人で行うことが多いですが、私とはマンツーマンで、研究室メンバーとはともに切磋琢磨して、楽しい研究の時間を共有していきます。
[研究室HP] URL:https://www.jaist.ac.jp/~unoki/