人間情報処理領域【党研究室】
■研究概要
音声によるコミュニケーションや摂食・嚥下運動が人間の生存または生活の質にかかわる基本活動である。それらの活動を実現する中心的な生理器官は舌などである。本研究室では,舌などの生理学的モデルの開発と利用を中心として,音声生成過程及びその逆の認知過程に着目し,それらのメカニズムの究明と研究成果の応用に力を入れている。また,発話器官の最も重要な役命である摂食嚥下に関連する疾患の治療支援としてモデルの応用研究を展開している。
■三次元生理学的モデルを改善
三次元MR画像と解剖学的データに基づいて下図のような三次元生理学的モデルを構築した。このモデルは人間と同様に筋の収縮力により駆動され,拡張有限要素法を用いて舌の大変形と剛性器官の動きを高速かつ正確に実現した。このモデルを用い,発話を中心として人間の生存にかかわる摂食嚥下運動のメカニズムの究明と疾患治療の支援について研究を行っている。
■個性のある音声合成システム
声の個性を決めるものは,音声の生成に関与する発話器官の形状とその動きにおける個人ごとの差異である。上記のモデルを完全三次元に拡張して形状的個人差を取り入れ個性のある音声合成器を構築する。
■音声生成と知覚との相互作用
会話では話者と聞き手との間または人間の脳には音声生成と知覚に言葉鎖というロープが存在するとされている。しかし音声生成と知覚とがどのように相互作用しているかがまだ分かっていない。ここで,我々は二つの側面からこの問題を攻める。音声波から発話状態への推定では,上記の発話モデルを用いて発話状態の全局最適・局部最適を明らかにすることにより逆推定の多意性問題を最小化する。音声の生成系と知覚系との相互作用について,変形聴覚フィードバック実験を介して,人間の脳における音声生成・知覚のコミュニケーションの過程を明らかにする。
■音声による異文化間のコミュニケーション
会話時に言葉が理解できない場合でも相手の感情を理解できることがある。それは人間の感情認知には文化背景を超えた共通要素が存在すると考えられる。ここで,様々な音声に対して,多文化・多感情からなる空間において,心理学,認知科学と物理学の側面から,人間が持つ共通要素を明らかにする。
■音声波から発話状態を可視化
聴覚障害者は聴覚フィードバックがないため発話訓練には深刻な問題がある。上記のモデルを用い音声波から発話状態を推定して可視化することにより聴覚障害者または語学学習者が視覚フィードバックを介して自己の発話器官状態を正確に把握して効率的に発話訓練できるシステムを構築する。
■生理学的モデルの医療への応用
上記の生理学モデルを用いて舌癌手術の模擬により術後発話障害を最小化する手術の立案支援システムの構築について国内や海外の複数大学と連携して研究を行っている。
また,このモデルを用いて嚥下障害の模擬により病因の究明と治療にも研究している。
■代表的な著書・論文
- Dang, J., Akagi, K. and Honda, K.(2006):Communication between
Speech Production and Perception within the Brain -Observation
and Simulation-, J. Computer Science and Technology, 21(1),95-105.
- Dang, J. and Honda, K.(2004):Construction and control of
a physiological articulatory model", Journal of Acoustical
Society of America, Vol.115, No.2, 853-870.
- Dang, J. and Honda, K.(2002):Estimation of vocal tract shape
from sounds via a physiological articulatory model", Journal
of Phonetics, Vol.30, 511-532