本文へジャンプ

人間発話のメカニズムをコンピュータにより
再現することで、多彩な生活を創ろう

党研究室 DANG Laboratory
教授:党 建武(Dang Jianwu)

E-mail:jdangjaist.ac.jp
[研究分野]
音声信号処理、音声科学、音声生成、言語障害
[キーワード]
音声・音響分析、生理学的発話モデル、音声生成と知覚の相互作用、発話運動の神経制御メカニズム

研究を始めるのに必要な知識・能力

数学に関しては、基礎的な微分・積分、線形代数、物理学に関しては、運動方程式などの知識が必要で、ある程度のプログラミングのスキルがあり、音声信号処理または人間のメカニズムの研究に興味があることです。

この研究で身につく能力

研究活動は、問題の発見、問題の解決及び研究成果の発信などの環節からなります。修士研究においては、音声信号処理などの基礎知識や関連分野の新しい研究成果の学習を通して、世の中に注目されている問題や解くべきテーマを見つける能力を育て、専門知識やプログラムのスキルをきっちりと身につけて、それを使いこなして解決する能力を獲得します。日常のディスカッションや週報を通して、十分なコミュニケーション能力とプレゼンテーション能力を身に付けることを目指します。この際、日本語だけではなく、英語の文献を読む能力を身に付けます。

【就職先企業・職種】 情報通信・情報処理産業、教育機関、研究機関、技術コンサルタント会社など

研究内容

 音声によるコミュニケーションは話者と聞き手との間音声生成と音声知覚からなるロープにより実現しています。そのロープは人間の脳にも言葉鎖(speech chain)として存在するとされています。本研究室では、発話意図から音声波の生成までの音声生成過程及び音声波から発話意図への逆過程に着目して、そのメカニズムの究明及び、その研究成果の音声合成・音声認識または音声に関する疾患の治療への応用を目的として研究を展開しています。

1)生理学的モデルによる音声生成過程の再現

 三次元MR画像と解剖学的データに基づいて舌、下顎、舌骨、口唇、軟口蓋及び声道壁などを含む三次元生理学的調音モデルを構築しました。この調音モデルは舌筋が11個と顎に関連する筋が8つあり、動きが人間と同様に筋の収縮力により駆動されており、有限要素法を用いて舌の大変形と下顎の動きを高速かつ正確に実現しました。このモデルを用い発話目標から合成音声までの発話過程を再現しています。

2)音声生成の逆過過程ー音声認識法の研究

 音声認知は人間の脳にある言葉鎖が関与した音声生成の逆過程です。しかし現行の音声認識方法のほとんどは、人間のメカニズムを重視せず統計的な手法により音声の音響特徴量から直接発話記号にマッピングします。高性能かつ頑健な音声認識手法を開発するには
音声波から発話状態の逆推定:生理学的調音モデルにより、発話の音素系列から調音目標系列、調音運動と音声データまでの生成過程を実現して音声認識用のトレーニング用のデータベースを作成します。また、音声波から逆過程を推定しながら、人間の音声生成・知覚メカニズムを究明します。
人間のメカニズムを考慮した認識法:隠れマルコフモデルとDNN(Deep Neural Network)とが結合されたアルゴリズムに基づいて人間の音声生成・知覚メカニズムを考慮した音声認識手法を開発します。

3)音声波から発話状態を可視化

 発話器官の働きを聴覚以外の感覚で理解することが難しい。これは、聴覚フィードパックのない聴覚障害者が発話訓練を行う上で深刻な問題です。上記のモデルを用い音声波から発話状態を推定して可視化することにより聴覚障害者または語学学習者が視覚フィードバックを介して自己の発話器官状態を正確に把握して効率的に発話訓練します。

4)個性のある音声合成に関する研究

 声の個性を決めるものは、音声の生成に関与する発話器官の形状とその動きにおける個人ごとの差異です。この個人差には、生まれつき備わったものと、習慣として身についたものとがあります。これらの要素を生理学的調音モデルも取り入れ、個性のある音声合成器を構築します。

5)生理学的モデルの医療への応用

 このモデルを用いて舌癌手術の模擬により術後発話障害を最小にすることが可能です。また、モデルを用いて嚥下障害の模擬により病因の究明と治療に応用できます。

主な研究業績

  1. X. Wu, J. Dang, and I. Stavness (2014). An iterative method to estimate muscle activation based on a physiological articulatory model, Acoust. Sci. Tech., 35, 201-212.
  2. S. Hyon, J. Dang, H. Feng, H. Wang, K. Honda (2014). Detection of speaker individual information using a phoneme effect suppression method, Speech Communication, 57, 87–100.
  3. B. Liu, Y. Lin, X. Gao, J. Dang (2013). Correlation between audio-visual enhancement of speech in different noise environments and SNR: A combined behavioral and electrophysiological study, Neuroscience, 247, pp.145-151.

使用装置

磁気センサーシステム

研究室の指導方針

本研究室では、音声生成やモデリングの研究活動を正しく理解し、問題発見と問題解決ができる学生を育成することを目指しております。関連する最新な研究論文のサーベイにより問題発見能力を育て、プログラミングスキルの向上や研究開発の参加により問題解決力を見つけます。コミュニケーション能力を向上するため、学生が主導する研究発表会をほぼ毎週行います。

[研究室HP] URL:http://iipl.jaist.ac.jp/dang-lab/ja/

ページの先頭へもどる