伊藤研究室　研究紹介

両腕運動を用いた歌唱音声の合成

人を笑顔にする娯楽装置 　音声は舌や声帯など多数の発声器官の協調的な運動により生成されます。本研究室では手や足など非発声器官の運動により、音声の音量，音程，音韻をリアルタイムで制御する歌声合成システムを開発しています。この様なシステムでは操作性と表現力がトレードオフの関係にあり、例えば表現力豊かな音声を出力しようとすると、その分だけ操作が複雑になってしまいます。この問題を解決するために、いろいろなアイディアを検討し、それをシステムに実装して評価することが重要だと考えています。使う人や見ている人が自然と笑顔になるような娯楽装置を目指して研究を続けています。

歌声合成システムのデモンストレーション

2010年度	2011年度	2012年度
動画：Win / Mac	動画：Win / Mac	動画：Win / Mac

耳介形状を利用したモノラル音源定位

耳の形は十人十色 　音がどこからやってきたか判断することを音源定位と言います。人間は左右に一対の耳を持っていますから、両耳に届く音の違いを聞き分けることで左右方向の音源定位ができます。では上下方向の音源定位はどのようにして行っているのでしょうか？このメカニズムは完全には解明されていませんが、耳たぶ（耳介）の形が大事な役割を果たしていると考えられています。耳介は複雑な形をしていて、上からやってきた音と下からやってきた音では反射する部位が違います。この方向による反射特性の違いが、上下方向の音源定位の手がかりであるという考え方です。本研究室では、実際に様々な人の耳介の模型を作成し、その音響特性を分析することで音源定位メカニズムの解明を目指しています。

成人男性の耳介模型（石膏）

※2012年度東北大学電気通信研究所共同プロジェクト研究発表資料

正弦波モデルに基づく音響信号の高精度分析と変換

次世代の音声信号処理技術 　音声は振幅や周波数など物理的な特性が時間とともに変化する非定常信号です。振幅と周波数が変化する正弦波成分の和として近似する正弦波モデルを用いると、この様な信号を高精度で分析することができます。本研究室で開発した局所変化率変換（LVT）は、音声信号の振幅スペクトルだけでなく位相スペクトルも利用することで、これまでの手法より精度の高い分析を行うことに成功しました（右図）。現在は、この分析で得られる音響パラメータに基づいて、自然性の高い声質変換や、複数の音が混合した入力信号化から目的とする音声だけを抽出する音源分離技術の実現を目指しています。
※ Ito and Yano (2007), J. Acoust. Soc. Am. Vol. 121(3), pp.1731-1741.

6脚歩行ロボットの音声制御

UNDERCONSTRUCTION...

海中ロボットの超音波通信

UNDERCONSTRUCTION...

両腕運動による歌声合成
耳介形状と音源定位
正弦波モデルと声質変換
６脚ロボットの音声制御
海中ロボット超音波通信

伊藤研究室 研究紹介

伊藤研究室　研究紹介