学際情報科学論
I. 音声学と音声認識・合成
伊藤 彰則
aito@spcom.ecei.tohoku.ac.jp
この講義の概要
● 音声:音と言語のインタフェース
● 音声の生成と音声学
– 声を生み出す器官
– 人間の音声の特徴と分類
– 音声の音としての特徴
● 音声の認識
– パターン認識の枠組み
– 特徴抽出
– 音響モデル・言語モデル・デコーダ
● 音声の合成
– フォルマント合成 / 波形接続合成 /HMM 合成
音声の生成と音声学
● 人間の声はどうやって作られているのか?
● 人間の声はなぜ多様なのか?
● 人間はどんな種類の声を言語に使っているの
か?
● 発声器官と声の種類との関係は?
● 声の種類と音声の物理的性質との関係は?
● 音声の物理的性質と音声の知覚の関係は?
音声の生成
● 声を生成する器官 Organs for speech production
● 声帯 vocal cord
● 喉頭 larynx
● 咽頭 pharynx
● 舌 tongue
● 歯茎 teethridge
● 歯 teeth
● 口唇 lips
● 鼻腔 nasal cavity
声道
vocal tract
声を生成する器官
声帯
vocal cord 気管
trachea
食道
esophagus
喉頭 larynx
咽頭 pharynx
舌
tongue
軟口蓋
soft palate
硬口蓋
hard palate
鼻腔 nasal cavity
歯茎
teeth ridge
口唇
lips
声帯:声のもとを作る
前
後
声帯
食道へ
梨状窩
(梨状陥凹)
気
管
ビデオをご覧ください
vocal cord
piriform fossa
調音:音を形作る
● 調音
articulation
● 調音位置
Place of articulatuon
● 調音様式
Manner of articulation
調音:音を形作る
●調音位置
Place of articulation
●母音 vowels
●前舌 / 中舌 / 後舌
●Tongue front - back
●子音 consonants
●喉頭 grottal
●咽頭 pharyngeal
●舌背 velar - palatal
●歯 alveolar - dental
●唇 labial
調音:音を形作る
●調音様式
Method of articulation
–破裂音 plosive
–鼻音 nasal
–摩擦音 fricative
–流音 liquid
–はじき音 flap/tap
–ふるえ音 trill
–破擦音 affricate
ビデオをご覧ください
IPA: 音韻の表記法
● 母音 (Wikipedia より )
● 半母音 (semivowel) [w], [j]
IPA: 音韻の表記法
● 子音 (Wikipedia より )
IPA :音韻の表記法
● 変な発音 (Wikipedia より )
音韻 (phone) と音素 (phoneme)
● 音韻:人間が発声する、区別できる音
● 言語によらない
● すべての言語ですべての音韻を言語的に区別す
るわけではない
– 複数の音韻が区別されない(異音)
– 言語として使われない音韻がある
● 音素:言語的に区別される音の最小単位
● 音韻と必ずしも一対一に対応しない
● 例 : いろいろな「ん」の音韻(音素は一つ)
– あんがい [ŋ] / あんざい [n] / あんばい [m]
音素 (phoneme) と音節 (syllable)
● 音節 (syllable) :子音 (C) と母音 (V) からなる音
の塊 (cluster)
● happiness [hæ-pi-nis] 3 音節
● unscramble [ʌn-skræm-bəl] 3 音節
● 音節の構造
● 0 個以上の子音
● 母音(長母音、多重母音)
● 0 個以上の子音
● 長い音節例: scratched [skræʧt] CCCVCC
音声の生成と音声波形
● 音声の生成は物理的にどういう過程か
● 音声波形の特徴はどこにあるのか
● 音声の特徴と発音の関係は
音響管モデル
● 人間の発声機構は
管楽器に似ている
声 帯 声 道
喉 頭
唇
鼻 腔
声の高さ
発声内容
個人性
音韻性と個人性
声 帯 声 道
喉 頭
唇
鼻 腔
この辺の形は
自分で制御できる
音韻性と個人性
声 帯 声 道
喉 頭
唇
鼻 腔
この辺の形,全体の長さ,平均
的な太さなどは自分で制御できな
い
音声の波形
● 結構複雑です
/a/ /i/ /u/
/o//e/
音声の波形
● 複雑だけどおおむね周期的
基本周期
基本周期 T [s]
基本周波数 F0 [Hz] = 1/T
いろいろな「あ」
● 基本周波数の違う2つの /a/
● 音韻としては同じ:声道の形が同じ(と思われる)
● 波形はまったく異なる
● 物理量の何が同じなのか?
音声のスペクトル
● 2つの「あ」のスペクトル
● 大まかな形が似ている→声道形状
● 細かいギザギザは異なる→声帯音源波の周波数
音声のスペクトルとフォルマント周
波数
● F0: 基本周波数
● F1,F2,..: フォルマント (formant) 周波数
基 本 周 波 数
ホ ル マ ン ト 周 波 数
F 0
F 1
F 2
F 3 F 4
母音とフォルマント周波数
●日本語 5 母音はほぼ
F1-F2 周波数で説明さ
れる
●調音とフォルマント
の対応関係
–F1 が舌の位置
(front-back)
–F2 があごの開き
(open-close)
音声合成デモ
音声の知覚
● 発声された音声を人間はどう聞いているのか
● 音声信号に含まれる要素
● 言語情報 (linguistic information)
– 言語的な内容(文字に起こせる情報)
● パラ言語情報 (para-linguistic information)
– 文字には起こせないが、発話の意味や雰囲気、
ニュアンス、感情などに関係する音声の変化
– 音声の高さ(ピッチ)、強さ(パワー)、母音
の引き延ばし、速さなどが関係している
● 非言語情報 (non-linguistic information)
– 自分ではコントロールできない個人性(性別、
体格)
母音の知覚
● 基本的にはフォルマント周波数による
● 範疇的知覚 (categorical perception)
母音の知覚
● フォルマント周波数の値だけでなく、その動き
が重要
子音の知覚
● 子音の種類ごとに異なる
● 音韻の長さ
● スペクトル概形
● パワーの時間変化
● 先行・後続母音の影響

音声生成の基礎と音声学