SlideShare a Scribd company logo
“Improve Overlapped Speech Handling
for Speaker Diarization”
論文情報
タイトル
“Improve Overlapped Speech Handling for Speaker Diarization”
著者
Lawrence Livermore National Laboratory,International Computer
Science Institute(アメリカカリフォルニア州にある研究所)
掲載誌
INTERSPEECH 2011
目次
1.Introduction
2.Baseline ICSI speaker diarization engine
3.Overlapped speech handling
4.Features
5.Experimental results
6.Conclusion
論文概要・導入
◇Speaker Diarization(話者特定)
• 音声から話者を特定する技術
• 会議の議事録の自動生成における「だれがいつ話したか?」
 近年、話者特定の技術はとても発展しているが、重複音声に対してはう
まく処理が行えていなかったため、本研究では重複音声をターゲットに
話者特定の精度向上を目指す
話者Aによる発話
話者Bによる発話
オーバーラップ
ICSI speaker diarization engine
比較のためのベースライン
• International Computer Science Institute (ICSI)が開発
• ベイズ情報量基準(BIC)スコアと凝集型階層的クラスタリングを用いる
• BICスコアは19次MFCCとGMMを用いて計算
Diarization error rate (DER)
今回主に評価に用いる値で、全音声に対してエラー時間の合計の割合
実際の発話
推定結果
False alarm
Missed speech
過去の研究では、推定結
果に一人しか割り当てる
ことができなかった
重複音声に対する処理
処理の手順
1. Overlap detection(重複個所の特定)
2. Overlapped speech exclusion(重複音声の除外)
3. Overlap segment labeling(重複箇所のラベリング)
1. Overlap detection(重複個所の特定)
HMMモデルで音声を3クラスに分類
• Non-speech
• Speech
• Overlapped speech
256成分のGMMを用いて表現
モデルは反復ガウス分割手法でトレーニング
2. Overlapped speech exclusion(重複音声
の除外)
識別されたオーバーラップ部は、話者特定の話者クラスタリング
プロセスから除外
なぜこのような処理を行うのか
• 話者クラスの純度を向上させ、話者エラーを減らすことによって精度
を向上させる
• 後処理ステップでの話者ラベルの割り当ては、話者の事後確率を利
用するため、この手順は除外前処理からも恩恵を受けると考えられる
3.Overlap segment labeling(重複箇所
のラベリング)
重複部と判断された箇所の処理
• 話者特定(前段階)によって導出されたフレームレベルの話者事後
確率が重複部の全フレームで合計され、各話者のスコアを生成
• スコアが最も高い2人のスピーカーがラベルとして選択される
<例外>
初期の話者が3番目として出力された場合
この話者と最高スコアの話者が選択
特定できる話者数は2人と制限される
システム図
追加特徴量
◎分析に用いる特徴量の選択はパフォーマンスを左右する
• 重複個所の特定を行う際には特に重要
• 従来の音響特徴点ではMFCCが良く用いられる
• Speech/non speechの判断にはMFCCで十分
• 重複部の特定には他の特徴量を分析に追加する必要がある
追加特徴量
①尖度、②ゼロ交差率、③調和性
これらを窓幅50msで10msごとに算出
追加特徴量説明(1/2)
①尖度
確率変数の確率密度関数や頻度分布の鋭さを表す指標
正規分布と比べて、尖度が大きければ鋭いピークと長く太い裾をもった
分布であり、尖度が小さければより丸みがかったピークと短く細い尾を
もつ分布
尖度が大きい → 単一話者の確率が高い
尖度が小さい → 複数話者の確率が高い
②ゼロ交差率
振幅の正負入れ替わる数の割合
ゼロ交差率大→雑音、ゼロ交差率小→周期信号
追加特徴量説明(2/2)
③調和性
音声信号の窓内の音響周期性の程度
[求め方]
最尤ピッチ推定手順で得られたピッチピークの標準偏差を計算
[値の使い方]
有声の重複音声の場合、複数のピークセットが存在し、1つのセット
が各重複話者に関連付けられている
これらのピーク値も各話者の高調波エネルギーによって異なり、そ
の結果、ピッチピークの標準偏差は単一話者の有声音声の場合より
も高くなる
実験詳細
使用データ AMI Meeting Corpus(100時間会議会話)
実験データセット
170ある会議からランダムに抽出し、
• 40トレーニング、10チューニング、10テスト
• 重複音声は全体の15%程度
参照セグメンテーション
Old tuning :重複検出と重複音声除外の両方をチューニング
New tuning :2つが独立してチューニング
• 重複した音声除外の改善により、
ほぼ3倍の14.1%に増加し、全体
的な改善は2倍以上の15.1%
• 話者特定の改善に対する除外の寄
与は、セグメントのラベル付けの
寄与より大きい
自動セグメンテーション
自動セグメンテーションはより現実的な運用シナリオ
音声活動領域は、ICSIダイアリゼーションシステムの
speech/non speech検出器を使用して決定
• すべてのレベルでパフォーマン
スのわずかな低下
• 新しいチューニングを備えた新
しいシステムは以前のシステム
を大幅に上回っており、重複し
た音声の除外が主な改善
結論
• 重複音声のセグメンテーションを通じて重複音声に対処する
話者特定の手法の提案を行った
• オーバーラップセグメント化の候補特徴量のセットに適用し、
それらの最も顕著なものを識別して選択することにより、特
徴量分析手法の判別能力分析の有用性を実証
• オーバーラップの除外とラベリングを独立して最適化するこ
とにより、相対的なDERの改善が大幅に向上

More Related Content

More from Natsumi KOBAYASHI

音声分析合成[6].pptx
音声分析合成[6].pptx音声分析合成[6].pptx
音声分析合成[6].pptx
Natsumi KOBAYASHI
 
音声分析合成[5].pptx
音声分析合成[5].pptx音声分析合成[5].pptx
音声分析合成[5].pptx
Natsumi KOBAYASHI
 
音声分析合成[4].pptx
音声分析合成[4].pptx音声分析合成[4].pptx
音声分析合成[4].pptx
Natsumi KOBAYASHI
 
音声分析合成[3].pptx
音声分析合成[3].pptx音声分析合成[3].pptx
音声分析合成[3].pptx
Natsumi KOBAYASHI
 
音声分析合成[2].pptx
音声分析合成[2].pptx音声分析合成[2].pptx
音声分析合成[2].pptx
Natsumi KOBAYASHI
 
音声分析合成[1].pptx
音声分析合成[1].pptx音声分析合成[1].pptx
音声分析合成[1].pptx
Natsumi KOBAYASHI
 
seminar-text_3.pptx
seminar-text_3.pptxseminar-text_3.pptx
seminar-text_3.pptx
Natsumi KOBAYASHI
 
seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
Natsumi KOBAYASHI
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
Natsumi KOBAYASHI
 
seminar-paper_mapping.pptx
seminar-paper_mapping.pptxseminar-paper_mapping.pptx
seminar-paper_mapping.pptx
Natsumi KOBAYASHI
 
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptxseminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
Natsumi KOBAYASHI
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
Natsumi KOBAYASHI
 
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
Natsumi KOBAYASHI
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
Natsumi KOBAYASHI
 
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
Natsumi KOBAYASHI
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
Natsumi KOBAYASHI
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
Natsumi KOBAYASHI
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
Natsumi KOBAYASHI
 
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
Natsumi KOBAYASHI
 

More from Natsumi KOBAYASHI (20)

音声分析合成[6].pptx
音声分析合成[6].pptx音声分析合成[6].pptx
音声分析合成[6].pptx
 
音声分析合成[5].pptx
音声分析合成[5].pptx音声分析合成[5].pptx
音声分析合成[5].pptx
 
音声分析合成[4].pptx
音声分析合成[4].pptx音声分析合成[4].pptx
音声分析合成[4].pptx
 
音声分析合成[3].pptx
音声分析合成[3].pptx音声分析合成[3].pptx
音声分析合成[3].pptx
 
音声分析合成[2].pptx
音声分析合成[2].pptx音声分析合成[2].pptx
音声分析合成[2].pptx
 
音声分析合成[1].pptx
音声分析合成[1].pptx音声分析合成[1].pptx
音声分析合成[1].pptx
 
seminar-text_3.pptx
seminar-text_3.pptxseminar-text_3.pptx
seminar-text_3.pptx
 
seminar-text_2.pptx
seminar-text_2.pptxseminar-text_2.pptx
seminar-text_2.pptx
 
seminar-text_1.pptx
seminar-text_1.pptxseminar-text_1.pptx
seminar-text_1.pptx
 
seminar-paper_mapping.pptx
seminar-paper_mapping.pptxseminar-paper_mapping.pptx
seminar-paper_mapping.pptx
 
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptxseminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
 
seminar-paper_vtln.pptx
seminar-paper_vtln.pptxseminar-paper_vtln.pptx
seminar-paper_vtln.pptx
 
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
 
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
 
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
 
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
 
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
 
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
 
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
 
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
 

seminar-paper_diarization.pptx