Using continuous lexical embeddings to improve symbolicprosody prediction in a text tospeech frontend

USING CONTINUOUS LEXICAL EMBEDDINGS
To IMPROVE SYMBOLIC-PROSODY PREDICTION
IN A TEXT-TO-SPEECH FRONT-END
長岡技術科学大学 自然言語処理研究室
修士2年 西山 浩気
Asaf Rendel, Raul Fernandez, Ron Hoory, Bhuvana Ramabhadran, 2016 IEEE
International Conference on Acoustics, Speech and Signal Processing (ICASSP),
March.2016.
⚫ テキストから韻律情報を予測するタスク
◆ どのような特徴から特定できるのか判別が困難
⚫ 本稿では,
これまで使用されていた特徴量に,
単語埋め込みを加えることによる精度変化を調査
⚫ アクセント強調箇所の予測・アクセント句の予測を行い,
いずれも単語埋め込みが精度向上に寄与することを示す
1. 概要
2
⚫ テキストから韻律情報を推定することは,
自然な音声を生成するために重要
✓ アクセント句の分割
✓ アクセントの強弱の割り当て
⚫ ATT(atext-to-speech)システムでは
初めに韻律情報を推定し,
その情報を用いて音声に変換する
2. テキストからのアクセント推定 はじめに
3
⚫ 現状の課題として
✓ 一つの単語に複数のアクセントが存在する
✓ アクセントを同定するために,
入力したテキスト以外の情報が必要となる場合がある
(例えば, 世界知識など)
⚫ より豊かな構文的・意味的表現の獲得が重要
高次元のベクトル表現はデータの希薄さを生み出すため、
代わりに低次元の連続的な表現(Bi-LSTM)を用いる
2. テキストからのアクセント推定 はじめに
4
⚫ 単語埋め込み手法
◆ Word-to-Vector[Mikilov ‘13]
◆ Gloval Vector[Pennington ‘14]
◆ 依存構造解析を利用した埋め込み[Bansal ’15, Levy ‘14]
⚫ 単語埋め込みを用いたアクセント句境界推定[Vadapalli ‘14]
⚫ 本手法では事前に教師ありで学習したモデルに,
単語埋め込みを加える点で異なる
5
2. 先行手法 はじめに
⚫ Bi-LSTM
いくつかのTTSシステムで最高性能
◆ 韻律モデリング[Fernandez ‘14, Fan ‘14, Zen ‘15]
◆ アクセント句境界推定[Rosenberg ‘12]
6
3. 実験環境 提案手法
⚫ Baseline
◼ 品詞タグ
◼ Uni-gramの出現確率(P(ω𝑖))
◼ 後ろに続く句読点の種類
◼ 大文字, 出現位置が先頭, 接続詞, 補助動詞, WH単語
か否か
◼ 木構造における 次の単語とのノード距離
◼ Pitch-Accent Ratio(PAR) :
当該単語があるアクセント型で出現した割合
7
3. 実験環境 提案手法
⚫ 実験コーパス
⚫ 英語を母国語とする女性の3730文のタグ付きコーパス
⚫ 訓練(80%), 開発(10%), テスト(10%)
⚫ それぞれ単語数 47.8k, 6.3k, 5.9k
⚫ Baselineに以下のベクトルを加えることによる精度向上を調査
(括弧内は学習させたコーパス)
⚫ Skip-gram (Gigaword corpus[Graff ‘03])
⚫ CBOW (Google News corpus)
⚫ Glove (Wikipedia and Gigaword corpus)
8
3. 実験環境 提案手法
⚫ BL : Baseline
⚫ LEX-xxx : baselineモデルをone-hotベクトルに変換
⚫ SG-xxx : skip-gramで学習(word2vec)
⚫ SSG-xxx : skip-gramで学習(wang2vec)
⚫ CBOW-xxx : CBOWで学習
⚫ Glove-xxx : Gloveで学習
xxx = 次元数
9
4. 評価
⚫ 単語埋め込みを用いた場合に
精度が0.1ポイント以上向上
⚫ 辞書情報のみで次元数を増やした場合と比較し,
精度の向上が大きい
10
4. Prominence Prediction 評価
⚫ 単語埋め込みを利用した場合でも
精度の向上が少ない
⚫ 次元数を増やすことによる精度の改善も見られない
11
4. アクセント句境界推定 評価
⚫ 韻律情報付与タスクにおける, 単語埋め込みの影響を調査
◆ 3つのWord-to-Vector形式と Gloveモデル
⚫ アクセント句境界推定においては,
単語埋め込み情報の寄与は小さい
⚫ 辞書の情報を特設埋め込む方法では,
データが希薄になり精度が低い
⚫ 埋め込み表現を用いることで改善
⚫ 今後は 他の単語埋め込み方法,
アクセント句境界推定への影響への調査を行う 12
まとめ
1 of 12

Recommended

深層学習を用いた文生成モデルの歴史と研究動向 by
深層学習を用いた文生成モデルの歴史と研究動向深層学習を用いた文生成モデルの歴史と研究動向
深層学習を用いた文生成モデルの歴史と研究動向Shunta Ito
6.3K views41 slides
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec... by
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...
Character-based Joint Segmentation and POS Tagging for Chinese using Bidirec...浩気 西山
251 views18 slides
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding by
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embeddingShinnosuke Takamichi
1.1K views13 slides
seminar-paper_ForeignAccentConv.pptx by
seminar-paper_ForeignAccentConv.pptxseminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptxNatsumi KOBAYASHI
40 views36 slides
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat... by
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...
Phonetic Posteriorgrams for Many-to-One Voice Conversion without Parallel Dat...KCS Keio Computer Society
9.2K views13 slides
Character word lstm language models by
Character word lstm language modelsCharacter word lstm language models
Character word lstm language models浩気 西山
255 views14 slides

More Related Content

More from 浩気 西山

Evaluating non expert_annotations_for_natural_language_tasks by
Evaluating non expert_annotations_for_natural_language_tasksEvaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasks浩気 西山
211 views25 slides
Semi supervised sequence tagging with bidirectional language models by
Semi supervised sequence tagging with bidirectional language modelsSemi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language models浩気 西山
393 views15 slides
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths by
Classifying Temporal Relations by Bidirectional LSTM over Dependency PathsClassifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths浩気 西山
251 views12 slides
Neural Network Language Model For Chinese Pinyin Input Method Engine by
Neural Network Language Model For Chinese Pinyin Input Method EngineNeural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method Engine浩気 西山
392 views17 slides
Are emojis predictable by
Are emojis predictableAre emojis predictable
Are emojis predictable浩気 西山
343 views23 slides
Semantic analysis and helpfulness prediction of text for online product reviews by
Semantic analysis and helpfulness prediction of text  for online product reviewsSemantic analysis and helpfulness prediction of text  for online product reviews
Semantic analysis and helpfulness prediction of text for online product reviews浩気 西山
273 views23 slides

More from 浩気 西山(9)

Evaluating non expert_annotations_for_natural_language_tasks by 浩気 西山
Evaluating non expert_annotations_for_natural_language_tasksEvaluating non expert_annotations_for_natural_language_tasks
Evaluating non expert_annotations_for_natural_language_tasks
浩気 西山211 views
Semi supervised sequence tagging with bidirectional language models by 浩気 西山
Semi supervised sequence tagging with bidirectional language modelsSemi supervised sequence tagging with bidirectional language models
Semi supervised sequence tagging with bidirectional language models
浩気 西山393 views
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths by 浩気 西山
Classifying Temporal Relations by Bidirectional LSTM over Dependency PathsClassifying Temporal Relations by Bidirectional LSTM over Dependency Paths
Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
浩気 西山251 views
Neural Network Language Model For Chinese Pinyin Input Method Engine by 浩気 西山
Neural Network Language Model For Chinese Pinyin Input Method EngineNeural Network Language Model For Chinese Pinyin Input Method Engine
Neural Network Language Model For Chinese Pinyin Input Method Engine
浩気 西山392 views
Semantic analysis and helpfulness prediction of text for online product reviews by 浩気 西山
Semantic analysis and helpfulness prediction of text  for online product reviewsSemantic analysis and helpfulness prediction of text  for online product reviews
Semantic analysis and helpfulness prediction of text for online product reviews
浩気 西山273 views
Effective search space reduction for spell correction using character neural ... by 浩気 西山
Effective search space reduction for spell correction using character neural ...Effective search space reduction for spell correction using character neural ...
Effective search space reduction for spell correction using character neural ...
浩気 西山186 views
1.単純パーセプトロンと学習アルゴリズム by 浩気 西山
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム
浩気 西山3.5K views
1.単純パーセプトロンと学習アルゴリズム by 浩気 西山
1.単純パーセプトロンと学習アルゴリズム1.単純パーセプトロンと学習アルゴリズム
1.単純パーセプトロンと学習アルゴリズム
浩気 西山227 views

Recently uploaded

システム概要.pdf by
システム概要.pdfシステム概要.pdf
システム概要.pdfTaira Shimizu
37 views1 slide
SSH超入門 by
SSH超入門SSH超入門
SSH超入門Toru Miyahara
312 views21 slides
AIで始めるRustプログラミング #SolDevHub by
AIで始めるRustプログラミング #SolDevHubAIで始めるRustプログラミング #SolDevHub
AIで始めるRustプログラミング #SolDevHubK Kinzal
22 views25 slides
図解で理解するvetKD by
図解で理解するvetKD図解で理解するvetKD
図解で理解するvetKDryoo toku
85 views22 slides
how query cost affects search behavior translated in JP by
how query cost affects search behavior translated in JPhow query cost affects search behavior translated in JP
how query cost affects search behavior translated in JPTobioka Ken
9 views16 slides
lt.pptx by
lt.pptxlt.pptx
lt.pptxtomochamarika
72 views13 slides

Recently uploaded(9)

AIで始めるRustプログラミング #SolDevHub by K Kinzal
AIで始めるRustプログラミング #SolDevHubAIで始めるRustプログラミング #SolDevHub
AIで始めるRustプログラミング #SolDevHub
K Kinzal22 views
図解で理解するvetKD by ryoo toku
図解で理解するvetKD図解で理解するvetKD
図解で理解するvetKD
ryoo toku85 views
how query cost affects search behavior translated in JP by Tobioka Ken
how query cost affects search behavior translated in JPhow query cost affects search behavior translated in JP
how query cost affects search behavior translated in JP
Tobioka Ken9 views
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self Introduction
NajahMatsuo7 views
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by 修治 松浦
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦11 views
onewedge_companyguide1 by ONEWEDGE1
onewedge_companyguide1onewedge_companyguide1
onewedge_companyguide1
ONEWEDGE112 views

Using continuous lexical embeddings to improve symbolicprosody prediction in a text tospeech frontend