Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Shinnosuke Takamichi
868 views
音声合成・変換の国際コンペティションへの 参加を振り返って
FIT 2019
Technology
◦
Read more
2
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 13
2
/ 13
3
/ 13
4
/ 13
5
/ 13
6
/ 13
7
/ 13
8
/ 13
9
/ 13
10
/ 13
11
/ 13
12
/ 13
13
/ 13
More Related Content
PDF
統計的音声合成変換と近年の発展
by
Shinnosuke Takamichi
PDF
音声コーパス設計と次世代音声研究に向けた提言
by
Shinnosuke Takamichi
PDF
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
by
Shinnosuke Takamichi
PDF
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
PDF
統計的ボイチェン研究事情
by
Shinnosuke Takamichi
PDF
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
PDF
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
by
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
by
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
by
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
統計的ボイチェン研究事情
by
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
What's hot
PDF
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
by
Shinnosuke Takamichi
PDF
音声信号の分析と加工 - 音声を自在に変換するには?
by
NU_I_TODALAB
PDF
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
by
Shinnosuke Takamichi
PPT
第6回理系Ao入試フォーラムスライド(竹松)
by
Kazutomo Takematsu
PDF
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
by
Shinnosuke Takamichi
PDF
Statistical Machine Translation Overview
by
Hiroki Kawano
PDF
文章読解支援のための語彙平易化@第1回NLP東京Dの会
by
Tomoyuki Kajiwara
PPTX
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
by
Syuhei KIMURA
PDF
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
by
Shinnosuke Takamichi
PDF
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
by
Shinnosuke Takamichi
PDF
Wikibana20100612
by
masayoshi takahashi
PDF
Acoustic Modeling using Deep Belief Networks
by
Junya Saito
PDF
Sakai 20120414
by
nextedujimu
PDF
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
by
Hiro H.
PDF
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
by
Kosuke Sugai
PDF
深層学習を利用した音声強調
by
Yuma Koizumi
PPTX
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
by
KoueiYamaoka
PPTX
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
by
Akira Tamamori
PDF
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
by
Shinnosuke Takamichi
PDF
Translation system Ernie
by
enkarz
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
by
Shinnosuke Takamichi
音声信号の分析と加工 - 音声を自在に変換するには?
by
NU_I_TODALAB
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
by
Shinnosuke Takamichi
第6回理系Ao入試フォーラムスライド(竹松)
by
Kazutomo Takematsu
日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”
by
Shinnosuke Takamichi
Statistical Machine Translation Overview
by
Hiroki Kawano
文章読解支援のための語彙平易化@第1回NLP東京Dの会
by
Tomoyuki Kajiwara
eポートフォリオと電子バッジが問う“発信力”の定義 −プロジェクト発信型英語プログラム、9年間の試みから見えるもの−
by
Syuhei KIMURA
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
by
Shinnosuke Takamichi
日本語音声合成のためのsubword内モーラを考慮したProsody-aware subword embedding
by
Shinnosuke Takamichi
Wikibana20100612
by
masayoshi takahashi
Acoustic Modeling using Deep Belief Networks
by
Junya Saito
Sakai 20120414
by
nextedujimu
コンピュータに「最長しりとり」「最短距離でのJR線全線乗り尽くし」を解いてもらった方法
by
Hiro H.
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
by
Kosuke Sugai
深層学習を利用した音声強調
by
Yuma Koizumi
論文紹介: Direct-Path Signal Cross-Correlation Estimation for Sound Source Locali...
by
KoueiYamaoka
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
by
Akira Tamamori
DNNテキスト音声合成のためのAnti-spoofingに敵対する学習アルゴリズム
by
Shinnosuke Takamichi
Translation system Ernie
by
enkarz
More from Shinnosuke Takamichi
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
PDF
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
PDF
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
by
Shinnosuke Takamichi
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
PDF
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
PDF
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
PDF
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
by
Shinnosuke Takamichi
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
PPTX
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
by
Shinnosuke Takamichi
PPTX
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
by
Shinnosuke Takamichi
PPTX
外国人留学生日本語の音声合成における話者性を保持した韻律補正
by
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
by
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
by
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
by
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
by
Shinnosuke Takamichi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
by
Shinnosuke Takamichi
Recently uploaded
PDF
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
PDF
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
PDF
PMBOK 7th Edition_Project Management Context Diagram
by
akipii ogaoga
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
PDF
PMBOK 7th Edition_Project Management Process_WF Type Development
by
akipii ogaoga
PDF
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
PDF
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
PDF
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
PDF
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
PDF
PMBOK 7th Edition Project Management Process Scrum
by
akipii ogaoga
PDF
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
PDF
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
PDF
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
FY2025 IT Strategist Afternoon I Question-1 Balanced Scorecard
by
akipii ogaoga
Starlink Direct-to-Cell (D2C) 技術の概要と将来の展望
by
CRI Japan, Inc.
PMBOK 7th Edition_Project Management Context Diagram
by
akipii ogaoga
Reiwa 7 IT Strategist Afternoon I Question-1 3C Analysis
by
akipii ogaoga
PMBOK 7th Edition_Project Management Process_WF Type Development
by
akipii ogaoga
第21回 Gen AI 勉強会「NotebookLMで60ページ超の スライドを作成してみた」
by
嶋 是一 (Yoshikazu SHIMA)
100年後の知財業界-生成AIスライドアドリブプレゼン イーパテントYouTube配信
by
e-Patent Co., Ltd.
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
PMBOK 7th Edition Project Management Process Scrum
by
akipii ogaoga
2025→2026宙畑ゆく年くる年レポート_100社を超える企業アンケート総まとめ!!_企業まとめ_1229_3版
by
sorabatake
Reiwa 7 IT Strategist Afternoon I Question-1 Ansoff's Growth Vector
by
akipii ogaoga
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
音声合成・変換の国際コンペティションへの 参加を振り返って
1.
09/03/2019©Shinnosuke Takamichi, The University
of Tokyo 音声合成・変換の国際コンペティションへの 参加を振り返って 高道 慎之介 (東京大学 大学院情報理工学系研究科) FIT2019 企画セッション「コンペの覇者」招待講演
2.
/13 自己紹介 名前 – 高道
慎之介 (たかみち しんのすけ) 経歴 – 2009年 熊本電波高専 電子工学科 卒業 … 半導体など – 2011年 長岡技科大 工学部 卒業 … 立体音響など – 2016年 奈良先端大 博士課程 修了 … 音声合成など – 2016年~ 東京大学 助教 (2018年まで特任助教) 専門 – 統計的音声合成・変換など 2
3.
/13 私が参加した国際コンペ (学生時代の仕事ですが…) 3 テキスト音声合成の国際コンペ Blizzard Challenge 2015 合成音声の自然性に関して世界最高スコア 音声変換の国際コンペ Voice
Conversion Challenge 2016 合成音声の話者再現度に関して世界最高スコア 正確には品質を競う「コンペ」ではなく 同じ学習データで作られたシステムを比較する「ワークショップ」 [Takamichi15] [Kobayashi16]
4.
/13 私の研究グループの目標 4 音声変換 音声合成 全ての人間・計算機が 身体・文化・時間を超えて 音声でコミュニケーション できる社会を目指して
5.
/13 DNN-based real-time voice
conversion 5 https://www.youtube.com/watch?v=P9rGqoYnfCg [Arakawa19] リアルタイム (0.05sec) で特定の他者になれるボイスチェンジャ 更に… https://www.youtube.com/watch?v=vFSHxn_G2iQ
6.
/13 Blizzard Challenge 2015
のタスク 6 https://www.synsig.org/index.php/Blizzard_Challenge_2015 インド6言語の音声合成.合成音声を提出して評価.
7.
/13 Voice Conversion Challenge
2016 のタスク 7 http://vc-challenge.org/vcc2016/index.html 英語音声の変換.5×5話者の変換音声を提出して評価.
8.
/13 変調スペクトル:両コンペで使用した手法 8 人間のような「声のゆらぎ」を再現すればいいんじゃね? 必ず同じ音を出そうとする 同じ音を出すのは無理(=声はゆらぐ!) あーー あーー 音声特徴量時系列のパワースペクトル (=変調スペクトル)を補償すればよい! [Takamichi16]
9.
/13 音声サンプル 9 Language w/o MS
w/ MS Bengali Hindi Malayalam Marathi Tamil Telugu
10.
/13 感想 良い点①:自分の実力を国際的に示すことができた – D2~D3頃の成果だったので,就活やアカデミック活動に役立った –
自分の国際的な位置を確かめられる 良い点②:仮に上位になれなかったとしても失うものは無い – 学生の特権.社会人になると(若干)参加しづらくなる 大変だった点①:インドの言語が分からない – 1週間くらい,wikipedia や辞書とにらめっこ 大変だった点②:タスク選びは慎重に – データ量とDNNでゴリ押しすれば勝ててしまうタスクもある – 得られるものがあるかを事前に確かめて 10
11.
/13 あの著者らは今 (当時は全員,奈良先端大) 11 高道 慎之介
(東京大学) 小林 和弘 (TARVO) 田中 宏 (NTT CS研) 戸田 智基 (名古屋大学) http://www.kecl.ntt.co.jp/people/tanaka.ko/ https://sites.google.com/site/tomokitoda/ https://tarvo.co.jp 発声障害補助・音声信号処理の 研究に従事 音声合成変換・コミュニケー ション拡張の研究に従事 音声・音楽・音環境情報処理の 研究に従事 リアルタイム変換に基づく 事業を展開 *VCC論文の 第一著者 *BC論文の 第一著者
12.
/13 今すぐ始める音声合成・変換 ツール:ESPnet – End-to-End型音声処理のためのツールキット –
最先端ニューラルネット (WaveNetなど) もある 音声合成用データ:JSUTコーパス [Sonobe17] – 単一話者による10時間日本語読み上げ音声 • WaveNet (2016) のデータ量に比肩 – End-to-end型音声合成でも動く [Ueno19] – 60か国以上からダウンロード実績あり 音声変換用データ:JVSコーパス [Takamichi19] – 100名のプロ話者による100発話など – 読み上げ音声・ささやき声・裏声 12 研究用の大規模・ 高品質データを 誰でも利用可能
13.
/13 まとめ 音声合成・変換コンペの参加報告 この数年で,音声研究への参入の壁がぐっと低くなった –
私の参加した2015, 2016年頃は,音声工学的アプローチで勝てた – 近年は,深層学習的アプローチが必須 特に,学生さんのコンペ参加をお勧めします! – ただし,タスク選びと色んなバランスは大事に… 13
Download