Submit Search
Upload
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
•
6 likes
•
1,767 views
Shinnosuke Takamichi
Follow
日本音響学会2017秋 ビギナーズセミナー
Read less
Read more
Education
Report
Share
Report
Share
1 of 22
Download now
Download to read offline
Recommended
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
BERT入門
BERT入門
Ken'ichi Matsui
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
Recommended
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
NU_I_TODALAB
数学で解き明かす深層学習の原理
数学で解き明かす深層学習の原理
Taiji Suzuki
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
NU_I_TODALAB
BERT入門
BERT入門
Ken'ichi Matsui
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
joisino
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
Takahiro Kubo
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
Yusuke Iwasawa
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
More Related Content
What's hot
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
joisino
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
Takahiro Kubo
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
Hidekazu Oiwa
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
NU_I_TODALAB
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
Yusuke Iwasawa
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
What's hot
(20)
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
SGD+α: 確率的勾配降下法の現在と未来
SGD+α: 確率的勾配降下法の現在と未来
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
Transformer メタサーベイ
Transformer メタサーベイ
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Viewers also liked
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
Shinnosuke Takamichi
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Shinnosuke Takamichi
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
考司 小杉
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Kosetsu Tsukuda
広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行
Takahiro Ogoshi
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
アドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤について
kazuhiro ito
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
cyberagent
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
Michitaka Yumoto
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Shinnosuke Takamichi
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Cloudera Japan
Active Learning 入門
Active Learning 入門
Shuyo Nakatani
Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)
khcoder
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く
shindannin
ミリシタを支える GAE/Go
ミリシタを支える GAE/Go
Google Cloud Platform - Japan
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network
Masahiro Suzuki
If文から機械学習への道
If文から機械学習への道
nishio
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
Atsushi Nakada
Viewers also liked
(19)
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
日本音響学会2017秋 ”クラウドソーシングを利用した対訳方言音声コーパスの構築”
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
雑音環境下音声を用いた音声合成のための雑音生成モデルの敵対的学習
Jap2017 ss65 優しいベイズ統計への導入法
Jap2017 ss65 優しいベイズ統計への導入法
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
広告プラットフォーム立ち上げ百鬼夜行
広告プラットフォーム立ち上げ百鬼夜行
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
アドテクスタジオのデータ分析基盤について
アドテクスタジオのデータ分析基盤について
マッチングサービスにおけるKPIの話
マッチングサービスにおけるKPIの話
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
研究発表のためのプレゼンテーション技術
研究発表のためのプレゼンテーション技術
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
Active Learning 入門
Active Learning 入門
Jaccard係数の計算式と特徴(1)
Jaccard係数の計算式と特徴(1)
最小カットを使って「燃やす埋める問題」を解く
最小カットを使って「燃やす埋める問題」を解く
ミリシタを支える GAE/Go
ミリシタを支える GAE/Go
(DL hacks輪読)Bayesian Neural Network
(DL hacks輪読)Bayesian Neural Network
If文から機械学習への道
If文から機械学習への道
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
Similar to 日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
音声認識と深層学習
音声認識と深層学習
Preferred Networks
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
Yuya Unno
深層学習フレームワークChainerとその進化
深層学習フレームワークChainerとその進化
Yuya Unno
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
Extract and edit
Extract and edit
禎晃 山崎
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Masayoshi Kondo
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Ohsawa Goodfellow
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
Deep Learningの基礎と応用
Deep Learningの基礎と応用
Seiya Tokui
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
Seiya Tokui
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
Takahiro Kubo
20130925.deeplearning
20130925.deeplearning
Hayaru SHOUNO
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
Masaaki Imaizumi
点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
Deep Learning JP
Similar to 日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
(20)
Recurrent Neural Networks
Recurrent Neural Networks
音声認識と深層学習
音声認識と深層学習
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
深層学習フレームワークChainerとその進化
深層学習フレームワークChainerとその進化
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Extract and edit
Extract and edit
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Deep Learningの基礎と応用
Deep Learningの基礎と応用
Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
画像認識モデルを自動的に作る。1日以内に。~Simple And Efficient Architecture Search for Convolutio...
20130925.deeplearning
20130925.deeplearning
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
点群深層学習 Meta-study
点群深層学習 Meta-study
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
[DL輪読会]Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-...
More from Shinnosuke Takamichi
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Recently uploaded
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
Ken Fukui
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
yukisuga3
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
koheioishi1
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
yuitoakatsukijp
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
Ken Fukui
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
Ken Fukui
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
YukiTerazawa
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ssusere0a682
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
Ken Fukui
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
Ken Fukui
Recently uploaded
(10)
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
The_Five_Books_Overview_Presentation_2024
The_Five_Books_Overview_Presentation_2024
UniProject Workshop Make a Discord Bot with JavaScript
UniProject Workshop Make a Discord Bot with JavaScript
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
TokyoTechGraduateExaminationPresentation
TokyoTechGraduateExaminationPresentation
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習105 -n人囚人のジレンマモデル- #ゲーム理論 #gametheory #数学
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
1.
深層学習を深く学習するための基礎 高道 慎之介 (東大院・情報理工) 日本音響学会
2017年 秋季研究発表会 ビギナーズセミナー
2.
/18 概要 背景:その強力さが叫ばれて久しい深層学習技術 – LSTM,
CNN, Seq2Seq, CTC, GAN, AE, MemoryNet, SuperNN, etc. 問題:名前は聞いたことあるけど,中身をよく知らない… – (研究で使ってるけど,ぶっちゃけ中身をよく知らない) 本発表: – “名前は聞いたことある” から “仕組みがちょっとわかる” へ – 信号処理とも絡めつつ概要を紹介 2 このスライドはslideshareにアップロード済みです. (twitter: #asj2017a か 高道HPを参照)
3.
Feed-Forward NN (Neural
Network) 3
4.
/18 線形変換+非線形活性化関数による変換 4 𝒚 = 𝒇
𝑾 𝒙 + 𝒃 行列 バイアス非線形 活性化関数 回転・伸縮 シフト 𝒙 𝒚 Forward 𝑾 𝒃 𝒇 ⋅ = ReLU ⋅ 𝜕(𝑾𝒙 + 𝒃) 𝜕𝒙 = 𝑾⊤ Backward (あとで説明)𝒙 の散布図
5.
/18 前のページの構造 (single-layer
NN) を積み重ねる! – 複数のSingle-layer NN から成る関数 Forward propagationを式で書くと… Feed-Forward NN 5 ⋯ ⋯ ⋯ ⋯ 𝒙 𝒚 𝒉1 = 𝒇1 𝑾1 𝒙 + 𝒃1 𝒚 = 𝒇 𝐿 𝑾L 𝒉 𝐿−1 + 𝒃 𝐿 𝒉1 𝒉 𝐿−1 𝒚 = 𝒇 𝐿 𝑾L 𝒇 𝐿−1 𝑾L−𝟏 … 𝒇1 𝑾1 𝒙 + 𝒃1 … + 𝒃 𝐿−1 + 𝒃 𝐿
6.
/18 推定値 𝒚
と正解値 𝒚 から計算される損失関数 𝐿 ⋅ を最小化 – 二乗誤差 𝐿 𝐲, 𝒚 = 𝒚 − 𝒚 ⊤ 𝒚 − 𝒚 損失関数を最小化するようにモデルパラメータ 𝑾, 𝒃 を更新 – 勾配法がしばしば使われる(𝛼は学習係数 [AdaGradなどを使用]) モデルパラメータの学習 6 𝑾1 ← 𝑾1 − 𝛼 𝜕𝐿 𝐲, 𝒚 𝜕𝑾1 ⋯ ⋯ ⋯ ⋯ 𝒙 𝒚𝒉1 𝒉 𝐿−1 𝒚 𝐿 ⋅ 𝐿 𝐲, 𝒚 𝜕𝐿 𝐲, 𝒚 𝜕𝒚𝜕𝒚 𝜕𝒉 𝐿−1𝜕𝒉1 𝜕𝑾1 合成関数なので,各関数の 微分の積として得られる
7.
リカレント構造 & 畳み込み構造 7
8.
/18 RNN (Recurrent NN): リカレント構造を持ったNN
NNの出力の一部を入力に戻すNN (LSTMは,これの派生) – 構造情報など(例えば音声の時間構造)の依存性を記憶 8 𝒙 𝑡−2 ⋯ 𝒚 𝑡−2 𝒚 𝑡−2 𝐿 ⋅ Loss 𝑡−2 𝒙 𝑡−1 ⋯ 𝒚 𝑡−1 𝒚 𝑡−1 𝐿 ⋅ Loss 𝑡−1 𝒙 𝒕 ⋯ 𝒚 𝑡 𝒚 𝑡 𝐿 ⋅ Loss 𝑡 𝒙 𝑡+1 ⋯ 𝒚 𝑡+1 𝒚 𝑡+1 𝐿 ⋅ Loss 𝑡+1
9.
/18 BPTT: Back propagation
Through Time 当該時間におけるbackpropagationを,過去の時間に伝播 – 一定時間でbackwardを打ち切る方法をTruncated BPTTという 9 𝒙 𝑡−2 ⋯ 𝒚 𝑡−2 𝒚 𝑡−2 𝐿 ⋅ Loss 𝑡−2 𝒙 𝑡−1 ⋯ 𝒚 𝑡−1 𝒚 𝑡−1 𝐿 ⋅ Loss 𝑡−1 𝒙 𝒕 ⋯ 𝒚 𝑡 𝒚 𝑡 𝐿 ⋅ Loss 𝑡 𝒙 𝑡+1 ⋯ 𝒚 𝑡+1 𝒚 𝑡+1 𝐿 ⋅ Loss 𝑡+1 Backward path
10.
/18 信号処理における畳み込み 畳み込み層:基本的に動作は同じ –
主なパラメータは – ー filter size: 右図の灰色部分の形 – ー #stride: filterの移動幅 – ー #padding: 端の0埋め数 – ー #channel: filterの数 • 異なるフィルタ係数を持った 複数のfliterを利用 CNN (Convolutional NN): 畳み込み構造を持ったNN 10https://github.com/vdumoulin/conv_arithmetic からgifを引用 Timeは ね は は 21 21 ね ね 21 21 全時間で同じ フィルタ係数がかかる
11.
/18 CNNの全体構造 11 [LeCun et al.,
1998.] フィルタ インデックス ⋯ ⋯ ⋯ Pooling層 例:最大値をとるmax-pooling
12.
/18 自己回帰型CNN 12 CNNを自己回帰モデルとして扱う – あるステップで生成した出力から,次のステップを推定 →
信号処理の自己回帰 (エコーやハウリングなど) と同じ – 系列を扱うRNNと違い,ステップごとに並列化して学習可能 WaveNet (PixelCNNの派生) [Oord et al., 2016.] – これまでに生成した波形から,次の波形を生成 – https://deepmind.com/blog/wavenet-generative-model-raw-audio/ から引用
13.
Deep Generative Model 13
14.
/18 Deep generative model (深層生成モデル)
Deep generative modelとは – DNNを使ってデータの生成分布を表現するモデル – 前述の自己回帰型CNNも,これに相当 ここでは,分布変形に基づく方法を紹介 – 既知の確率分布を観測データの分布に変形 – 生成データ 𝒚 の分布と観測データ 𝒚 の分布が似るようにDNNを学習 14 𝒙 ~ 𝑁 𝟎, 𝑰 𝑮 ⋅ 𝒚𝒚 = 𝑮 𝒙 生成 データの 分布 分布の近さを 計算
15.
/18 Generative Adversarial Network
(GAN): 分布間距離の最小化 Generative adversarial network [Goodfellow et al., 2014.] – 分布間の近似 Jensen-Shannon divergence を最小化 – 𝑮 ⋅ と,観測/生成データを識別する識別モデル 𝑫 ⋅ を敵対 15 𝒚 ⋯ ⋯ ⋯ ⋯ 𝑮 ⋅ 𝑫 ⋅ 1: 観測 0: 生成
16.
/18 Moment Matching Network
(MMN): モーメント間距離の最小化 Moment matching network [Li et al., 2015.] – 分布のモーメント (平均,分散,…) 間の二乗距離を最小化 – 実装上は,グラム行列のノルムの差を最小化 16 𝒚 𝒚 ⋯ ⋯ ⋯ ⋯ 𝑮 ⋅
17.
まとめ 17
18.
/18 まとめ 深層学習を深く学習するための基礎を紹介 基礎構造 –
Feed-Forward neural networks (FFNN) – Recurrent neural networks (RNN) … LSTMなど – Convolutional neural networks (CNN) … WaveNetなど Deep generative models – Generative adversarial networks (GAN) … 敵対的学習 – Moment-matching networks (MMN) 18
19.
/18 付録 19
20.
Auto Encoder (AE) 20
21.
/18 Auto-Encoder (AE): 特徴量の次元圧縮 21 非線形の軸を引いて,特徴量の次元を削減
Auto-Encoder: 元のデータを復元するように学習 – - 𝒉 = 𝑬 𝒙 : encoder, 𝒙 = 𝑫 𝒉 : decoder 2次元データ 非線形軸 𝒙 𝒉 非線形軸に写像 𝒙 𝒉 𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝒙 = 𝑫 𝑬 𝒙
22.
/18 Denoising AE より頑健な次元圧縮を行うため,入力側にノイズを付与 –
ノイジーな入力から,元のデータを復元する どんなノイズを加える? – Drop: ランダムに,使用する次元を減らす • 𝒙 = 1,1,0,0,1,0,1 ^⊤ ∘ 𝒙 ( ∘ は要素積) – Gauss: ガウスノイズを付与する • 𝒙 = 𝒙 + 𝑵 𝟎, 𝜆𝑰 ( 𝜆 は分散) 22 𝒙 𝒉 𝒙 𝑳 𝒙, 𝒙 = 𝒙 − 𝒙 ⊤ 𝒙 − 𝒙 𝒙 = 𝑫 𝑬 𝒙
Download now