Submit Search
Upload
女の子になれなかった人のために
•
Download as PPTX, PDF
•
11 likes
•
15,910 views
京大 マイコンクラブ
Follow
音声の分析合成と機械学習を使ってボイスチェンジャーを作るスライドです
Read less
Read more
Technology
Report
Share
Report
Share
1 of 42
Download now
Recommended
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Preferred Networks
バンディット問題について
バンディット問題について
jkomiyama
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
最適化超入門
最適化超入門
Takami Sato
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
Takuya Akiba
マルチコアを用いた画像処理
マルチコアを用いた画像処理
Norishige Fukushima
プログラムを高速化する話
プログラムを高速化する話
京大 マイコンクラブ
明日使えないすごいビット演算
明日使えないすごいビット演算
京大 マイコンクラブ
Recommended
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
PyData.Tokyo Meetup #21 講演資料「Optuna ハイパーパラメータ最適化フレームワーク」太田 健
Preferred Networks
バンディット問題について
バンディット問題について
jkomiyama
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
最適化超入門
最適化超入門
Takami Sato
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
プログラミングコンテストでのデータ構造 2 ~平衡二分探索木編~
Takuya Akiba
マルチコアを用いた画像処理
マルチコアを用いた画像処理
Norishige Fukushima
プログラムを高速化する話
プログラムを高速化する話
京大 マイコンクラブ
明日使えないすごいビット演算
明日使えないすごいビット演算
京大 マイコンクラブ
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
研究分野をサーベイする
研究分野をサーベイする
Takayuki Itoh
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
Fixstars Corporation
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
強化学習その1
強化学習その1
nishio
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
Fixstars Corporation
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
RCCSRENKEI
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
Norishige Fukushima
テスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるな
Kentaro Matsui
Devsumi 2018summer
Devsumi 2018summer
Harada Kei
研究の基本ツール
研究の基本ツール
由来 藤原
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
Hori Tasuku
【Unity】 Behavior TreeでAIを作る
【Unity】 Behavior TreeでAIを作る
torisoup
テキストファイルを読む💪 第1回
テキストファイルを読む💪 第1回
京大 マイコンクラブ
かわいくなろうとしたら語彙力が下がった話
かわいくなろうとしたら語彙力が下がった話
京大 マイコンクラブ
More Related Content
What's hot
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
研究分野をサーベイする
研究分野をサーベイする
Takayuki Itoh
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
Fixstars Corporation
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
報酬設計と逆強化学習
報酬設計と逆強化学習
Yusuke Nakata
強化学習その1
強化学習その1
nishio
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
Fixstars Corporation
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
RCCSRENKEI
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
Norishige Fukushima
テスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるな
Kentaro Matsui
Devsumi 2018summer
Devsumi 2018summer
Harada Kei
研究の基本ツール
研究の基本ツール
由来 藤原
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
Hori Tasuku
【Unity】 Behavior TreeでAIを作る
【Unity】 Behavior TreeでAIを作る
torisoup
What's hot
(20)
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
研究分野をサーベイする
研究分野をサーベイする
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Optimizer入門&最新動向
Optimizer入門&最新動向
報酬設計と逆強化学習
報酬設計と逆強化学習
強化学習その1
強化学習その1
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
第1回 配信講義 計算科学技術特論A (2021)
第1回 配信講義 計算科学技術特論A (2021)
計算機アーキテクチャを考慮した高能率画像処理プログラミング
計算機アーキテクチャを考慮した高能率画像処理プログラミング
テスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるな
Devsumi 2018summer
Devsumi 2018summer
研究の基本ツール
研究の基本ツール
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
【Unity】 Behavior TreeでAIを作る
【Unity】 Behavior TreeでAIを作る
More from 京大 マイコンクラブ
テキストファイルを読む💪 第1回
テキストファイルを読む💪 第1回
京大 マイコンクラブ
かわいくなろうとしたら語彙力が下がった話
かわいくなろうとしたら語彙力が下がった話
京大 マイコンクラブ
Common Lisp入門
Common Lisp入門
京大 マイコンクラブ
多倍長整数の乗算と高速フーリエ変換
多倍長整数の乗算と高速フーリエ変換
京大 マイコンクラブ
つくってあそぼ ラムダ計算インタプリタ
つくってあそぼ ラムダ計算インタプリタ
京大 マイコンクラブ
Geometry with Unity
Geometry with Unity
京大 マイコンクラブ
セミコロンレスc++
セミコロンレスc++
京大 マイコンクラブ
エンジニアと健康
エンジニアと健康
京大 マイコンクラブ
Pietで競プロしよう
Pietで競プロしよう
京大 マイコンクラブ
もし太陽のコアがIntelCoreだったら
もし太陽のコアがIntelCoreだったら
京大 マイコンクラブ
C# ゲームプログラミングはホントにメモリのことに無頓着でいいの?
C# ゲームプログラミングはホントにメモリのことに無頓着でいいの?
京大 マイコンクラブ
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
京大 マイコンクラブ
ドット絵でプログラミング!難解言語『Piet』勉強会
ドット絵でプログラミング!難解言語『Piet』勉強会
京大 マイコンクラブ
No SSH (@nojima; KMC関東例会)
No SSH (@nojima; KMC関東例会)
京大 マイコンクラブ
DTM練習会2017第1.5回 「伴奏の付け方」
DTM練習会2017第1.5回 「伴奏の付け方」
京大 マイコンクラブ
hideya流 テストプレイ観察術
hideya流 テストプレイ観察術
京大 マイコンクラブ
暗号技術入門 秘密の国のアリス 総集編
暗号技術入門 秘密の国のアリス 総集編
京大 マイコンクラブ
Altseed
Altseed
京大 マイコンクラブ
C#でゲームを作る2016 第8回
C#でゲームを作る2016 第8回
京大 マイコンクラブ
C#でゲームを作る2016 第7回
C#でゲームを作る2016 第7回
京大 マイコンクラブ
More from 京大 マイコンクラブ
(20)
テキストファイルを読む💪 第1回
テキストファイルを読む💪 第1回
かわいくなろうとしたら語彙力が下がった話
かわいくなろうとしたら語彙力が下がった話
Common Lisp入門
Common Lisp入門
多倍長整数の乗算と高速フーリエ変換
多倍長整数の乗算と高速フーリエ変換
つくってあそぼ ラムダ計算インタプリタ
つくってあそぼ ラムダ計算インタプリタ
Geometry with Unity
Geometry with Unity
セミコロンレスc++
セミコロンレスc++
エンジニアと健康
エンジニアと健康
Pietで競プロしよう
Pietで競プロしよう
もし太陽のコアがIntelCoreだったら
もし太陽のコアがIntelCoreだったら
C# ゲームプログラミングはホントにメモリのことに無頓着でいいの?
C# ゲームプログラミングはホントにメモリのことに無頓着でいいの?
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
ドット絵でプログラミング!難解言語『Piet』勉強会
ドット絵でプログラミング!難解言語『Piet』勉強会
No SSH (@nojima; KMC関東例会)
No SSH (@nojima; KMC関東例会)
DTM練習会2017第1.5回 「伴奏の付け方」
DTM練習会2017第1.5回 「伴奏の付け方」
hideya流 テストプレイ観察術
hideya流 テストプレイ観察術
暗号技術入門 秘密の国のアリス 総集編
暗号技術入門 秘密の国のアリス 総集編
Altseed
Altseed
C#でゲームを作る2016 第8回
C#でゲームを作る2016 第8回
C#でゲームを作る2016 第7回
C#でゲームを作る2016 第7回
Recently uploaded
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
Recently uploaded
(8)
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
女の子になれなかった人のために
1.
女の子になれなかった人のために ID:spi8823
2.
自己紹介 ID: • spi8823 所属: • 工学研究科
原子核工学専攻 核材料工学研究室 M1 研究内容: • 加速器を使ってなんやかんや KMCでの活動: • ゲーム制作・DTM 趣味: • スピッツ・カラオケ・神社 内定これくしょんしてます
3.
余談/研究室での活動 水素原子の金属表面での挙動に関する研究 • 表面挙動なので表面水素密度が必要 • 加速器を使ったNRA法で表面水素密度を測定 実験は宇治キャンパスで •
泊まり込みなのでめっちゃ自炊する
4.
女の子 「早く 女の子になりたい!」
5.
女の子になるには 醜い体…… • 女装? • 骨格はどうしようもない…… 醜い心 •
どうしようもない…… 醜い声 • どうしようもない…… • ほんまか?
6.
動機 女の子の声になりたい!! スピッツの声で歌いたい!! コナン君が持ってるような変声機さえあれば…… • 調べてみると自分でも作れそうな雰囲気 • 偉い人がもう作ってくれてるのは御愛嬌
7.
そこで分析合成 音声の発生機構をモデル化し,そのパラメータを符号化 • 一般に言う音声合成とは全く違うので注意! じゃないよ!! 符号化したパラメータから音声を合成する • =分析合成
8.
目標 目標1 • 分析合成を用いて入力した音声を再合成する 目標2 • 入力した音声を文章はそのままで別の音声に変換する 目標3 •
入力した音声を文章はそのままで別の人物の音声に変換する
9.
注意 このスライドは「人工知能に関する断創録」様のブログを 全面的にパクッて参考にしています • 先人に感謝!!
10.
前半:分析合成 人間の声について 声道パラメータについて 実装について デモ
11.
人間の声の構造 声帯で元となる音声が発生する 声道を通って音声が歪められる 口腔内を通って母音および子音が付加される ブザー音を声帯で発生する音声に見立て それを声道や口腔の構造を再現したフィルタを通すことで 人間の声を計算機上で再現することができる!
12.
人間の声の再現 音声のピッチを求める 音声の声道パラメータ(メルケプストラム)を求める ピッチをもとにブザー音を発生させる(=声帯で音が発生) ブザー音を声道パラメータに基づくフィルタに通す • (=喉や口を通って声が外に出る) 人間の声!!!! (http://www.kumikomi.net/archive s/2010/08/ep30gose.phpより拝借)
13.
声道パラメータの求め方 音声信号をフーリエ変換し、周波数成分にする • 本当はこれをそのまま使いたい(ほんまか?) • 典型的には1秒間に44100点とかだがデータ量が多すぎて無理 周波数成分のうち細かな変動は無視し、大まかな特徴を 捉える(=スペクトル包絡を求める) •
周波数成分が1024個とかあるのを30データぐらいにする
14.
用語解説 フーリエ変換 • ある関数をフーリエ級数という様々な周波数と位相を持った 正弦波の足し合わせで表現し、それらのパラメータを 求めること • 音声データをフーリエ変換すると その音声にどんな周波数の音が含まれているかを 調べることができる •
フーリエ変換した結果を 周波数スペクトラムとかいう (http://www.yukisako.xyz/entry/fourier-transformより拝借)
15.
用語解説 スペクトログラム • 周波数スペクトラムはある時間フレームの中の周波数を 表しているに過ぎない(つまり一瞬しか見れない) • 各フレームのスペクトラムを並べて スペクトラムの時間変化を見られるようにしたのが このスペクトログラム time
16.
スペクトル包絡の求め方 周波数スペクトルの対数をとる 対数スペクトルをさらにフーリエ変換する フーリエ変換したもの(=ケプストラム)のうち、高周波 成分のものを取り除く 処理したケプストラムをフーリエ逆変換する • =スペクトル包絡線 フーリエ変換 フーリエ変換 対数化 高周波成分を 取り除く フーリエ変換 音の信号 周波数 スペクトル 対数周波数 スペクトル ケプストラム (ローパスした) ケプストラム スペクトル 包絡
17.
用語解説 ケプストラム(cepstrum) • 信号をフーリエ変換し得られた周波数成分を対数にしたものを さらにフーリエ変換したもの • つまり、スペクトルのスペクトルという感じ •
これを用いることで周波数成分の概形を (少ない情報で)把握することができる • 音声に適用すると、人間の声から声帯の振動に起因する成分 のみを抽出できる • “spectrum”のアナグラム
18.
用語解説 メル-ケプストラム • 周波数スペクトルを聴覚に合わせた周波数軸(メル尺度)で 表したものをケプストラムにしたもの • 低い周波数ほど間隔が狭く、高いほど広くなる (http://tam5917.hatenablog.com/entry/2016/03/15/113555より拝借)
19.
用語解説 MLSAフィルター • Mel-Log Spectrum
Approximatation • メルケプストラムから音声を合成するデジタルフィルタ • 類似の働きをするものは他にもいろいろある LMA All-pole All-pole lattice MGLSA(一般化したやつっぽい) • 今回の実装はこっち
20.
実装 Pythonを使用 • 初めて使った…… SPTKという分析合成用のツールを用いる • なので細かい実装はしません
21.
SPTK Signal Processing TookKit 音声処理をするためのツール •
ピッチを検出したり • メルケプストラムを抽出したり • ケプストラムとピッチから音声を合成したりできる 今回はこれのPythonラッパー(pysptk)を用いた
22.
デモ グラフを見せたり音を鳴らしたりします その1:そのまま再合成 その2:ピッチを高くしたり低くしたり その3:ピッチを無くして無声音に
23.
これで半分ぐらい? 質問があればどうぞ
24.
限界 メルケプストラムをいじっているだけでは 女の子の声にはなれない…… ある人物Aの音声と別の人物Bの音声を解析し Aの声からBの声へと変換できるようにする • 流行りの を使えばできそう 女の子になれなくて落ち込むFさん
25.
後半:機械学習 機械学習について 前処理について 実装について デモ
26.
機械学習とは 「データから反復的に学習し、そこに潜むパターンを 見つけ出すこと」らしい 大きく分けて3種類あるらしい • 教師あり学習 一連の入力とそれらに対応する正しい出力を受け取り、 事象を予測できるようになること • 教師無し学習 データを探索してその内部に何らかの構造を見つけ出す •
強化学習 どの行動が最大の報酬を生み出すかを、試行錯誤を通して突き止める
27.
教師あり学習 GMM(混合ガウスモデル) • というモデルを今回は用いた • 多次元のガウス分布がいっぱい重なったもの •
学習させると値が推定できる • 学習 複数の(x, y)から図のような ガウス分布を見つける • 値の推定 x を与えると その x での y の期待値が求まる • 実際はこれの50次元ぐらい版 • 詳しいことは知らん!!
28.
学習のさせ方 ある人物Aの音声のケプストラム(=x)と それと全く同じ文章を読んだ ある人物Bの音声のケプストラム(=y)を 先ほどのGMMで学習させる そのままのデータを突っ込んでもうまく学習できないので データに前処理をかける
29.
前処理 AのケプストラムとBのケプストラムを見比べたとき どの部分がどの部分に対応してるのかわからない したがって、DTWという手法を使って “もっともそれっぽい”対応を取ってから学習させる (断創録さまより拝借)
30.
DTW DTW(Dynamic Time Wrapping)とは •
動的時間伸縮法 • 時系列データの類似度を測る手法の1つ • 察するに話す速さとか間の置き方とかを いい感じに伸縮してくれるっぽい (http://sinhrks.hatenablog.com/entry/2014/11/14/232603より拝借)
31.
実装 機械学習 • scikit-learn(sklearn)というライブラリを使った • 界隈では一番有名なやつらしい DTW •
dtwというライブラリを使用
32.
デモ テスト用の音声を使った機械学習の結果を見せます
33.
休憩 質問とか無いですか
34.
本題 ここで満足はできない “““自分の声”””を女の子の声にしたいんだ!!! 自分の声のサンプルと女の子の声のサンプルを 機械学習させれば女の子の声になれる!!
35.
学習用のデータを用意① グーグルを開く ゴニョゴニョっとする 木曾ちゃんのボイスデータが いっぱい手に入る!! いいぞ!!
36.
学習用のデータを用意② マイクを用意する カラオケに行って歌う 先ほど用意した音声を聞きながら 木曾ちゃんのセリフを真似する • (精神的)苦行 • 録音した自分の声を自分で聞くことほど 辛いものはない •
隣の部屋の人ごめんなさい
37.
学習させる ケプストラムを求め、DTWし、GMMで学習させる ここで障害が発生 • 拾ってきたデータだけエラーが吐かれる…… • どうやら完全な無音(データが0)が続くとダメらしい •
小さい雑音を鳴らしておくことで解決!
38.
試してみる マイクで録音して実際にやってみる ピッチを変えただけの声と比較 それっぽくなってる? • 最適なパラメータがわからん……
39.
Q.女の子になれた? A.なれそう • 女の子への道は長い……
40.
まとめと課題 まとめ • 分析合成とその周辺の知識について解説し、実演した • 機械学習と分析合成を使い、ある人物の音声を別の人物の音声 に変換する方法について解説し、実演した 課題 •
分析合成を行う際の各パラメータが合成結果にどう影響するの かについて学ぶ必要がある • 機械学習を行って合成した音声の再現度は良好とはいいがたく どうにかして改善する必要がある • ピッチは手動で書き換えたが、ここにも機械学習を使うことが できればより女の子らしくなることができると思われる • リアルタイムでやりたかった……
41.
感想 Python(とライブラリ)すげー 音声処理難しい…… • パラメータを間違えるとただのパルスが出力されたりして 難しい 女の子になりたい……
42.
以上です ご清聴ありがとうございました 質問とか言いたいこととか無いですか 酒が飲めるぞー!!
Download now