Submit Search
Upload
ゼロから作るダメ絶対音感
•
0 likes
•
2,477 views
G
Genki Ishibashi
Follow
2017-06-14スキルウェンズデー発表内容
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 30
Download now
Download to read offline
Recommended
CNNで作る ダメ絶対音感
CNNで作る ダメ絶対音感
Genki Ishibashi
RaspberryPiを音声コントロールしてみた話
RaspberryPiを音声コントロールしてみた話
yousuketakahashi2
【すしルート#2】すし×つながる
【すしルート#2】すし×つながる
Seigo Tanaka
20160314 すしルート#3 資料
20160314 すしルート#3 資料
Nishida Kansuke
変身ベルトアプリ謎
変身ベルトアプリ謎
Shigeo Ueda
[Slide]DevLOVE iPhoneアプリ勉強会の【前説】※本編は未公開です!
[Slide]DevLOVE iPhoneアプリ勉強会の【前説】※本編は未公開です!
masashi takehara
コトノハピバでホロを展示してきた話
コトノハピバでホロを展示してきた話
Masahiro Ide
V-To World - Rhythm Otonashi
V-To World - Rhythm Otonashi
blue sura
Recommended
CNNで作る ダメ絶対音感
CNNで作る ダメ絶対音感
Genki Ishibashi
RaspberryPiを音声コントロールしてみた話
RaspberryPiを音声コントロールしてみた話
yousuketakahashi2
【すしルート#2】すし×つながる
【すしルート#2】すし×つながる
Seigo Tanaka
20160314 すしルート#3 資料
20160314 すしルート#3 資料
Nishida Kansuke
変身ベルトアプリ謎
変身ベルトアプリ謎
Shigeo Ueda
[Slide]DevLOVE iPhoneアプリ勉強会の【前説】※本編は未公開です!
[Slide]DevLOVE iPhoneアプリ勉強会の【前説】※本編は未公開です!
masashi takehara
コトノハピバでホロを展示してきた話
コトノハピバでホロを展示してきた話
Masahiro Ide
V-To World - Rhythm Otonashi
V-To World - Rhythm Otonashi
blue sura
VR音ゲーを楽しんでいたら VR音ゲーを作り始めていた話
VR音ゲーを楽しんでいたら VR音ゲーを作り始めていた話
陸弥 福田
V-To World - What is V-To - Koinu
V-To World - What is V-To - Koinu
blue sura
Gl tvol30sensei
Gl tvol30sensei
key-cc yamaguchiintlab
2015てくふぁん自己紹介lt
2015てくふぁん自己紹介lt
tukiutai
Androidにメイちゃんをしゃべらせてみた
Androidにメイちゃんをしゃべらせてみた
Daisuke Takai
ロボティクスアカデミー@デジタルハリウッド大
ロボティクスアカデミー@デジタルハリウッド大
竣 金子
妖精装置紹介 2012.08.25 #PyFes
妖精装置紹介 2012.08.25 #PyFes
Takayo Hamasaki
Tqrk02 bdd tatssato
Tqrk02 bdd tatssato
Tatsuya Sato
アニメ実況実践入門
アニメ実況実践入門
Go Sueyoshi (a.k.a sue445)
IWD - Women Techmakers Tokyo 2018 - Speechless Workshop
IWD - Women Techmakers Tokyo 2018 - Speechless Workshop
Aya Tokura
すしルート inヒカ☆ラボ_「すし×うごく」_20160314
すしルート inヒカ☆ラボ_「すし×うごく」_20160314
Seigo Tanaka
そろそろ渡辺メソッドについてひとこと言っておくか
そろそろ渡辺メソッドについてひとこと言っておくか
Fumihiko Kinoshita
Cloretsご提案資料
Cloretsご提案資料
Mai Shiotani
Linq Hands-on
Linq Hands-on
namikikazuma
Alive2015「 動くハイライト表現の可能性」栗坂こなべ
Alive2015「 動くハイライト表現の可能性」栗坂こなべ
Konabe Kurisaka
オンライン勉強会のBGM
オンライン勉強会のBGM
Akiyoshi Tsuchida
UE4 Grass Interaction
UE4 Grass Interaction
Itsuki Inoue
エンタメとロボットとちょっと未来のわたしたち
エンタメとロボットとちょっと未来のわたしたち
Taisuke Ozaki
UE4学園追放による頭位置移動入力方法
UE4学園追放による頭位置移動入力方法
Konabe Kurisaka
伝わるプレゼン
伝わるプレゼン
Hideaki Miyake
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
Genki Ishibashi
Twilio flex導入までの背景と苦労した話
Twilio flex導入までの背景と苦労した話
Genki Ishibashi
More Related Content
What's hot
VR音ゲーを楽しんでいたら VR音ゲーを作り始めていた話
VR音ゲーを楽しんでいたら VR音ゲーを作り始めていた話
陸弥 福田
V-To World - What is V-To - Koinu
V-To World - What is V-To - Koinu
blue sura
Gl tvol30sensei
Gl tvol30sensei
key-cc yamaguchiintlab
2015てくふぁん自己紹介lt
2015てくふぁん自己紹介lt
tukiutai
Androidにメイちゃんをしゃべらせてみた
Androidにメイちゃんをしゃべらせてみた
Daisuke Takai
ロボティクスアカデミー@デジタルハリウッド大
ロボティクスアカデミー@デジタルハリウッド大
竣 金子
妖精装置紹介 2012.08.25 #PyFes
妖精装置紹介 2012.08.25 #PyFes
Takayo Hamasaki
Tqrk02 bdd tatssato
Tqrk02 bdd tatssato
Tatsuya Sato
アニメ実況実践入門
アニメ実況実践入門
Go Sueyoshi (a.k.a sue445)
IWD - Women Techmakers Tokyo 2018 - Speechless Workshop
IWD - Women Techmakers Tokyo 2018 - Speechless Workshop
Aya Tokura
すしルート inヒカ☆ラボ_「すし×うごく」_20160314
すしルート inヒカ☆ラボ_「すし×うごく」_20160314
Seigo Tanaka
そろそろ渡辺メソッドについてひとこと言っておくか
そろそろ渡辺メソッドについてひとこと言っておくか
Fumihiko Kinoshita
Cloretsご提案資料
Cloretsご提案資料
Mai Shiotani
Linq Hands-on
Linq Hands-on
namikikazuma
Alive2015「 動くハイライト表現の可能性」栗坂こなべ
Alive2015「 動くハイライト表現の可能性」栗坂こなべ
Konabe Kurisaka
オンライン勉強会のBGM
オンライン勉強会のBGM
Akiyoshi Tsuchida
UE4 Grass Interaction
UE4 Grass Interaction
Itsuki Inoue
エンタメとロボットとちょっと未来のわたしたち
エンタメとロボットとちょっと未来のわたしたち
Taisuke Ozaki
UE4学園追放による頭位置移動入力方法
UE4学園追放による頭位置移動入力方法
Konabe Kurisaka
伝わるプレゼン
伝わるプレゼン
Hideaki Miyake
What's hot
(20)
VR音ゲーを楽しんでいたら VR音ゲーを作り始めていた話
VR音ゲーを楽しんでいたら VR音ゲーを作り始めていた話
V-To World - What is V-To - Koinu
V-To World - What is V-To - Koinu
Gl tvol30sensei
Gl tvol30sensei
2015てくふぁん自己紹介lt
2015てくふぁん自己紹介lt
Androidにメイちゃんをしゃべらせてみた
Androidにメイちゃんをしゃべらせてみた
ロボティクスアカデミー@デジタルハリウッド大
ロボティクスアカデミー@デジタルハリウッド大
妖精装置紹介 2012.08.25 #PyFes
妖精装置紹介 2012.08.25 #PyFes
Tqrk02 bdd tatssato
Tqrk02 bdd tatssato
アニメ実況実践入門
アニメ実況実践入門
IWD - Women Techmakers Tokyo 2018 - Speechless Workshop
IWD - Women Techmakers Tokyo 2018 - Speechless Workshop
すしルート inヒカ☆ラボ_「すし×うごく」_20160314
すしルート inヒカ☆ラボ_「すし×うごく」_20160314
そろそろ渡辺メソッドについてひとこと言っておくか
そろそろ渡辺メソッドについてひとこと言っておくか
Cloretsご提案資料
Cloretsご提案資料
Linq Hands-on
Linq Hands-on
Alive2015「 動くハイライト表現の可能性」栗坂こなべ
Alive2015「 動くハイライト表現の可能性」栗坂こなべ
オンライン勉強会のBGM
オンライン勉強会のBGM
UE4 Grass Interaction
UE4 Grass Interaction
エンタメとロボットとちょっと未来のわたしたち
エンタメとロボットとちょっと未来のわたしたち
UE4学園追放による頭位置移動入力方法
UE4学園追放による頭位置移動入力方法
伝わるプレゼン
伝わるプレゼン
More from Genki Ishibashi
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
Genki Ishibashi
Twilio flex導入までの背景と苦労した話
Twilio flex導入までの背景と苦労した話
Genki Ishibashi
新卒の頃に意識したかった プロダクト開発の7つのポイント
新卒の頃に意識したかった プロダクト開発の7つのポイント
Genki Ishibashi
Fuzz testingとgo
Fuzz testingとgo
Genki Ishibashi
仕組みから理解する人力音声認識
仕組みから理解する人力音声認識
Genki Ishibashi
Redash・SQL勉強会 ~目指せクエリ女子~
Redash・SQL勉強会 ~目指せクエリ女子~
Genki Ishibashi
re:invent2019体験記
re:invent2019体験記
Genki Ishibashi
AmebaDSPの成長フェーズとアーキテクチャの話
AmebaDSPの成長フェーズとアーキテクチャの話
Genki Ishibashi
DDDを導入した話
DDDを導入した話
Genki Ishibashi
Paper Collection of Real-Time Bidding論文読み会~第一回~
Paper Collection of Real-Time Bidding論文読み会~第一回~
Genki Ishibashi
A/Bテストのための検定
A/Bテストのための検定
Genki Ishibashi
テックゼミ輪読会(深層学習1~2章)
テックゼミ輪読会(深層学習1~2章)
Genki Ishibashi
スマホ広告効果測定ツール入門
スマホ広告効果測定ツール入門
Genki Ishibashi
楽しいビッグデータ分析入門~Presto編~
楽しいビッグデータ分析入門~Presto編~
Genki Ishibashi
F.O.Xデータ抽出基盤をクラウド移行した話
F.O.Xデータ抽出基盤をクラウド移行した話
Genki Ishibashi
ゼロから始めるAngular2生活
ゼロから始めるAngular2生活
Genki Ishibashi
Dynamo dbとはとは続き
Dynamo dbとはとは続き
Genki Ishibashi
DynamoDBとはとは
DynamoDBとはとは
Genki Ishibashi
More from Genki Ishibashi
(18)
音声合成の今昔と深層学習を用いた音声合成
音声合成の今昔と深層学習を用いた音声合成
Twilio flex導入までの背景と苦労した話
Twilio flex導入までの背景と苦労した話
新卒の頃に意識したかった プロダクト開発の7つのポイント
新卒の頃に意識したかった プロダクト開発の7つのポイント
Fuzz testingとgo
Fuzz testingとgo
仕組みから理解する人力音声認識
仕組みから理解する人力音声認識
Redash・SQL勉強会 ~目指せクエリ女子~
Redash・SQL勉強会 ~目指せクエリ女子~
re:invent2019体験記
re:invent2019体験記
AmebaDSPの成長フェーズとアーキテクチャの話
AmebaDSPの成長フェーズとアーキテクチャの話
DDDを導入した話
DDDを導入した話
Paper Collection of Real-Time Bidding論文読み会~第一回~
Paper Collection of Real-Time Bidding論文読み会~第一回~
A/Bテストのための検定
A/Bテストのための検定
テックゼミ輪読会(深層学習1~2章)
テックゼミ輪読会(深層学習1~2章)
スマホ広告効果測定ツール入門
スマホ広告効果測定ツール入門
楽しいビッグデータ分析入門~Presto編~
楽しいビッグデータ分析入門~Presto編~
F.O.Xデータ抽出基盤をクラウド移行した話
F.O.Xデータ抽出基盤をクラウド移行した話
ゼロから始めるAngular2生活
ゼロから始めるAngular2生活
Dynamo dbとはとは続き
Dynamo dbとはとは続き
DynamoDBとはとは
DynamoDBとはとは
Recently uploaded
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
K Kinzal
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
miyp
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Toru Miyahara
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
Masatsugu Matsushita
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
Toru Miyahara
「VRC海のおはなし会_深海探査とロボットのお話」発表資料
「VRC海のおはなし会_深海探査とロボットのお話」発表資料
Yuuitirou528 default
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
Toru Miyahara
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
Kurata Takeshi
Recently uploaded
(8)
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
Compute Units/Budget最適化 - Solana Developer Hub Online 6 #SolDevHub
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
ビジュアルプログラミングIotLT17-オープンソース化されたビジュアルプログラミング環境Noodlの紹介
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
「VRC海のおはなし会_深海探査とロボットのお話」発表資料
「VRC海のおはなし会_深海探査とロボットのお話」発表資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
エンジニアのセルフブランディングと技術情報発信の重要性 テクニカルライターになろう 講演資料
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
ゼロから作るダメ絶対音感
1.
ゼロからつくる ダメ絶対音感 2017-06-14 スキルウェンズデー@CyberZ いしばし げんき
2.
自己紹介 ・3Dプリンタに関する研究 ・2015年 7月CyberZに入社 ・15年8月 広告設定チームに配属 ・16年8月
データ抽出チームJOIN 名前:石橋 弦樹(@b0941015) 経歴
3.
ダメ絶対音感とは… ある音を単独に聴いたときに、その音の高さを 記憶に基づいて絶対的に認識する能力である。 絶対音感… ダメ絶対音感… アニメやCM・洋画の吹き替えなどの声から瞬時 に誰の声かを判断することができるという、生 きていく上で特に必要のない能力のことをいう。 @wikipedia @アニオタWiki(仮)
4.
※ダメ絶対音感テスト~入門~ http://www.nicovideo.jp/watch/sm17371984
5.
簡単ですよね?
6.
機械学習でダメ絶対音感 http://qiita.com/1234224576/items/f785eef6eed68271be64 http://manabukk.hatenablog.com/entry/2016/12/10/204111
7.
機械学習でダメ絶対音感 http://qiita.com/1234224576/items/f785eef6eed68271be64 http://manabukk.hatenablog.com/entry/2016/12/10/204111 私もやりたい! 特徴量として使ってる MFCCって何? 日本語で詳しい記事が全然 見当たらないんだけど… 声の分析やってみたい!
8.
とりあえずダメ絶対音感作ってみた
9.
ダメ絶対音感のための機械学習プロセス ① 学習させる元となるデータを集める ② 識別に必要な特徴量を抽出する ③
特徴量を学習させて識別モデルを作成する ④ モデルを評価する
10.
①データ集め 識別したいアニメやラジオから音源を調達 • 特定の人物が喋っている部分だけ抜き出す必要あり • 声に他人の声・効果音やBGMが被っている •
地声と各アニメキャラのサンプルの調達に手間 ボイスサンプルを利用
11.
①データ集め ボイスサンプルを利用 • 本人しか喋ってないのでラベリングが楽 • 基本BGMがなく、声のみのデータが取得可 •
地声・色々なキャラの声を容易に収集可 声優事務所HP ボイスサンプルで検索
12.
ダメ絶対音感のための機械学習プロセス ① 学習させる元となるデータを集める ② 識別に必要な特徴量を抽出する ③
特徴量を学習させて識別モデルを作成する ④ モデルを評価する
13.
②特徴量の抽出 • 音声信号の機械学習には色々種類がある • 音声認識…なんと喋っているか •
話者認識...誰が話しているか • 言語認識…何の言語か • 性別識別…男性か女性か
14.
②特徴量の抽出 • 音声信号の機械学習には色々種類がある • 音声認識…なんと喋っているか •
話者認識...誰が話しているか • 言語認識…何の言語か • 性別識別…男性か女性か • ダメ絶対音感 = 話者認識(Speaker Recognition)
15.
②特徴量の抽出 音声信号は声帯の音源と周波数特性を変える声道フィ ルタの組み合わせによってモデル化される + = 声帯の振動 声道フィルタ
声
16.
②特徴量の抽出 • 話者認識の特徴量としてMFCCがよく用いられる
17.
②特徴量の抽出 • MFCCってなんなん? Mel-Frequency Cepstral
Coefficients メル尺度 || 人の音の知覚尺度 周波数 スペクトルをフーリエ変換したもの spectrum→cepstrum 係数
18.
②特徴量の抽出
19.
②特徴量の抽出~mfccの算出~ 計測される音声信号 周波数のパワースペクトル メル尺度・対数に変換 ケプストラム
20.
②特徴量の抽出~mfccの算出~ ~15次元ぐらいの値を特徴量として利用 = MFCC 声道の特性 =
21.
機械学習のプロセス ① 学習させる元となるデータを集める ② 識別に必要な特徴量を抽出する ③
特徴量を学習させて識別モデルを作成する ④ モデルを評価する
22.
③特徴量の分類 • 話者認識する方法には種類がある • 決められたフレーズ •
比較が容易 テキスト依存 テキスト非依存 • 任意のフレーズ • 単純な比較が困難
23.
③特徴量の分類 • 古典的で一般的な学習モデル • GMM-UBM…ガウシアン混合分布を用いて確率的に 分類 •
SVM…マージン最大化の離散モデル GMM SVM
24.
機械学習のプロセス ① 学習させる元となるデータを集める ② 識別に必要な特徴量を抽出する ③
特徴量を学習させて識別モデルを作成する ④ モデルを評価する
25.
具体的な手順 ① 6人のボイスサンプルを用意 ② ボイスサンプルから無音時間を削除 ③
各MFCCを計算して、ファイル(.mfcc)に保存する ④ GMMとSVMの学習器に特徴量を学習
26.
具体的な手順 無音領域の除去 MFCCの抽出 学習・分類
27.
GMM結果 • 識別できてない…
28.
SVM結果 • 6~7割の精度で6人の識別可能
29.
まとめ • MFCCってなにか • SVM使うとそれっぽく分類できた •
ROCとか結果の評価をもっとやりたい • ディープラーニングに転用したい • 声を入力すると誰に似てるとか 今後
30.
ご清聴ありがとうございました
Download now