SlideShare a Scribd company logo
画像処理を用いた複数話者に対する
音声強調の研究
所属 人工知能第一研究室
発表者 1153021 梶原 祥希
指導教員 古家 賢一教授
目次
• 研究の背景
• 目的
• 従来研究
• 解決したい課題
• アプローチ方法
• 複数人から1人の特定
• 実験
• 結果・考察
• まとめ
• 今後の課題
1
研究の背景
ビデオカメラなどでの録画・録音が簡単にできるようになった
個人で動画を撮影・配信することが普及
例)テレビ電話やビデオ会議・授業など
問題点
周りに雑音が存在する場合、話し声が聞き取りにくい
例)車の走行音,周囲の話者
2
目的
周囲に雑音が存在
→目的音方向の音の強調
→目的音の明瞭化
3
処理後
マイクロホンアレイ
雑音
従来研究
マイクロホンアレイによる音声強調(MV法)
(浅野 太),2011
θ方向以外→死角
θ方向 →強調
画像処理による頭部位置検出を用いた
音声強調の評価(画像MV法)
(有満 大輝),2014
画像から目的音源方向を取得
→MV法を適用し、音の強調
4
Θの推定
画像処理による頭部位置検出を用いた
音声強調の評価(画像MV法)
• 目的音方向:正面
• 雑音方向:右30度
• 距離:3m
5
実験配置図 SN比改善量の比較
雑音
解決したい課題
複数人対応
カメラ内に複数人いる場合を想定していない
画像処理によって
複数人いた場合も目的の人を見つけ出したい
6
カメラ
どっち?
カメラ
この人ね
アプローチ法
7
複数人から
一人を検出
目的音源方向
の取得
音声処理
(MV法)
<Kinect>
カメラ
マイクロホン
アレイ スピーカー
録音
目的音方向(角度)
深度センサ
Kinect
8
• マイクロソフト社が開発した
ゲームデバイス
• 体をコントローラー代わりに
することができる
機能
RGBカメラ・深度センサ・4つのマイクロホン・チルトモーター
骨格検出:20個の関節点を取得
問題点:同時に骨格検出可能
2人までが上限
3人以上からの検出
3人以上から1人を検出
人であると検出→最大7人
それぞれにIDが割り振られる
時間ごとで骨格検出する人をずらしていく
9
手を上げる
プログラムの流れ
10
左に15度
画像MV法 実験
目的
• 人が近い距離にいる場合における画像MV法と従来のMV法の比較
方法
• 8点でのインパルス応答を測定
• 目的音(男声データ)と雑音(男声データ)の混じったデータを作成
• SN比: -10dB 0dB 10dB
• 画像MV法と従来のMV法を行う
11
画像MV法 実験
目的音と雑音の深度が同じ場合
• 9通り
• 例 目的音:1m_正面 雑音:1m_左50cm
目的音:3m_正面 雑音:3m_左50cm
目的音と雑音の深度が違う場合
• 15通り
• 例 目的音:1m_正面 雑音:3m_左50cm
12
インパルス応答測定
13
ダミーヘッドをスピーカーとして使用
結果(目的音:1m_正面)
14
目的音:1m_正面
雑音:1m_左50cm
結果(目的音:3m_正面)
15
目的音:3m_正面
雑音:3m_左50cm
結果(深度が違う場合)
16
SN比の改善量
結果
17
SN比の改善量
実験結果・考察
画像MV法のほうが従来のMV法より良い結果が
得られた
• 画像MV法は目的音と雑音が近い場合においても有効
深度が違う場合において、SN改善量がマイナスになる
• もともとのSN比が良いところに多く見られる
• 音声強調を行う際に雑音の削減はできているが同時に目的音
も削減されてしまい、比率を見ると悪くなってしまう
18
まとめ・今後の課題
まとめ
複数人いても角度を取得でき、画像MV法は有効
画像処理:目的音となる人物を複数人の中から骨格検出可能
音声強調:目的音と雑音が近い距離にある場合でも
画像MV法は有効
今後の課題
• SN改善量がマイナスになってしまう
• 画像処理と音声強調の統合
• プログラムをリアルタイムで処理
19

More Related Content

What's hot

論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 
Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)
Masanori Yamada
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
joisino
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
KOTARO SETOYAMA
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィ
Norishige Fukushima
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
Takuya Minagawa
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
Daichi Kitamura
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
Takuya Yoshioka
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
Kitamura Laboratory
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
Kota Matsui
 
Contrastive learning 20200607
Contrastive learning 20200607Contrastive learning 20200607
Contrastive learning 20200607
ぱんいち すみもと
 

What's hot (20)

論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)Reinforcement Learning(方策改善定理)
Reinforcement Learning(方策改善定理)
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
音声認識における言語モデル
音声認識における言語モデル音声認識における言語モデル
音声認識における言語モデル
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィ
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価(Experimental evaluation of multichannel audio s...
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析スペクトログラム無矛盾性に基づく独立低ランク行列分析
スペクトログラム無矛盾性に基づく独立低ランク行列分析
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
「統計的学習理論」第1章
「統計的学習理論」第1章「統計的学習理論」第1章
「統計的学習理論」第1章
 
Contrastive learning 20200607
Contrastive learning 20200607Contrastive learning 20200607
Contrastive learning 20200607
 

Viewers also liked

学部卒業論文
学部卒業論文学部卒業論文
学部卒業論文n-yuki
 
Amyloid Beta Poster
Amyloid Beta PosterAmyloid Beta Poster
Amyloid Beta Poster
Lisa Cheah
 
卒論執筆のために3年生からやる5つのこと
卒論執筆のために3年生からやる5つのこと卒論執筆のために3年生からやる5つのこと
卒論執筆のために3年生からやる5つのこと
Saya Katafuchi
 
卒論に必要なWordテクニック
卒論に必要なWordテクニック卒論に必要なWordテクニック
卒論に必要なWordテクニック
Shibaura Institute of Technology
 
卒業論文 プレゼンテーション
卒業論文 プレゼンテーション卒業論文 プレゼンテーション
卒業論文 プレゼンテーション
Kanako Matsuoka
 
卒業論文の書き方-三年生のうちに土台を作って卒論のいいスタートダッシュをするために-
卒業論文の書き方-三年生のうちに土台を作って卒論のいいスタートダッシュをするために-卒業論文の書き方-三年生のうちに土台を作って卒論のいいスタートダッシュをするために-
卒業論文の書き方-三年生のうちに土台を作って卒論のいいスタートダッシュをするために-
HisatakaSuzuki
 
Alzheimer’s disease ppt
Alzheimer’s disease pptAlzheimer’s disease ppt
Alzheimer’s disease ppt
Fariha Shikoh
 
Alzheimer disease
Alzheimer diseaseAlzheimer disease
Alzheimer disease
visheshrohatgi
 

Viewers also liked (8)

学部卒業論文
学部卒業論文学部卒業論文
学部卒業論文
 
Amyloid Beta Poster
Amyloid Beta PosterAmyloid Beta Poster
Amyloid Beta Poster
 
卒論執筆のために3年生からやる5つのこと
卒論執筆のために3年生からやる5つのこと卒論執筆のために3年生からやる5つのこと
卒論執筆のために3年生からやる5つのこと
 
卒論に必要なWordテクニック
卒論に必要なWordテクニック卒論に必要なWordテクニック
卒論に必要なWordテクニック
 
卒業論文 プレゼンテーション
卒業論文 プレゼンテーション卒業論文 プレゼンテーション
卒業論文 プレゼンテーション
 
卒業論文の書き方-三年生のうちに土台を作って卒論のいいスタートダッシュをするために-
卒業論文の書き方-三年生のうちに土台を作って卒論のいいスタートダッシュをするために-卒業論文の書き方-三年生のうちに土台を作って卒論のいいスタートダッシュをするために-
卒業論文の書き方-三年生のうちに土台を作って卒論のいいスタートダッシュをするために-
 
Alzheimer’s disease ppt
Alzheimer’s disease pptAlzheimer’s disease ppt
Alzheimer’s disease ppt
 
Alzheimer disease
Alzheimer diseaseAlzheimer disease
Alzheimer disease
 

卒論発表

Editor's Notes

  1. それでは、画像処理を用いた複数話者に対する音声強調の研究と題しまして、人工知能第一研究室、梶原祥希が発表させて頂きます。指導教員は古家賢一教授です。
  2. まず、研究の背景として、近年ビデオカメラなどでの録画・録音が簡単にできるようになってきました。 そういったなかで、個人で動画を撮影、配信することが普及しています。 しかし、車の走行音や周囲の話者などの雑音が周りに存在する場合、話し声が聞き取りにくいという問題があります。
  3. そこで、周囲に雑音が存在する中で、目的音方向の音を強調することで、目的音の明瞭化を行いたいという目的で研究していこうと考えました。
  4. 研究していくにあたって、従来研究としてマイクロホンアレイによる音声強調のMV法というものがあります。 これは、θ方向以外に死角を向けることで、θ方向の音を強調するというものです。 そこで、θの角度が必要になるのですが、 画像から目的音方向θを取得する方法をとっているのが下の研究です。 これは画像から目的音方向を取得し、その方向にMV法を適用することで 目的音の強調を行うという、手法をとったものです。
  5. その研究の実験として、目的音方向:正面、雑音方向:右30度、距離:3mの環境で行ったものです。 従来のMV法とこの手法を比べると、良くなっています。 私はこの研究を参考にしていこうと思います。
  6. しかし、解決したい課題として、この研究はカメラ内に複数人いる場合を想定していません。 そこで、複数人いた場合も目的の人を見つけ出せるようにしたい。 と考えました。
  7. システムの流れとしてですが、カメラとマイクロホンアレイを用いて、 カメラ画像から複数人から一人を検出し、目的音源方向の角度を取得 その角度と録音した音で、音声処理して、スピーカーから出力するという流れになっています。 今回私は複数人から一人を検出するというところを主に行ってきました。 またデバイスですが、kinectを使って行きました。
  8. Kinectとは、機能としては、RGBカメラ・距離センサ・4つのマイクロホン・チルトモーターがあり、 骨格検出というのができます。 これは、体から20個の関節点を取得するものです。 しかし、今のkinectでは、同時に骨格検出できるのが最大2人までとなっています。
  9. 複数人に対応させたいという考えなので、3人以上からも一人を検出しなければいけません。 そこでどのようにしていくかですが、kinectが人であると検出できるのは7人までで、 それぞれにIDが割り振られることが分かったので、時間ごとに骨格検出する人をずらしていくことで目的の一人を見つけ出します。 イメージとしては、このように一人ずつ骨格検出を行い、手を挙げるなど何か動作をすると、目的の人であると検出します。
  10. システムの流れとしてはkinectの機能で人を認識すると、それぞれのIDを配列に入れます それから1人ずつ骨格検出を行い右手が上がっているかの判断をし、描画をします それを人数分行い、人認識に戻るといったものです。 実際に使用した様子がこのようになっており、右手を上げることで赤丸がつき目的音方向であると決定します。 また角度も同時に取得します。
  11. 次に画像MV法の実験を行いました。 目的はカメラ画像内といった人と人が近い距離にいた場合でも画像MV法はMV法よりも有効なのか 方法は以下の8点でインパルス応答を測定し、二点を選び出して、それぞれに目的音のみと雑音のみのデータを畳み込むことで 目的音と雑音の混じったデータを作成しました。 また、作成データは目的音と雑音の比であるSN比がー10、0、10dB の3つのデータを作成しました
  12. 作成した音はkinectからの距離が目的音と雑音ともに同じ距離にある場合が9通り 例として 目的音がkinectから1m離れた距離の正面,雑音がkinectから1m離れた距離で左に50cmずれた位置といったデータを作成しました また、目的音がkinectから1m離れた距離の正面,雑音がkinectから3m離れた距離で左に50cmずれた位置といったような目的音と雑音の深度が違う場合についても行っていきました
  13. インパルス応答測定にはダミーヘッドというものをスピーカーとして使用しました。
  14. 深度が同じ場合の結果ですが、これは目的音が1m正面、雑音が1m左50cmの位置にある場合の画像MV法とMV法を比較した結果です。
  15. また、これはこれは目的音が3m正面、雑音が3m左50cmの位置にある場合の画像MV法とMV法を比較した結果です。 今回は時間の都合上9通り全てをお見せできませんが全ての場合において画像MV法のほうが良い音声強調ができていました
  16. 次に目的音と雑音の深度の違う場合ですが、こちらもほぼ全てで画像MV法のほうが高い音声強調の結果が得られました
  17. しかし、この赤字部分を見ると音声強調した結果がマイナスになってしまっているところが有りました
  18. 結果と考察です 画像MV法のほうが従来のMV法より良い結果が得られ、画像MV法は目的音と雑音が近い場合においても有効であることが分かりました また、深度が違う場合において、SN比の改善量がマイナスになっている点がありました。 これは、もともとのデータのSN比がいい所に多く見られ、音声強調を行う際に雑音の削減はできているものの、同時に目的音も削減してしまい、もとが目的音のほうが大きいデータだったために比率で見ると悪くなってしまったのだと考えました
  19. まとめとして、目的音となる人物を複数人の中から骨格検出可能となり、また、目的音と雑音が近い場合でも画像MV法は有効であったため、カメラ画像内に複数人いても角度を取得でき、画像MV法は画像MV法は有効であることが分かりました。 今後の課題としてはSN改善量がマイナスになる点について何らかの対処をしていかなければならないことや 現在画像処理と音声強調を別々に行っているためプログラムを統合させる必要があり、またその上で最終的にはシステムをリアルタイムで動作するようにしたい。
  20. 目次は以下のようになっています。
  21. まず、研究の背景として、近年ビデオカメラなどでの録画・録音が簡単にできるようになってきました。 そういったなかで、個人で動画を撮影、配信することが普及しています。 しかし、車の走行音や周囲の話者などの雑音が周りに存在する場合、話し声が聞き取りにくいという問題があります。
  22. そこで、周囲に雑音が存在する中で、目的音方向の音を強調することで、目的音の明瞭化を行いたいという目的で研究していこうと考えました。
  23. 研究していくにあたって、従来研究としましてマイクロホンアレイによる音声強調のMV法というものがあります。 これは、θ方向以外に死角を向けることで、θ方向の音を強調するというものです。 そこで、θの角度が必要になるのですが、 画像から目的音方向θを取得する方法をとっているのが下の研究です。 これは画像から目的音方向を取得し、その方向にMV法を適用することで 目的音の強調を行うという、手法をとったものです。
  24. その研究の実験として、目的音方向:正面、雑音方向:右30度、距離:3mの環境で行ったものです。 従来のMV法とこの手法を比べると、良くなっています。 私はこの研究を参考にしていこうと思います。
  25. しかし、解決したい課題として、この研究はカメラ内に複数人いる場合を想定していません。 そこで、複数人いた場合も目的の人を見つけ出せるようにしたい。 と考えました。
  26. システムの流れとしてですが、カメラとマイクロホンアレイを用いて、 カメラ画像から複数人から一人を検出し、目的音源方向の角度を取得 その角度と録音した音で、音声処理して、スピーカーから出力するという流れになっています。 今回私は複数人から一人を検出するというところを主に行ってきました。 またデバイスですが、kinectを使って行こうと思います。
  27. Kinectとは、マイクロソフト社が開発したゲームデバイスで、 体をコントローラー代わりにすることができるものです。 機能としては、RGBカメラ・距離センサ・4つのマイクロホン・チルトモーターがあり、 骨格検出というのができます。 これは、体から20個の関節点を取得するものです。 しかし、今のkinectでは、同時に骨格検出できるのが最大2人までとなっています。
  28. 複数人に対応させたいという考えなので、3人以上からも一人を検出しなければいけません。 そこでどのようにしていくかですが、kinectが人であると検出できるのは7人までで、 それぞれにIDが割り振られることが分かったので、時間ごとに骨格検出する人をずらしていくことで目的の一人を見つけ出します。 イメージとしては、このように一人ずつ骨格検出を行い、手を挙げるなど何か動作をすると、目的の人であると検出します。
  29. そこで、予備実験を行いました。 目的としては、手を挙げることで複数人から1人を検出できるか。と 目的音方向の角度を取得できるか。といった2点を目的としています。 結果として、右の写真のように手を挙げることで検出できました また、その人の角度も取得できました。
  30. そこで、角度の取得ができることが分かったので、音声処理の面で 先に正解の角度を与えておくことで、画面上に二人いる場合での音声強調は どの程度か。という目的で実験を行いました。 実験環境はkinectから3m離れた位置で 右9度から男性の声を、左9度からは女性の声をスピーカーから出力しました。
  31. その結果として、SN比と呼ばれる目的音と雑音の比が男性の声の強調は約3.6dB 女性の声の強調は約5.2dB改善されました。 音を聞いていただくとどの程度よくなったか分かりやすいと思うので、 流そうと思います。 録音したそのままの音がこちらです。 男性の声を強調したのがこちらです。 女性の声を強調したのがこちらです。
  32. ここまでの結論としまして予備実験①からは 複数人から1人を見つけ出すことができました。 また、目的音方向の取得が可能でした。 予備実験②から画面上に2人いた場合もMV法による音声強調が有効でした。 この結果から、予備実験①と②を合わせることで、複数人いた場合の目的音声の 強調ができるはずだと考えています。
  33. 今後の進め方ですが、予備実験のように画像処理と音声処理が別々になっているので統一させる。 統一できれば、最終的には画像処理と音声処理をリアルタイムで処理できるように したいと思っています。 以上で私の発表を終わらせていただきます。
  34. 今聞いていただいた音のSN比がこちらになります。 SN比とは目的音と雑音の比で、高いほどより分離されたように聞こえます。 このグラフは左が男性の声の強調、右が女性の声の強調で、オレンジ色が処理前、緑色が処理後です。 改善量として男性の声が+3.6064dB, 女性の声が+5.1947dB改善されました。
  35. 次に、音声処理の面で、目的音の方向にマイクロホンアレイの指向性制御を加えるため、音を強調する方向のフィルターを作成し、録音した音にMV法を用いて目的音方向の音を強調するようにします。