EarHover:ヒアラブルデバイスにおける
音漏れ信号を用いた空中ジェスチャ認識
慶 應 義 塾 大 学 杉 浦 裕 太 研 究 室 B 4
鈴木俊汰1) ,雨坂宇宙1),渡邉拓貴2) ,志築文太郎3) ,杉浦裕太1)
1)慶應義塾大学, 2)北海道大学,3)筑波大学
インタラクション2024
• ヒアラブルデバイス
• 音楽再生,音声アシスタント,通話などの多くの機能
• 操作
• スマートフォンによる操作
• 画面注視の必要性
• 音声アシスタント
• 社会的受容性の問題
2
[1]Sony, WF-10000XM5 https://www.sony.jp/headphone/products/WF-1000XM5/
[2]Apple, AirPodsPro(第2世代) https://www.apple.com/jp/shop/product/MTJV3J/A/airpods-pro
背景
市販のヒアラブルデバイス
[1] [2]
• デバイス本体による操作
• 感圧センサ,物理ボタン
• センサ部分,ボタン部分が小さく,押下が困難
• 静電容量センサ
• 手袋着用時の使用が不可能
• 押下による耳への負担
• 操作数
• 押下時間や回数の変化による定義
• AirPods[3]では5種類の操作
• 1~3回のタップ,長押し,スワイプ
• 操作数の限界
3
[3]Apple, AirPods(第3世代) https://www.apple.com/airpods-3rd-generation/
背景
デバイス本体による操作[1]
• EarBuddy
• 顔や耳近くのタップやスライディングジェスチャ
• EarTouch
• 反射型光センサで耳の変形をセンシング
• 手が汚れている,手を清潔に保ちたい場合は
システムの利用が困難
4
[4] Xuhai Xu et al., EarBuddy: Enabling On-Face Interaction via Wireless Earbuds. CHI '20. https://doi.org/10.1145/3313831.3376836
[5] Takashi Kikuchi et al., EarTouch: turning the ear into an input surface. MobileHCI '17. https://doi.org/10.1145/3098279.3098538
関連研究:ハンドジェスチャ入力
EarBuddy[4]
EarTouch[5]
• 赤外線センサ
• センサ付近を指でジェスチャ
• カメラ
• 手の輪郭,爪の位置,指関節の角度をセンシング
• 実装コスト,デザイン制約の課題
5
[6] C. Metzger et al., FreeDigiter: a contact-free device for gesture control, Eighth International Symposium on Wearable Computers, doi: 10.1109/ISWC.2004.23.
[7] Emi Tamaki et al., Brainy hand: an ear-worn hand gesture interaction device. CHI EA '09. https://doi.org/10.1145/1520340.1520649
関連研究:空中ジェスチャハンズフリー入力
赤外線センサを使用したジェスチャ検出[6]
カメラを使用したジェスチャ検出[7]
• ヒアラブルデバイスから超音波信号(20kHzのトーン信号)を再生
• デバイスからの音漏れ信号を録音
• 音漏れ信号がジェスチャを行う手に反射→ドップラー効果の発生
• 録音した音声を解析し,スペクトログラム画像に変換
• 深層学習を用いて識別を行う
6
提案手法
EarHoverの様子
• ドップラー効果
• 測定される音響信号の周波数が変化する現象
• ジェスチャ固有のドップラー効果の発生
• 速さ,方向,角度,反射具合の違い
• 音量やドップラー効果の変化が異なる
7
原理
ドップラー効果発生の概要
ジェスチャとそのドップラー効果の例
①音楽の再生 ②信号の音漏れ
③音漏れの反射
ドップラー効果発生の様子
• ヒアラブルデバイスの種類
8
原理
[8]Apple,EarPods(3.5mmヘッドフォンプラグ)https://www.apple.com/jp/shop/product/MNHF2FE/A/earpods-with-35-mm-headphone-plug
[9]Victor, HA-NP35T https://www.victor.jp/headphones/lineup/ha-np35t/
[10]SHOKZ,OPENFIT https://jp.shokz.com/products/openfit
Sony WF-1000XM5[1] Apple AirPods Pro[2] Apple AirPods[3] Apple EarPods[8]
SHOKZ OPENFIT[10]
Victor HA-NP35T[9]
①カナル型 ②インイヤー型
③オープンイヤー型
9
手順
• データ前処理
• バンドストップフィルタ(20kHz)
• データ拡張
• カラーバー設定
• 画像引き延ばし
• Convolutional Neural Networkによる深層学習
EarHoverの概要図
• カラーバー設定
• 画像内の音量のRGB範囲
• シフト部分の音量変化に対応
• 画像引き延ばし
• 手の速さやジェスチャ実時間によって,シフト形状が変化
• 引き伸ばし方向:縦横
10
データ拡張
カラーバー設定
A:0.0-2.0dB,B:0.2-2.0dB,C:0.4-2.0dB
A 幅1.0 倍(元画像)
B 幅1.05 倍
C 幅1.1 倍
D 高さ1.0 倍(元画像)
E 高さ1.05 倍
F 高さ1.1 倍
画像引き延ばし倍率設定
11
実装
• ハードウェア
• インイヤー型デバイス
• Apple EarPods
• オープンイヤー型デバイス
• Victor HA-NP35T
• ソフトウェア
• Python 3.10
• サンプリングレート:44.1kHz
• 量子化ビットレート:16bit
• 音量
• 40-45dBの範囲で実験
• 実験時は20kHz部分の振幅を統一
• 推奨音量は週40時間80dB(世界保健機関[11])
[11] WHO: Safe listening devices and systems: a WHO-ITU standard, https://www.who.int/publications/i/item/9789241515276/ (2019).
2つのプロトタイプデバイス
接続の様子
赤:ヒアラブルデバイス
青:外部マイク
• 27種類の空中ジェスチャ(Yu-chunら[12]+自作)
12
実験1:ジェスチャ選定
[12] Yu-Chun Chen et al. Exploring User Defined Gestures for Ear-Based Interactions. ISS, Article 186(2020), 20 pages. https://doi.org/10.1145/3427314
• 以下の3つの観点から最適なジェスチャを選定
• ドップラーシフト領域
• 類似性
• ユーザビリティ
13
実験1:ジェスチャ選定
実験人数 11名(男性8名,女性3名)
利き手 全員が右利き
年齢の平均,標準偏差 27.9歳,10.7歳
デバイス使用頻度の平均,標準偏差 4.13日 / 週,2.84日 / 週
実験時間 1~1.5時間
実験報酬 3,000円
測定 27ジェスチャ×5セット
実験概要
• ドップラーシフトの大きいジェスチャを選定
• カラーバーは最小値0.5dB,最大値2.0dB
• 白黒画像に変換し,白部分面積の割合を評価
14
実験1:ジェスチャ選定
ドップラーシフト領域 類似性 ユーザビリティ
27ジェスチャの画像全体に対する白面積割合の平均
カラー画像の白黒画像化
• ドップラーシフトが似ている者同士は誤認識の可能性
• ドップラーシフトの構造を比較
• 各ジェスチャ5枚をランダム抽出
• 1ピクセルずつスライドさせて白部分の重複を計算
• 重複の最大値を各ジェスチャで比較
15
実験1:ジェスチャ選定
ドップラーシフト領域 ユーザビリティ
類似性
白面積の重なりの平均割合(%)
グリップ - 開く グリップ - 閉じる
• ユーザビリティの低いジェスチャを削除
• 1-7で評価(7が最高評価)
• 簡単さ:平均4.89,閾値4
• 社会的受容性:平均3.96,閾値3.5
• 疲労感:平均4.63,閾値4
16
実験1:ジェスチャ選定
ユーザビリティ
ドップラーシフト領域 類似性
3種類のユーザビリティ評価の平均
17
実験1:ジェスチャ選定
ユーザビリティ
ドップラーシフト領域 類似性
選定されたジェスチャとそのドップラーシフト
ハンドスワイプ - 2 ツイスト - 1 ツイスト - 2 指スワイプ - 下
グリップ - 閉じる 絞る - 閉じる 電話 - 下
• 選定したジェスチャ+ニュートラルの8状態の認識精度を調査
• 安定した環境(Stable):160回(20回×8状態)
• テスト環境での実験:96回(4回×8状態×3環境)
• 右手に手袋を装着した状態(Gloves),右側50cmの距離に人が座っている状態(Neighbor),
歩行中の状態(Walking)
18
実験2:ジェスチャ認識
実験人数 13名(男性8名,女性5名)
利き手 全員が右利き
年齢の平均,標準偏差 27.5歳,9.93歳
デバイス使用頻度の平均,標準偏差 4.27日 / 週,2.64日 / 週
実験時間 1~1.5時間
実験報酬 3,000円
実験概要
• Stableのジェスチャ認識率
• インイヤー型デバイス:78.7%
• オープンイヤー型デバイス:73.4%
19
実験2:ジェスチャ認識
個人モデル – 8状態 個人モデル – 6状態
• テスト環境のジェスチャ認識率
• Stableで作成された20の分類モデルを使用
• 精度低下の原因
• モデルがStableに過学習
• Gloves:手袋が反響音を吸収
• Neighbor:右隣に人がいることによるジェスチャの躊躇
• Walking:歩行によるジェスチャ感覚のずれ,歩行雑音
20
実験2:ジェスチャ認識
個人モデル – 8状態 個人モデル – 6状態
• ヒアラブルデバイスでは一般に5つのコマンドで操作可能(AirPods Pro[2])
• 再生/停止,音量を上げる,音量を下げる,次の曲に進む,前の曲に戻る
• 現状の操作に追加する形での実装を想定
• 7ジェスチャのうち混同の多いペアの中から2ジェスチャを削除
• ツイスト-1とツイスト-2,グリップ-閉じると絞る-閉じる
• 6状態のStable認識率
• インイヤー型デバイス:86.2%,オープンイヤー型デバイス:82.5%
21
実験2:ジェスチャ認識
個人モデル – 6状態
個人モデル – 8状態
• システム改善
• ジェスチャ実時間を切り出して,開始時間を統一
• 信号の再生不安定による20kHzトーン信号の上下の揺れ
• ピーク周波数周辺でのフィルタ処理とスペクトログラム表示
• 調査範囲の拡大
• ノイズ環境,音楽鑑賞時の認識率評価
• ジェスチャの習熟による認識率の変動
• 参加者ごとの精度ばらつきの原因
• フィードバックがある場合の認識性能調査
22
議論
ジェスチャ「ハンドスワイプ - 2」の一例
23
まとめ
背景 ヒアラブルデバイスの操作性向上(物理的負担,操作数の限界)
関連研究 ハンドジェスチャ入力,外部デバイスによるジェスチャ入力
提案 空中ジェスチャで発生する音漏れ信号のドップラー効果の利用
実装 空中ジェスチャの選定 → 8状態と6状態の認識率調査
評価 CNNによるLeave-one-out cross-validation
結果
Stableの8状態をインイヤー型デバイスで78.7%,
オープンイヤー型デバイスで73.4%
議論 システム改善,様々な環境下での評価
①音楽の再生 ②信号の音漏れ
③音漏れの反射
補足資料
26
音量設定
A:耳を模したオブジェクト
B:インイヤー型デバイス
C:オープンイヤー型デバイス
①20kHz部分の信号,②1と同じ振幅を3kHzで表現,③2の時のAirpodsの音量
• 各参加者1ジェスチャあたり5セット
• 参加人数11人×5セット=55回
• 白黒画像化はcv2.thresholdを使用
• 解像度:1600*900
27
実験1詳細
閾値15 閾値20
• Testデータにはデータ拡張後の画像を入力
• 各画像のPredict_Probaを算出し,そのジェスチャの予測値は全画像の予測値の多
数決で決定
• Stable
• Train12,672枚,Val2,376枚,Test792枚
• Test
• Stableモデルを使用し20分割交差検証,Test3,168枚
28
実験2詳細
• 参加者3人で評価
• 訓練データ16回,検証データ3回,テストデータ1回の20分割交差検証
• ニュートラルを除くジェスチャデータのみでの検証
• カラーバー設定(11倍拡張)
• 最大値は2.0dB
• 最小値が0.00-0.50dBまで,0.20dB-0.70dBまで,0.40-0.90dBまでの0.05dB刻み
• 画像引き延ばし(9倍拡張)
• 1.000倍,1.025倍,1.050倍の0.025x,1.00倍,1.05倍,1.10倍の0.05x,
29
実験2:データ拡張

EarHover:ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識

Editor's Notes

  • #3 近年,高性能なイヤホン型ウェアラブルデバイスであるヒアラブルデバイスが注目を集めています.音楽再生や音声アシスタントなどの多くの機能を使用することができ利便性が高いです.その操作としてはスマートフォンから操作することが可能ですが,画面を注視する必要がありユーザビリティが低下するうえ,歩行中のスマートフォンの使用は危険です.また,音声アシスタントを利用する場合も文化的な背景から,公共の場での使用を躊躇してしまうという欠点があります.そのため,デバイス本体のみで操作が完結するのが理想的です.
  • #4 一般的にデバイスには感圧センサや物理ボタン,静電容量センサが実装されていることが多いです.感圧センサや物理ボタンはセンサ部分やボタンサイズが小さく,デバイス本体のサイズが小さい場合には押下が難しいです.静電容量センサは指先でセンサ部分を直接タッチする必要があり,手袋装着時など限定環境下での使用ができないという欠点があります.また,これらのセンサを押下する際には耳への物理的な負担が生じ,ノイズが発生するという欠点も存在します.デバイス本体による操作数は押下時間や押下回数を変化させることによって操作数を定義していますが,5種類程度に限定されており,音楽再生時に他のアプリを操作するにはさらに操作方法を追加する必要があります.
  • #5 これらの問題を解決するため,ヒアラブルデバイスのハンドジェスチャ入力に関する研究は過去に多く行われてきました.EarBuddyではヒアラブルデバイス内蔵のマイクを使用して特徴量抽出による顔や耳近くのタップジェスチャの認識を可能にしました.EarTouchでは4つの反射型光センサを使用して耳の変形を検出し,その変化量によるジェスチャ入力手法を提案しました.しかし,これらの手法はデバイスや皮膚に手で直接触れる必要があるため,料理中や掃除中など手が汚れている場合などに利用することは困難です.
  • #6 デバイスや皮膚に手を触れずにジェスチャを入力するハンズフリー入力では,赤外線センサやカメラを使用する方法があります.しかしこれらの手法では,追加のセンサを導入する必要があり,実装コストがかかる上,小さなヒアラブルデバイスに実装するのは現実的ではありません.
  • #7 そこでこれらの問題解決のため,自身のヒアラブルデバイス付近で行われる空中ジェスチャを認識する手法を提案します.具体的にはまずヒアラブルデバイスから超音波信号を再生します.そしてデバイス外側に漏れる音漏れ信号がジェスチャを行う手に反射してドップラー効果が発生します.ジェスチャ時の音漏れ信号を録音し,発生するドップラー効果を画像で表現したうえで,深層学習を用いて識別を行います.
  • #8 本手法はヒアラブルデバイスからの音漏れ信号におけるドップラー効果をジェスチャ認識の指標とします.音漏れ信号がジェスチャを行う手に反射すると,マイクと音源の位置が相対的に変化するため,マイクで録音する際の周波数は変化し,ドップラー効果が発生します.行うジェスチャの種類によって手の移動する速さや方向,角度が異なり音漏れ信号の反射具合も異なるため,測定時の音量やドップラー効果のシフト幅もそれぞれ異なります.このドップラー効果を画像で表現し,深層学習を用いて識別を行います.
  • #9 ヒアラブルデバイスには主にカナル型,インイヤー型,オープンイヤー型の3種類があり,この順に音漏れ量が大きいという特性があります.カナル型はノイズキャンセリング機能を持つデバイスに採用されており,装着部分にイヤーチップが実装されていて気密性が最も高いです.一方,インイヤー型は装着部分にはイヤーチップがないため気密性は低く,オープンイヤー型は耳全体に添える形状のため最も気密性は低いです.各デバイスタイプにおけるジェスチャ時の録音音声を解析した結果,インイヤー型とオープンイヤー型で音漏れとドップラー効果を確認できたため,本研究ではこの2つのデバイスタイプを使用します.
  • #10 提案する手法EarHoverの概要はこちらの画像のとおりです.信号には,市販のヒアラブルデバイス対応周波数で,多くの人々にとって非可聴領域である20kHzのトーン信号を使用します.録音データに対する前処理として,ドップラーシフト部分のみを抽出するために20kHz部分のバンドストップフィルタを使用し,スペクトログラム画像として表示する際は縦軸を19.8kHzから20.2kHzで固定します.また,精度向上のためのデータ拡張としてはカラーバー設定と画像引き延ばしの2種類を行います.データ拡張後,画像を入力としてCNNによる深層学習を行います.
  • #11 空中ジェスチャは,ユーザ自身で触覚フィードバックを得ることや目視での動作確認が不可能であるため,同じジェスチャであっても,スペクトログラム画像上のドップラーシフトの様子は一定でないと考えられます.カラーバー設定では,画像内で音量のRGB範囲を示しており,音量の最小値と最大値を決定することで,最小値以下の音量は青色で,最大値以上の音量は赤色で表現されます.ドップラーシフト部分の音量変化に対応するためのデータ拡張としてカラーバー設定は有効だと考えます.また,同じジェスチャであっても,手の速さやジェスチャに必要な時間によってドップラー効果のシフト幅が縦横に異なります.よって画像を縦横に引き延ばすことで,ジェスチャ試行ごとの動作のノイズに対応することができると考えられます.
  • #12 実験で使用したデバイスは,市販のヒアラブルデバイスに外部マイクを取り付けた2種類のプロトタイプデバイスです.市販のヒアラブルデバイスの内蔵マイクは会話時の周波数上限を考慮し,高周波数帯域の録音に対応していません.そこで高周波数帯域の録音が可能な外部マイクをデバイスに取り付けました.また音源増幅のためのアンプとAD/DA変換のためのオーディオインターフェースをシステムに組み込みました.ヒアラブルデバイスの使用における音量設定の目安として,世界保健機関は成人が週40 時間使用する場合の音量制限を80 dB までと推奨しています.本研究では,健康リスクを考慮し40~45 dB の範囲で実験を行いました.
  • #13 本研究では実験を2つ行いました.実験1では,EarHoverに適した空中ジェスチャの選定を行いました.検証した27種類のジェスチャは関連研究にてエリシテーションで提案されたジェスチャと本研究で考案したジェスチャを組み合わせています.各ジェスチャはドップラー効果の出やすいものとして速度や角度を意識したものを提案しています.
  • #14 認識に最適なジェスチャを選定するため,ドップラーシフト領域,類似性,ユーザビリティの3つの観点から各ジェスチャを評価しました.人の出入りが少なく生活音の小さな部屋において,インイヤー型デバイスを装着し着席した参加者に27種類のジェスチャを5セット行ってもらいました.実験時には参加者の右側に物が何もない状態で行い,20kHzのトーン信号のみをデバイスから再生しました.
  • #15 本手法ではドップラーシフトの形が認識指標となるため,ドップラーシフト領域の小さいジェスチャは削除すべきです.スペクトログラム画像に表示すカラーバー設定として最小値を0.5 dB,最大値を2.0 dBに固定したうえで白黒画像に変換しました.この白黒画像に対する白部分の面積の割合をジェスチャごとに算出し,値が小さいジェスチャを削除対象としました.閾値を1.5と設定して,   下位9ジェスチャが削除されました.
  • #16 各ジェスチャのドップラーシフト領域が類似しているもの同士は誤認識する可能性があるため,ドップラーシフト部分の構造を比較することで類似しているペアの内の一方を削除します.11人の被験者から得た各ジェスチャ55枚の画像から,ランダムに5枚を抽出します.そして各画像を左から1ピクセルずつスライドさせ,白面積の重なりを計算していきます.この最大重複面積の平均を比較し,値が大きいものを類似ジェスチャペアと定義します.これらのペアの内,後述するアンケート調査のスコアの低い方を削除しました.この操作により, 下位6ジェスチャが削除されました.
  • #17 論理的に認識しやすいジェスチャであってもユーザビリティの観点から,参加者からの評価の低いジェスチャは削除すべきです.実験の最後に1-7のリッカート尺度で3つの項目についてアンケートを行いました.ジェスチャを正確に行うのはどの程度簡単か示す簡単さ,ジェスチャを公共の場で行いやすいかを示す社会的受容性,ジェスチャがどの程度疲れないかを示す疲労感の3つで,疲労感に関しては分析のために評価が反転しています.各指標に閾値を設け, 下位5ジェスチャが削除されました.
  • #18 以上の3つの指標によるジェスチャ選定検証の結果,こちらの7種類のジェスチャが選定されました.
  • #19 2つ目の実験では,選定された7ジェスチャとニュートラルの計8状態に対する認識率調査を行いました.デバイスからは20kHzのトーン信号を再生し,計13名に対して2種類のデバイスでジェスチャ時の録音データを収集しました.着席時の正面を向いた安定した環境Stableにおいて,各デバイスで20回×8状態の160回分のデータを取得しました.また,異なる環境での空中ジェスチャ入力を想定し,右手に手袋を装着したGloves,参加者の右側50cmの距離に人が座っているNeighbor,参加者が歩行中であるWalkingの3つの環境で計96回分のデータを収集しました.
  • #20 認識率評価です.まずはじめに8状態に対する認識率調査を行いました.Stableではインイヤー型デバイスで78.7%,オープンイヤー型デバイスで73.4%を達成しました.いずれのデバイスでハンドスワイプ-2の認識率が最も高く,ツイスト-1とツイスト-2の誤認識が多いという結果となりました. インイヤー型デバイスの参加者6,オープンイヤー型デバイスの参加者5,6,12において他の参加者と比較して著しく精度が低下するという結果となりました.原因としては,議論でも述べますがジェスチャ中に20kHz信号が乱れていたり,ドップラーシフトがそもそも現れていないものが多かったりしたケースが考えられます.
  • #21 3つのテスト環境ではStableで作成された20個の認識モデルを使用し,テスト環境の録音データをテストデータとして,各分類モデルに適用しました.検証の結果,各テスト環境はStableと比較して精度が低くなりました.全体的な精度低下の原因として使用したモデルがStableデータのみを用いて学習されたためにStableデータに過学習してしまっていることが挙げられます.また,Glovesでは布製の手袋が音漏れ信号の反響音を吸収して,ドップラーシフトの音量が小さくなること,Neighborではジェスチャを行う右側に人がいることでStableと比較してジェスチャを躊躇してしまうこと,Walkingでは歩行によるジェスチャ感覚が異なり,歩行雑音が存在することが精度低下の原因として考えられます.
  • #22 次に,ヒアラブルデバイスでは一般に5つのコマンドで操作することが多いため,現状の操作に追加する形での実装を想定し,7つのジェスチャから5つのジェスチャを選定して再度認識率を調査しました.8状態の認識率評価において混同の多かった「ツイスト-1」と「ツイスト-2」,「グリップ-閉じる」と「絞る-閉じる」のペアのうち,ジェスチャ選定実験にて算出した白面積領域の少なかった 「ツイスト-1」と「絞る-閉じる」を削除しました.そして残った5ジェスチャとニュートラルの計6状態での認識率調査を行いました.結果,Stableではインイヤー型デバイスで86.2%,オープンイヤー型デバイスで82.5%となり,テスト環境においても8状態と比較して認識率が大幅に向上しました.
  • #23 議論です.提案手法ではジェスチャを固定時間で録音していました.この録音時間のうちジェスチャのない時間は冗長であり,ジェスチャ開始時間の不統一による精度低下が考えられるため,ジェスチャ実時間を切り出してジェスチャ部分のみによる評価を行うことで精度改善が可能だと考えます.また,再生している20kHzのトーン信号が録音途中に上下に乱れてしまうことが実験中にありました.この課題に対し,20kHz周辺のピーク周波数付近でフィルタ処理や周波数表示を行うことで信号再生の不安定性を改善できると考えています.本研究では限られた環境のみでの検証だったため,ノイズ環境や実際に音楽を聴いている環境など,より実環境に近い状況での認識率調査を行うべきだと考えます.また空中ジェスチャの習熟の度合い,振動などといったフィードバックがある状態での認識率の変動を調査したいと考えています.
  • #24 まとめのスライドです,ご清聴ありがとうございました.
  • #30 深層学習の前に,2種類のデータ拡張の最適なパラメータ設定を,インイヤー型デバイスのStableのデータを基に調査しました.ランダムに選ばれた参加者3人のデータを使用して20分割交差検証を行い,その平均精度をそのパラメータ設定のスコアとしました.各交差検証において各ジェスチャについてはデータ拡張倍率分の結果が算出されますが,それぞれの画像のジェスチャ予測確率を足し合わせて,その最大値をそのジェスチャの予測ジェスチャとしました.カラーバー設定では最大値を2.0dBに固定し,最小値を0.05dB刻みで変化させた3種類の方法を調査し 0.00-0.50が最も精度は高くなりました.そして,画像引き延ばしでは縦横に引き伸ばす倍率を0.025刻みのものと0.05刻みのものを調査し 0.050が最も精度は高くなりました.この2種類のパラメータのデータ拡張を利用して深層学習を行いました.