EarHover：ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識

EarHover：ヒアラブルデバイスにおける
音漏れ信号を用いた空中ジェスチャ認識
慶應義塾大学杉浦裕太研究室 B 4
鈴木俊汰1) ，雨坂宇宙1)，渡邉拓貴2) ，志築文太郎3) ，杉浦裕太1)
1)慶應義塾大学， 2)北海道大学，3)筑波大学
インタラクション2024

• ヒアラブルデバイス
• 音楽再生，音声アシスタント，通話などの多くの機能
• 操作
• スマートフォンによる操作
• 画面注視の必要性
• 音声アシスタント
• 社会的受容性の問題
2
[1]Sony, WF-10000XM5 https://www.sony.jp/headphone/products/WF-1000XM5/
[2]Apple, AirPodsPro(第２世代) https://www.apple.com/jp/shop/product/MTJV3J/A/airpods-pro
背景
市販のヒアラブルデバイス
[1] [2]

• デバイス本体による操作
• 感圧センサ，物理ボタン
• センサ部分，ボタン部分が小さく，押下が困難
• 静電容量センサ
• 手袋着用時の使用が不可能
• 押下による耳への負担
• 操作数
• 押下時間や回数の変化による定義
• AirPods[3]では5種類の操作
• 1~3回のタップ，長押し，スワイプ
• 操作数の限界
3
[3]Apple, AirPods(第３世代) https://www.apple.com/airpods-3rd-generation/
背景
デバイス本体による操作[1]

• EarBuddy
• 顔や耳近くのタップやスライディングジェスチャ
• EarTouch
• 反射型光センサで耳の変形をセンシング
• 手が汚れている，手を清潔に保ちたい場合は
システムの利用が困難
4
[4] Xuhai Xu et al., EarBuddy: Enabling On-Face Interaction via Wireless Earbuds. CHI '20. https://doi.org/10.1145/3313831.3376836
[5] Takashi Kikuchi et al., EarTouch: turning the ear into an input surface. MobileHCI '17. https://doi.org/10.1145/3098279.3098538
関連研究：ハンドジェスチャ入力
EarBuddy[4]
EarTouch[5]

• 赤外線センサ
• センサ付近を指でジェスチャ
• カメラ
• 手の輪郭，爪の位置，指関節の角度をセンシング
• 実装コスト，デザイン制約の課題
5
[6] C. Metzger et al., FreeDigiter: a contact-free device for gesture control, Eighth International Symposium on Wearable Computers, doi: 10.1109/ISWC.2004.23.
[7] Emi Tamaki et al., Brainy hand: an ear-worn hand gesture interaction device. CHI EA '09. https://doi.org/10.1145/1520340.1520649
関連研究：空中ジェスチャハンズフリー入力
赤外線センサを使用したジェスチャ検出[6]
カメラを使用したジェスチャ検出[7]

• ヒアラブルデバイスから超音波信号(20kHzのトーン信号)を再生
• デバイスからの音漏れ信号を録音
• 音漏れ信号がジェスチャを行う手に反射→ドップラー効果の発生
• 録音した音声を解析し，スペクトログラム画像に変換
• 深層学習を用いて識別を行う
6
提案手法
EarHoverの様子

• ドップラー効果
• 測定される音響信号の周波数が変化する現象
• ジェスチャ固有のドップラー効果の発生
• 速さ，方向，角度，反射具合の違い
• 音量やドップラー効果の変化が異なる
7
原理
ドップラー効果発生の概要
ジェスチャとそのドップラー効果の例
①音楽の再生 ②信号の音漏れ
③音漏れの反射
ドップラー効果発生の様子

• ヒアラブルデバイスの種類
8
原理
[8]Apple，EarPods（3.5mmヘッドフォンプラグ）https://www.apple.com/jp/shop/product/MNHF2FE/A/earpods-with-35-mm-headphone-plug
[9]Victor, HA-NP35T https://www.victor.jp/headphones/lineup/ha-np35t/
[10]SHOKZ，OPENFIT https://jp.shokz.com/products/openfit
Sony WF-1000XM5[1] Apple AirPods Pro[2] Apple AirPods[3] Apple EarPods[8]
SHOKZ OPENFIT[10]
Victor HA-NP35T[9]
①カナル型 ②インイヤー型
③オープンイヤー型

9
手順
• データ前処理
• バンドストップフィルタ（20kHz）
• データ拡張
• カラーバー設定
• 画像引き延ばし
• Convolutional Neural Networkによる深層学習
EarHoverの概要図

• カラーバー設定
• 画像内の音量のRGB範囲
• シフト部分の音量変化に対応
• 画像引き延ばし
• 手の速さやジェスチャ実時間によって，シフト形状が変化
• 引き伸ばし方向：縦横
10
データ拡張
カラーバー設定
A:0.0-2.0dB，B:0.2-2.0dB，C:0.4-2.0dB
A 幅1.0 倍（元画像）
B 幅1.05 倍
C 幅1.1 倍
D 高さ1.0 倍（元画像）
E 高さ1.05 倍
F 高さ1.1 倍
画像引き延ばし倍率設定

11
実装
• ハードウェア
• インイヤー型デバイス
• Apple EarPods
• オープンイヤー型デバイス
• Victor HA-NP35T
• ソフトウェア
• Python 3.10
• サンプリングレート：44.1kHz
• 量子化ビットレート：16bit
• 音量
• 40-45dBの範囲で実験
• 実験時は20kHz部分の振幅を統一
• 推奨音量は週40時間80dB（世界保健機関[11]）
[11] WHO: Safe listening devices and systems: a WHO-ITU standard， https://www.who.int/publications/i/item/9789241515276/ (2019).
2つのプロトタイプデバイス
接続の様子
赤：ヒアラブルデバイス
青：外部マイク

• 27種類の空中ジェスチャ（Yu-chunら[12]＋自作）
12
実験１：ジェスチャ選定
[12] Yu-Chun Chen et al. Exploring User Defined Gestures for Ear-Based Interactions. ISS, Article 186(2020), 20 pages. https://doi.org/10.1145/3427314

• 以下の3つの観点から最適なジェスチャを選定
• ドップラーシフト領域
• 類似性
• ユーザビリティ
13
実験人数 11名（男性8名，女性3名）
利き手全員が右利き
年齢の平均，標準偏差 27.9歳，10.7歳
デバイス使用頻度の平均，標準偏差 4.13日 / 週，2.84日 / 週
実験時間 1～1.5時間
実験報酬 3,000円
測定 27ジェスチャ×5セット
実験概要

• ドップラーシフトの大きいジェスチャを選定
• カラーバーは最小値0.5dB，最大値2.0dB
• 白黒画像に変換し，白部分面積の割合を評価
14
ドップラーシフト領域類似性ユーザビリティ
27ジェスチャの画像全体に対する白面積割合の平均
カラー画像の白黒画像化

• ドップラーシフトが似ている者同士は誤認識の可能性
• ドップラーシフトの構造を比較
• 各ジェスチャ5枚をランダム抽出
• 1ピクセルずつスライドさせて白部分の重複を計算
• 重複の最大値を各ジェスチャで比較
15
ドップラーシフト領域ユーザビリティ
類似性
白面積の重なりの平均割合（%）
グリップ - 開くグリップ - 閉じる

• ユーザビリティの低いジェスチャを削除
• 1-7で評価（7が最高評価）
• 簡単さ：平均4.89，閾値4
• 社会的受容性：平均3.96，閾値3.5
• 疲労感：平均4.63，閾値4
16
ユーザビリティ
ドップラーシフト領域類似性
3種類のユーザビリティ評価の平均

17
ユーザビリティ
ドップラーシフト領域類似性
選定されたジェスチャとそのドップラーシフト
ハンドスワイプ - 2 ツイスト - 1 ツイスト - 2 指スワイプ - 下
グリップ - 閉じる絞る - 閉じる電話 - 下

• 選定したジェスチャ＋ニュートラルの8状態の認識精度を調査
• 安定した環境（Stable）：160回（20回×8状態）
• テスト環境での実験：96回（4回×8状態×3環境）
• 右手に手袋を装着した状態（Gloves），右側50cmの距離に人が座っている状態（Neighbor），
歩行中の状態（Walking）
18
実験2：ジェスチャ認識
実験人数 13名（男性8名，女性5名）
利き手全員が右利き
年齢の平均，標準偏差 27.5歳，9.93歳
デバイス使用頻度の平均，標準偏差 4.27日 / 週，2.64日 / 週
実験時間 1～1.5時間
実験報酬 3,000円
実験概要

• Stableのジェスチャ認識率
• インイヤー型デバイス：78.7%
• オープンイヤー型デバイス：73.4%
19
実験２：ジェスチャ認識
個人モデル – 8状態個人モデル – 6状態

• テスト環境のジェスチャ認識率
• Stableで作成された20の分類モデルを使用
• 精度低下の原因
• モデルがStableに過学習
• Gloves：手袋が反響音を吸収
• Neighbor：右隣に人がいることによるジェスチャの躊躇
• Walking：歩行によるジェスチャ感覚のずれ，歩行雑音
20
個人モデル – 8状態個人モデル – 6状態

• ヒアラブルデバイスでは一般に5つのコマンドで操作可能（AirPods Pro[2]）
• 再生/停止，音量を上げる，音量を下げる，次の曲に進む，前の曲に戻る
• 現状の操作に追加する形での実装を想定
• 7ジェスチャのうち混同の多いペアの中から2ジェスチャを削除
• ツイスト-1とツイスト-2，グリップ-閉じると絞る-閉じる
• 6状態のStable認識率
• インイヤー型デバイス：86.2%，オープンイヤー型デバイス：82.5%
21
個人モデル – 6状態
個人モデル – 8状態

• システム改善
• ジェスチャ実時間を切り出して，開始時間を統一
• 信号の再生不安定による20kHzトーン信号の上下の揺れ
• ピーク周波数周辺でのフィルタ処理とスペクトログラム表示
• 調査範囲の拡大
• ノイズ環境，音楽鑑賞時の認識率評価
• ジェスチャの習熟による認識率の変動
• 参加者ごとの精度ばらつきの原因
• フィードバックがある場合の認識性能調査
22
議論
ジェスチャ「ハンドスワイプ - 2」の一例

23
まとめ
背景ヒアラブルデバイスの操作性向上（物理的負担，操作数の限界）
関連研究ハンドジェスチャ入力，外部デバイスによるジェスチャ入力
提案空中ジェスチャで発生する音漏れ信号のドップラー効果の利用
実装空中ジェスチャの選定 → 8状態と6状態の認識率調査
評価 CNNによるLeave-one-out cross-validation
結果
Stableの8状態をインイヤー型デバイスで78.7%，
オープンイヤー型デバイスで73.4％
議論システム改善，様々な環境下での評価
①音楽の再生 ②信号の音漏れ
③音漏れの反射

26
音量設定
A：耳を模したオブジェクト
B：インイヤー型デバイス
C：オープンイヤー型デバイス
①20kHz部分の信号，②1と同じ振幅を3kHzで表現，③2の時のAirpodsの音量

• 各参加者1ジェスチャあたり5セット
• 参加人数11人×5セット＝55回
• 白黒画像化はcv2.thresholdを使用
• 解像度：1600*900
27
実験1詳細
閾値15 閾値20

• Testデータにはデータ拡張後の画像を入力
• 各画像のPredict_Probaを算出し，そのジェスチャの予測値は全画像の予測値の多
数決で決定
• Stable
• Train12，672枚，Val2，376枚，Test792枚
• Test
• Stableモデルを使用し20分割交差検証，Test3，168枚
28
実験2詳細

• 参加者3人で評価
• 訓練データ16回，検証データ3回，テストデータ1回の20分割交差検証
• ニュートラルを除くジェスチャデータのみでの検証
• カラーバー設定（11倍拡張）
• 最大値は2.0dB
• 最小値が0.00-0.50dBまで，0.20dB-0.70dBまで，0.40-0.90dBまでの0.05dB刻み
• 画像引き延ばし（9倍拡張）
• 1.000倍，1.025倍，1.050倍の0.025x，1.00倍，1.05倍，1.10倍の0.05x，
29
実験２：データ拡張

EarHover：ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識

More Related Content

More from sugiuralab

EarHover：ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識

Editor's Notes