iOSにおけるWakeword検知機能の実装

iOSにおける
Wakeword検知機能の実装
伊賀裕展
2022年9月12日

| 2
©︎ Copyright ExaWizards Inc. All Rights Reserved.
Public
導入
自己紹介
Name:
伊賀裕展 / @iganin_dev
Company:
株式会社エクサウィザーズ
Product:
CareWiz ハナスト

| 3
Public
導入
Wakeword検知とは
• Wakeword
• 音声認識などの処理のトリガーとなる単語
• Wakeword検知
• Wakewordを検知する仕組み
• 例
• iPhone - 「Hey Siri」でSiriを起動させることができる

| 4
Public
導入
iOSアプリでのWakeword検知の活用
手での操作が必要なく「音声のみ」でアプリを起動できる
介護の現場での記録に活用

| 5
Public
導入
「CareWiz ハナスト」のデモ

| 6
Public
導入
記録の全体像
Wakeword検知
「Hey Wiz」
Command
Word検知
「記録」
自由発話認識
「連絡」
自由発話認識
自由文を構造化
データに変換
Backend
Mobile

| 7
Public
導入
記録の全体像
Wakeword検知
「Hey Wiz」
Command
Word検知
「記録」
自由発話認識
「連絡」
自由発話認識
自由文を構造化
データに変換
Backend
Mobile

Wakeword検知
SoundAnalysisによる機能改良
Wakeword検知の後
まとめ
01.
02.
03.
04.

| 10
Public
Wakeword検知
ハナストでのWakeword検知
Edge AI で「Hey Wiz」というWakewordを検知
• パフォーマンス
• 通信環境に関わらず、発話から検知、反応を可能な限り高速に
• セキュリティ
• 音声データをサーバーに送りたくない

| 11
Public
Wakeword検知
Wakeword検知モデルの2つのアプローチ
分類モデル
N秒ごとにM秒の音声にWakewordがある
か判定
Hey Wiz
その他
ラベリングモデル
時系列(0.N秒単位)の各音に対して、
ウェイクワードか否かをラベリング
0 0 1 1 1 1 1 0 0 0 0 0 0 00 1 1 1 1 1 0 0 0 0 0

| 12
Public
Wakeword検知
分類モデル
○ 検知したかどうかの判別を行いやすい
× 秒数の値の決め方で性能が変化
Hey Wiz
その他
○ 恣意的なパラメータが少なく安定
× 検知したかどうかの判別が難しい
0 0 1 1 1 1 1 0 0 0 0 0 0 00 1 1 1 1 1 0 0 0 0 0

| 13
Public
Wakeword検知
分類モデル
○ 検知したかどうかの判別を行いやすい
× 秒数の値の決め方で性能が変化
Hey Wiz
その他
○ 恣意的なパラメータが少なく安定
× 検知したかどうかの判別が難しい
0 0 1 1 1 1 1 0 0 0 0 0 0 00 1 1 1 1 1 0 0 0 0 0

| 14
Public
Wakeword検知
学習ロジック
音声の認識
• LSTM(Long Short Term Memory)
• RNN(Recurrent Neural Network)
前(後)のコンテキストを考慮した学習
X0 X1 X2
Xt
-2
Xt
-1
Xt
h0 h1 h2
ht
-2
ht
-1 ht
A A A A A A

| 15
Public
Wakeword検知
Wakeword検知機能をアプリに組み込むまでの流れ
ベースデータ収集
モデル作成・学習
モデル変換
アプリ組み込み
データ作成
モデルを作成するためのベースとなるデータの収集
データ作成
ベースデータから学習用の実データ作成
モデルの作成、学習
モデル変換
アプリに組み込める形にモデルを変換する
アプリ組み込み、ビルド・リリース
実際にアプリに組み込みリリースをする
ビルド・リリース

| 16
Public
Wakeword検知
Hey Wiz というWakewordモデルのためのデータ収集
正例：さまざまなバリエーション(年齢、性別、etc)
負例：関係のない発話内容
ノイズ：環境音(介護事業所、etc)

| 17
Public
Wakeword検知
データ作成
正例・負例・ノイズからデータを作成
• 環境音ノイズを様々な混合比で追加
• フーリエ変換で周波数に変換し、特定の周波数帯・時間を除去

| 18
Public
Wakeword検知
データ作成
環境音ノイズの追加データの編集
正例環境音ノイズ
混合

| 19
Public
Wakeword検知
モデルをLSTMやRNNで作成
環境音ノイズを加えて編集したデータで学習を実施

| 20
Public
Wakeword検知
モデル作成・学習求められる精度
Wakeword検知モデルは誤検知に強くなければいけない
例：
誤検知回避率 99%の場合
2分に1回くらい誤検知する
=> 現場で使うのはかなり厳しい

| 21
Public
Wakeword検知
モデル変換
作成したモデルをアプリに組み込める形に変換する
• Core ML Tools
• TensorFlow Lite
• etc

| 22
Public
Wakeword検知
モデル変換 – Core ML Tools
• Apple提供のツール
• 様々なライブラリのモデルを Core ML モデルに変換可能
• Core ML
Neural Engineが使用できパフォーマンスが一般的に高い

| 23
Public
Wakeword検知
モデル変換 – TensorFlow Lite
• Google提供
• 様々なライブラリのモデルをTensorFlow Lite モデルに変換可能
• TensorFlow LiteモデルはAndroidでも使用可能
• Core ML DelegateによってNeural Engineを使用可能
• iOS 12以上、A12 SoCチップ以上搭載端末

| 24
Public
Wakeword検知
アプリ組み込み - Core ML モデル
• CoreMLモデルの初期化
• CoreMLで追加した場合は関連Classが自動生成される

| 25
Public
Wakeword検知
• AVAudioEngineのStreamをモデルに流す
• StreamをモデルのInput形式にAVAudioConverter等で変更
• 解析に必要な分の音声をインスタンスで保持

| 26
Public
Wakeword検知
• AVAudioEngineのStreamをモデルに流す
• StreamをモデルのInput形式にAVAudioConverterで変更
• 解析に必要な分の音声をインスタンスで保持
• モデルで推論実行
• 返却値のConfidenceの値に従って処理実施
• 高 -> 後続処理実行 / 低 -> 何も行わない

| 27
Public
Wakeword検知
まとめ
• Wakeword検知とは
• Wakeword検知モデルをアプリに組み込むまでの流れ

02.

| 29
Public
さまざまな音があり、人の声以外の音を誤検知しうる
Wakeword
検知モデル
人の音声以外を
Wakewordとして検知

| 30
Public
前段階でフィルターを使用することにより改善できるのでは？
Wakeword
検知モデル
人の音声のみ
通すフィルター
人の音声のみモデルに流す

| 31
Public
Sound Analysis

| 32
Public
SoundAnalysisとは
• iOS13から導入されたフレームワーク
• 音の分類が可能

| 33
Public
SoundAnalysis Custom ML Modelが使用可能
Source: Training Sound Classification Models in Create ML (WWDC 2019)
https://developer.apple.com/videos/play/wwdc2019/425/

| 34
Public
SoundAnalysis iOS15からBuilt Inのモデルが使用可能に
• iOS15以降からBuilt-Inの分類モデルが使用可能に
• WWDC 2021 Discover built-in sound classification in SoundAnalysis
• iOS15では約300種類の音を分類可能

| 35
Public
Built-Inモデルで判別できる音
let request = try SNClassifySoundRequest(classifierIdentifier: .version1)
print(request.knownClassifications)
["speech", "shout", "yell", "battle_cry", "children_shouting", "screaming", "whispering",
"laughter", "baby_laughter", "giggling", "snicker", "belly_laugh", "chuckle_chortle",
"crying_sobbing", "baby_crying", "sigh", "singing", "choir_singing", "yodeling", "rapping",
"humming", "whistling", "breathing", "snoring", "gasp", "cough", "sneeze", "nose_blowing",
"person_running", "person_shuffling", "person_walking", "chewing", "biting", "gargling", "burp",
"hiccup", "slurp", "finger_snapping “, … ]

| 36
Public
Built-Inモデルで判別できる音
print(request.knownClassifications)
["speech", "shout", "yell", "battle_cry", "children_shouting", "screaming", "whispering",
"laughter", "baby_laughter", "giggling", "snicker", "belly_laugh", "chuckle_chortle",
"crying_sobbing", "baby_crying", "sigh", "singing", "choir_singing", "yodeling", "rapping",
"humming", "whistling", "breathing", "snoring", "gasp", "cough", "sneeze", "nose_blowing",
"person_running", "person_shuffling", "person_walking", "chewing", "biting", "gargling", "burp",
"hiccup", "slurp", "finger_snapping “, … ]
Speech

| 37
Public
SoundAnalysisを使用して人の声のみを検知モデルに流す
Wakeword
検知モデル
SoundAnalysis
SoundAnalysisで

| 38
Public
SNAudioStreamAnalyzerの使用
// Streamでの処理の場合はSNAudioStreamAnalyzerを使用
let analyzer = SNAudioStreamAnalyzer(format: format)

| 39
Public
// SNClassifySoundRequestを使うことでBuilt-Inのモデルを使用

| 40
Public
// Observerを設定してRequestをAnalyzerに追加
try analyzer.add(request, withObserver: self)

| 41
Public
try analyzer.add(request, withObserver: self)
// AudioEngineから取得した音をAnalyzerに流す
audioEngine.inputNode.installTap(
onBus: 0, bufferSize: bufferSize, format: format
) { [weak self] buffer, when in
analyzer.analyze(buffer, atAudioFramePosition: when.sampleTime)
}

| 42
Public
SNResultsObservingへの準拠
// 解析結果はSNResultObservingのrequest(request:,didProduce:)で受け取る
extension SoundAnalyzer: SNResultsObserving {
public func request(_: SNRequest, didProduce result: SNResult) { … }
}

| 43
Public
public func request(_: SNRequest, didProduce result: SNResult) {
// 検知結果をSNClassificationResultにキャスト
guard let result = result as? SNClassificationResult else { return }
}

| 44
Public
// 検知結果から “speech”のみを取得
guard let speechConfidence = result.classifications
.first(where: {
$0.identifier == "speech"
})?.confidence else { return }
}

| 45
Public
guard let speechConfidence = result.classifications
// confidenceが一定値を超えた段階で検知をカウント
if speechConfidence > confidenceThreshold {
// 検知時の処理
}
}

| 46
Public
処理の流れ
Wakeword
検知モデル
SoundAnalysis
SoundAnalysisで

| 47
Public
まとめ
• SoundAnalysisのBuilt-Inモデルを使用して人の会話を判別可能
• Wakeword Modelの前にフィルターとして配置し、誤検知を低減

| 49
Public
Wakewordを検知した後
• Wakewordを検知したことをユーザーにフィードバックする
• Wakeword検知後の機能につなげる

| 50
Public
画面上のUIでのフィードバック
ユーザーへの伝わりやすさ
• PrimaryColorの画面を全面に

| 51
Public
ユーザーフィードバック UI実装
// 状態を定義
// Wakeword検知時に trueに変更
@Published private(set) var isSTTRecognizing: Bool = false

| 52
Public
ユーザーフィードバック UI実装
@Published private(set) var isSTTRecognizing: Bool = false
// isSTTRecognizing = true でWakeword検知後のViewを表示する
struct ContentScreen: View {
var body: some View {
ZStack {
…
if deviceAudioStore.isSTTRecognizing {
ReactionScreen()
}
}
}
}

| 53
Public
ユーザーフィードバック
音声によるフィードバック
• 必ずしも画面を見ていない
• 手が使えない状態でもわかるようにしたい

| 54
Public
ユーザーフィードバック
音声によるフィードバック
• 必ずしも画面を見ていない
• 手が使えない状態でもわかるようにしたい
Wakeword検知時に「はい？」と
AVSpeechSynthesizerで発話させる
はい？

| 55
Public
ユーザーフィードバック音声実装
// Wakeword検知時に下記を実行
private let talker = AVSpeechSynthesizer()
let utterance = AVSpeechUtterance(string: ”はい？")
utterance.voice = AVSpeechSynthesisVoice(language: "ja-JP")
talker.speak(utterance)

| 56
Public
他の機能との連携
Wakewordによる機能起動
• 音声によって動作させる機能につなげることが多い
• AudioEngine側の処理も必要
• UI側の操作も受け付けるようにしたい

| 57
Public
「CareWiz ハナスト」での連携例
Wakeword検知コマンドワード検知記録音声認識連絡音声認識
記録
連絡
Hey Wiz

| 58
Public
記録
連絡
Hey Wiz
音声
Stream
振り分け
音声
Stream
振り分け

| 59
Public
記録
連絡
Hey Wiz
音声
Stream
振り分け
音声
Stream
振り分け
User
操作を
サポート
v v v

| 60
Public
音声Stream振り分け実装
// Wakeword検知時にisSTTRecognizing = trueに変更
audioState.$isSTTRecognizing
.sink(receiveValue: { [weak self] isSTTRecognizing in
guard let self = self else { return }
if isSTTRecognizing {
// コマンドワードの検知開始
self.startSTTCommandWord()
}
})
.store(in: &cancellables)

| 61
Public
private func startSTTCommandWord() {
// コマンドワードの音声認識開始
commandWordSpeechRecognizer.startSTTRecognition { [weak self] result in
// 音声認識に対する処理
}
}

| 62
Public
private func startSTTKeyWord() {
commandWordSpeechRecognizer.startSTTRecognition { [weak self] result in }
// Wakeword検知に流していたtapを除去
audioEngine.inputNode.removeTap(onBus: 0)
}

| 63
Public
private func startSTTKeyWord() {
commandWordSpeechRecognizer.startSTTRecognition { [weak self] result in }
audioEngine.inputNode.removeTap(onBus: 0)
// AudioEngineのTapの振り分け先をコマンドワードのRecognizerに変更
audioEngine.inputNode.installTap(
onBus: 0, bufferSize: bufferSize, format: format
) { [weak self] buffer, _ in
guard let self = self else { return }
// 音のStreamをRecognizerに流す
self.commandWordsSpeechRecognizer.write(
buffer: buffer, inputFormat: recordingFormat
)
}
}

| 64
Public
まとめ
• Wakewordの検知
• UIの変化によるフィードバック
• 音によるフィードバック
• 検知後のアプリ操作
• 音声による操作
• Streamの振り分け先変更処理
• UI上での操作も可能に

| 66
Public
まとめ
• Wakeword検知モデルの作成方法
• SoundAnalysisをもちいた機能強化
• 音声で操作するアプリのUI/UXとその実装

Wakeword検知に伴う問題と対応
A1.

| 70
Public
Wakewordの検知のためには音声を取得し続ける必要あり
• 音声の入力デバイスが変化する
• Build In マイク <-> ヘッドホン
• 電話などによる介入がある
• 介護施設の場合はナースコールなど

| 71
Public
音声の入力デバイスの変化
音声StreamのInputFormatが変化
適切に対応しないとApp Crashの可能性あり

| 72
Public
• NotificationCenterで検知可能
• AVAudioSession.routeChangeNotification
• NotificationのuserInfoから詳細がとれる
• 新しいDeviceを検知
• 以前のDeviceが使用できなくなった
• etc

| 73
Public
異なるInputFormatへの対応
• 音声入力が必要な箇所で対応も可能
• ConverterのInputFormatの変更
• InputFormatを使用しているインスタンスの再生成

| 74
Public
電話などによる介入
• 電話などによる介入でAVAudioSessionがアクティブでなくなる
• NotificationCenterで検知可能
• AVAudioSession.interruptionNotification
• .beganと.endedが取得できる

| 75
Public
AVAudioSession.interruptionNotification
• AVAudioSessionInterruptionTypeKeyでuserInfoから詳細がとれる
• .began
• 中断開始のため、音声取得を中断する
• .ended
• 中断が終わったため音声取得を再開する
• NotificationはMain ThreadでPostされる
• 重めの処理やMainThread以外で処理を行いたい場合は注意

iOSにおけるWakeword検知機能の実装

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to iOSにおけるWakeword検知機能の実装

Similar to iOSにおけるWakeword検知機能の実装 (10)

iOSにおけるWakeword検知機能の実装

Editor's Notes