Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
STATISTICAL MODELS INCLUDING
NORMALIZATION PROCESSES
FOR IMAGE RECOGNITION
画像認識のための正規化
プロセスを含んだ統計モデル
創成シミュレーション工学専攻
計算システム...
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
2
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
3
研究背景および目的(1/2)
 画像認識
 画像に含まれる何らかの意味がある認識対象を識別
 セキュリティ,工業用検査,娯楽などの様々な分野で需要増加
 認識対象の多さ・データの複雑さから多種多様な手法が提案
 統計的機械学習に基づく...
研究背景および目的(1/2)
 画像認識
 画像に含まれる何らかの意味がある認識対象を識別
 セキュリティ,工業用検査,娯楽などの様々な分野で需要増加
 認識対象の多さ・データの複雑さから多種多様な手法が提案
 統計的機械学習に基づく...
研究背景および目的(2/2)
 画像認識のアプローチは大きく2つに分類
 人間の経験的な知識を積極的に利用する方法
(例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」
利点:実用を重視,少量の学習データでも高い認識率
欠点:タ...
研究背景および目的(2/2)
 画像認識のアプローチは大きく2つに分類
 人間の経験的な知識を積極的に利用する方法
(例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」
利点:実用を重視,少量の学習データでも高い認識率
欠点:タ...
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
8
確率的固有画像モデル
 主成分分析を確率統計モデルとして定式化
 固有画像を確率的主成分分析 (PPCA) や因子分析 (FA)
により表現
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利...
確率的固有画像モデル
 主成分分析を確率統計モデルとして定式化
 固有画像を確率的主成分分析 (PPCA) や因子分析 (FA)
により表現
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利...
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]

 Embedded HMM [Nefian et.al; ‘03]

 Pseudo 2-D HMM [Kuo ...
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]
⇒幾何学的変動に対する頑健性を欠く
 Embedded HMM [Nefian et.al; ‘03]

 Pseu...
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]
⇒幾何学的変動に対する頑健性を欠く
 Embedded HMM [Nefian et.al; ‘03]
⇒画像の幾何学的...
その他の先行研究例
 HMMに基づく手法
 1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]
⇒幾何学的変動に対する頑健性を欠く
 Embedded HMM [Nefian et.al; ‘03]
⇒画像の幾何学的...
分離型格子2次元HMM(SL2D-HMM)
 2次元に拡張したHMMに構造的な制約条件
⇒縦方向と横方向の状態遷移は独立
 幾何学的変動(並進, 拡大縮小)のモデル化
 状態の組合せ総数の削減 ⇒ 計算量の削減
出力確率分布
横方向の状態...
可変固有画像モデル[Higaki el al.; ‘07]
 基底とノイズベクトルが分離型格子2次元HMMから生成
: 観測データ
: 因子負荷行列
: 因子ベクトル
: 固有画像 (基底)
: ノイズベクトル
利点 : 状態間の共分散や相関...
パラメトリック固有空間法との関連
 パラメトリック固有空間法[Murase; ‘02]の特徴
 連続的に見かけが変化する画像を固有空間上の多様体で表現
 一連の画像を多様体上の軌跡として表現
 対象の大きさ・輝度の正規化が前提
 位置...
パラメトリック固有空間法との関連
 パラメトリック固有空間法[Murase; ‘02]の特徴
 連続的に見かけが変化する画像を固有空間上の多様体で表現
 一連の画像を多様体上の軌跡として表現
 対象の大きさ・輝度の正規化が前提
 位置...
部分空間法・テンプレートマッチ法との関連
 可変固有画像モデルにおける識別的パラメータ共有構造
基底と因子の共有レベルにより様々な構造を表現
 基底と因子がクラス固有 ⇒ 部分空間法
 基底を全クラスで共有 ⇒ 固有顔法
 基底と因子の...
部分空間法・テンプレートマッチ法との関連
 可変固有画像モデルにおける識別的パラメータ共有構造
基底と因子の共有レベルにより様々な構造を表現
 基底と因子がクラス固有 ⇒ 部分空間法
 基底を全クラスで共有 ⇒ 固有顔法
 基底と因子の...
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
21
概要
 序論
 研究背景および目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
22
はじめに
分離型格子2次元HMMの問題点
1. アフィン変換への対応が不完全
 並進・拡大縮小のみに対応可能
 回転変動には対応困難
2. モデル化能力に関する脆弱性
 隣接する観測間の相関を無視
 同一状態内で変動する観測のモデル化が...
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
24
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
25
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
26
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
27
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
28
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
29
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
30
回転変動を考慮したモデル構造(1/2)
分離型格子2次元HMMによる画像のモデル化
⇒矩形状の領域分割
 並進,拡大・縮小
領域のサイズを変更して対応
 回転変動
サイズの変更では対応困難
回転変動を考慮したモデル構造が必要
31
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
縦
方
向
の
状
態
遷
移
32
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
33
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
34
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
35
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
横方向のシフト状態遷移
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
縦
方
向
の
シ
フ
ト
状
態
遷
移
36
シフト状態遷移系列の導入
縦・横方向の状態位置をシフト ⇒回転変動を吸収可能
横方向のシフト状態遷移
縦
方
向
の
状
態
遷
移
回転変動を考慮したモデル構造(2/2)
横方向の状態遷移
縦
方
向
の
シ
フ
ト
状
態
遷
移
37
 関数の逐次最大化による最尤推定
 E-step : 事後確率の計算
 M-step : モデルパラメータの推定
 同時事後確率の計算量が膨大
⇒実時間では最適化が困難
EMアルゴリズム
変分EMアルゴリズムによる計算量削減
:観測デー...
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
(Jensenの不等式)
39
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
(Jensenの不等式)
40
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
の近似分布
(Jensenの不等式)
41
変分EMアルゴリズム(1/2)
 対数尤度の下限 を定義
の近似分布
下限 を最大化する近似事後分布の推定
(Jensenの不等式)
42
 近似事後分布 の変数間の独立性を仮定
⇒計算量を大幅に削減(指数オーダ→多項式オーダ)
 下限 の逐次最大化
変分EMアルゴリズム(2/2)
E-step
M-step
が収束するまで
交互に繰り返す
43
実験条件(1/2)
 顔画像認識実験により提案手法の有効性を検証
データベース XM2VTS
原画像サイズ 720×576
画像サイズ 64×64
階調数 256,グレースケール
学習データ 1人あたり7枚×100人
テストデータ 1人あたり...
実験条件(2/2)
 データの変動の種類
 回転変動のみ
 位置・大きさ・回転変動
 意図した変動をモデルが表現可能か否かの検証が目的
 回転変動の場合
 状態位置のシフトによりどこまで回転が表現できるかを検証
 モデル自体は±4...
用意したデータの例
 回転変動
 位置・大きさ・回転変動
46
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
テストデータ
の変動
47
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
48
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
49
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
50
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
認識率低下
テストデータ
の変動
51
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
認識率低下
テストデータ
の変動
テストデータの変動による認識率の違い
⇒学習データの変動と...
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
53
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
認識率向上
54
実験結果(学習データの変動:回転のみ)
変動なし
回転変動
従来モデル 提案モデル(シフト状態数あり)
変動なしデータのみで
学習・認識したときの結果
テストデータ
の変動
回転変動を適切に正規化
認識率向上
55
実験結果(学習データの変動:位置+大きさ+回転)
変動なし
位置・大きさ・回転変動
従来モデル 提案モデル(シフト状態数あり)
56
実験結果(学習データの変動:位置+大きさ+回転)
変動なし
位置・大きさ・回転変動
従来モデル 提案モデル(シフト状態数あり)
位置・大きさ・回転変動を適切に正規化
57
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
矩形状の状態アライメント
⇒回転変動への対応が困難
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはま...
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデルの当てはまりを視覚化
状態アライメント
テスト
データ
回転角 20° 10° 0° -10° -20°
SL2D-
HMM
提案モデル
回転変動に対応した状態アライメント
⇒提案モデルの有効性を示す
 最尤状態系列に沿って平均ベクトルを配置
⇒データに対するモデ...
概要
 序論
 研究背景と目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
64
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
 観測間の条件付き独立性を仮定
例:1次元HMM
65
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定

 観測間の条件付き独立性を仮定
例:1次元HMM
同一の状態⇒同一の出力分布
66
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定
例:1次元HMM
同一の状態⇒同一の出力分布
67
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定
例:1次元HMM
68
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定

例:1次元HMM
69
背景・目的(1/3)
 従来のSL2D-HMMの問題点
 各状態内で統計量(出力分布の平均・分散)が一定
⇒状態内で変化する観測の詳細なモデル化が困難
 観測間の条件付き独立性を仮定
⇒隣接する観測間の相関を無視
例:1次元HMM
70
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
静的特徴量
71
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
水平方向のデルタ 垂直方向のデ...
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
水平方向のデルタ 垂直方向のデ...
背景・目的(2/3)
 SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]
 動的特徴量を追加 ⇒ 認識性能の大幅な向上
 隣接観測間の依存関係をモデル化する手法の1つ
:静的特徴量
水平方向のデルタ 垂直方向のデ...
 統計モデル的に正しくない枠組み
 静的・動的特徴量を独立な確率変数としてモデル化
⇒静的特徴量が決まれば動的特徴量は一意に決定
 統計モデルは に対する関数として定義されるべき
⇒本来観測されたものは であり ではない
背景・目的(3/...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
HMMの出力確率分布
76
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
HMMの出力確率分布 ⇒ 各特徴量分布の積
77
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
静的特徴量 1次動的特徴量
(速度)
2次動的特徴量
(加速度)
HMMの出力確率分布 ⇒ 各特...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
トラジェクトリHMM [Zen et al; ‘06]
時間的関係を考慮した静的特徴量の統計モデル
静的特徴量,動的特徴量の関係を明示的にモデル化
観測系列
0.8
0.4
0.0
-0.4
-0.8
-1.2
50 100 150 200 2...
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
84
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
出力確率 状態遷移確率
85
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化



提案モデル
静的特徴量 1次動的特徴量
(水平方向)
1次動的特徴量
(垂直方向)
出力確率 状態遷移確率
86
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化
 平均ベクトルは状態内で値が滑らかに変化


提案モデル
静的特徴量 1次動的特徴量
(水平方向)
1次動的特徴量
(垂直方向)
出力確率 状態遷移確率...
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化
 平均ベクトルは状態内で値が滑らかに変化
 共分散行列は一般に全共分散型
⇒隣接する観測間の相関を考慮可能
提案モデル
静的特徴量 1次動的特徴量
(水平...
2次元的な相関を考慮した静的特徴量の統計モデル
⇒トラジェクトリHMMと同様の定式化
 平均ベクトルは状態内で値が滑らかに変化
 共分散行列は一般に全共分散型
⇒隣接する観測間の相関を考慮可能
提案モデル
静的特徴量 1次動的特徴量
(水平...
推定された平均ベクトルの例
 画像サイズ:32×32 状態数:16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
90
推定された平均ベクトルの例
 画像サイズ:32×32 状態数:16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
⇒状態内で値が一定
91
推定された平均ベクトルの例
 画像サイズ:32×32 状態数:16×16
 SL2D-HMMと提案モデルの状態系列は共通
 SL2D-HMM
 提案モデル
SL2D-HMM 提案モデルテストデータ
⇒状態内で値が滑らかに変化
⇒状態内で...
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
93
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
対角成分のみ分散が大
94
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
対角成分のみ分散が大 非対角成分も分散が大
95
推定された共分散行列の例
 画像サイズ:32×32 状態数:16×16
 行と列はそれぞれ2次元格子のラスタ順で配置
SL2D-HMMの共分散行列 提案モデルの共分散行列
対角成分のみ分散が大 非対角成分も分散が大
隣接する観測間の相関をモ...
学習アルゴリズム
EMアルゴリズム
出力確率が状態系列全体に依存
⇒Forward-Backwardアルゴリズムの適用が困難
⇒実時間による最適化が困難
関数
Viterbi近似による計算量削減
97
 顔画像認識実験による有効性の検証
 認識率は4-fold cross validationで評価
実験条件(1/2)
データベース XM2VTS
原画像サイズ 720×576
画像サイズ 16×16
階調数 256,グレースケール
学習デ...
 比較手法
 NoUpdate : SL2Dのパラメタを提案モデル用に線形変換
 ParamUpdate:NoUpdateのパラメタの値を最適化
 状態系列は3手法とも同一(SL2DのViterbi状態系列)
実験条件(2/2)
手法 ...
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
100
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
NoUpdateの認識率が低い
⇒パラメタが最適化されていないため
101
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
ParamUpdateの認識率が高い
⇒パラメタが最適化されたため
102
0
10
20
30
40
50
60
4×4 6×6 8×8 10×10 12×12
SL2D NoUpdate ParamUpdate
実験結果
状態数
認識率(%)
ParamUpdateの最高認識率がSL2Dを上回る
⇒観測間の相関が適...
まとめ
SL2D-HMMの問題点を解消する統計モデル
 状態位置の移動を表現するシフト状態遷移系列の導入
⇒正規化可能な変動の範囲を回転変動まで拡張
 静的・動的特徴量の関係を明示的にモデル化
⇒観測間の相関を効率よく捉えるモデル構造
画像...
今後の課題・将来の展望
 今後の課題
 適切な窓行列の設計,状態推定アルゴリズムの検討
 様々なデータセット上で他の手法との性能比較・評価
 省メモリ・高速化と認識性能の両立
 将来の展望
 前処理・特徴量選択・モデル構造選択の同時...
概要
 序論
 研究背景と目的
 分離型格子2次元HMMの概要及び既存手法との関連
 研究紹介
分離型格子2次元HMMの拡張
 回転変動への対応
 観測間の相関を捉えるモデル
 活動報告
106
ソフトウェアの開発・保守
音声信号処理ツールキットSPTK
 音声信号処理に有用なLinuxコマンド群を提供
 マイクロソフト他,国内外の多くの研究機関で利用
最近1年間のダウンロード総数:約8,100
 共同研究・プロジェクトでの基盤ソ...
研究活動(1/3)
 総務省 SCOPE プロジェクト
 期間 2009/11 ~ 2011/12
 「講演者のための
多言語音声合成技術に関する研究開発」
 共同研究機関
 京都市立芸術大学
 独立行政法人情報通信機構
話者選択モ...
研究活動(2/3)
 JST CREST uDialogue プロジェクト
 期間 2011/10 ~ 2017/03
 「コンテンツ生成の循環系を軸とした
次世代音声技術基盤の確立」
 共同研究機関
 名古屋工業大学国際音声技術研究...
研究活動(3/3)
 学外交流
 NTT コミュニケーション科学基礎研究所
2012/01 ~ 2012/04 実習生
博士論文完成に不可欠な実装技術を習得
110
Upcoming SlideShare
Loading in …5
×

公聴会 発表スライド

2,103 views

Published on

公聴会のスライド

Published in: Engineering
  • Be the first to comment

公聴会 発表スライド

  1. 1. STATISTICAL MODELS INCLUDING NORMALIZATION PROCESSES FOR IMAGE RECOGNITION 画像認識のための正規化 プロセスを含んだ統計モデル 創成シミュレーション工学専攻 計算システム工学分野 徳田・南角研究室 玉森 聡
  2. 2. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 2
  3. 3. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 3
  4. 4. 研究背景および目的(1/2)  画像認識  画像に含まれる何らかの意味がある認識対象を識別  セキュリティ,工業用検査,娯楽などの様々な分野で需要増加  認識対象の多さ・データの複雑さから多種多様な手法が提案  統計的機械学習に基づく画像認識  デジタル機器の普及により多種多様で膨大な画像が存在  計算機の発展により画像を高速に処理可能 ⇒統計的機械学習に基づく画像認識手法が注目 4
  5. 5. 研究背景および目的(1/2)  画像認識  画像に含まれる何らかの意味がある認識対象を識別  セキュリティ,工業用検査,娯楽などの様々な分野で需要増加  認識対象の多さ・データの複雑さから多種多様な手法が提案  統計的機械学習に基づく画像認識  デジタル機器の普及により多種多様で膨大な画像が存在  計算機の発展により画像を高速に処理可能 ⇒統計的機械学習に基づく画像認識手法が注目 画像認識のための汎用的な統計モデルの構築 顔画像認識,文字認識,ジェスチャ認識など 様々な画像・タスクに適用可能なモデル 5
  6. 6. 研究背景および目的(2/2)  画像認識のアプローチは大きく2つに分類  人間の経験的な知識を積極的に利用する方法 (例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」 利点:実用を重視,少量の学習データでも高い認識率 欠点:タスクに応じて人間が試行錯誤を繰り返す必要  多次元特徴空間のパターン識別として捉える方法  正規化された固定長の多次元ベクトルを仮定 画像の切り出し,特徴抽出などの前処理が必要  画像固有の特性を考慮していない場合が多い (例):照明条件,2次元空間内の幾何学的変動など 6
  7. 7. 研究背景および目的(2/2)  画像認識のアプローチは大きく2つに分類  人間の経験的な知識を積極的に利用する方法 (例):「人間の目は2つで鼻の上側」 「横向きの車はタイヤ2つ」 利点:実用を重視,少量の学習データでも高い認識率 欠点:タスクに応じて人間が試行錯誤を繰り返す必要  多次元特徴空間のパターン識別として捉える方法  正規化された固定長の多次元ベクトルを仮定 画像の切り出し,特徴抽出などの前処理が必要  画像固有の特性を考慮していない場合が多い (例):照明条件,2次元空間内の幾何学的変動など 前処理とモデル学習を同時に最適化する枠組みの構築 画像固有の特性を考慮した正規化プロセスの組み込み 7
  8. 8. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 8
  9. 9. 確率的固有画像モデル  主成分分析を確率統計モデルとして定式化  固有画像を確率的主成分分析 (PPCA) や因子分析 (FA) により表現 : 観測データ : 因子負荷行列 : 因子ベクトル : 固有画像 (基底) : ノイズベクトル 利点 : データ間の共分散や相関を効率的にモデル化可能 欠点 : 事前に幾何学的変動に対する正規化処理が必要 9
  10. 10. 確率的固有画像モデル  主成分分析を確率統計モデルとして定式化  固有画像を確率的主成分分析 (PPCA) や因子分析 (FA) により表現 : 観測データ : 因子負荷行列 : 因子ベクトル : 固有画像 (基底) : ノイズベクトル 利点 : データ間の共分散や相関を効率的にモデル化可能 欠点 : 事前に幾何学的変動に対する正規化処理が必要 ノイズベクトルの分散 ・対角等分散 ⇒ PPCA ・対角共分散 ⇒ FA 10
  11. 11. その他の先行研究例  HMMに基づく手法  1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93]   Embedded HMM [Nefian et.al; ‘03]   Pseudo 2-D HMM [Kuo et.al; ‘94]   2次元DPマッチングに基づく手法 [Uchida et al; ‘01]  画像間のマッピングをコスト関数により制御  柔軟かつ正確なマッピングのためのコスト関数の決定 には事前知識が必要 11
  12. 12. その他の先行研究例  HMMに基づく手法  1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93] ⇒幾何学的変動に対する頑健性を欠く  Embedded HMM [Nefian et.al; ‘03]   Pseudo 2-D HMM [Kuo et.al; ‘94]   2次元DPマッチングに基づく手法 [Uchida et al; ‘01]  画像間のマッピングをコスト関数により制御  柔軟かつ正確なマッピングのためのコスト関数の決定 には事前知識が必要 12
  13. 13. その他の先行研究例  HMMに基づく手法  1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93] ⇒幾何学的変動に対する頑健性を欠く  Embedded HMM [Nefian et.al; ‘03] ⇒画像の幾何学的連続性を保つことが困難  Pseudo 2-D HMM [Kuo et.al; ‘94]   2次元DPマッチングに基づく手法 [Uchida et al; ‘01]  画像間のマッピングをコスト関数により制御  柔軟かつ正確なマッピングのためのコスト関数の決定 には事前知識が必要 13
  14. 14. その他の先行研究例  HMMに基づく手法  1次元HMMを人間の顔認識に利用[Samaria et.al; ‘93] ⇒幾何学的変動に対する頑健性を欠く  Embedded HMM [Nefian et.al; ‘03] ⇒画像の幾何学的連続性を保つことが困難  Pseudo 2-D HMM [Kuo et.al; ‘94] ⇒取りうる状態の組合せが多く計算量が膨大(指数オーダー)  2次元DPマッチングに基づく手法 [Uchida et al; ‘01]  画像間のマッピングをコスト関数により制御  柔軟かつ正確なマッピングのためのコスト関数の決定 には事前知識が必要 14
  15. 15. 分離型格子2次元HMM(SL2D-HMM)  2次元に拡張したHMMに構造的な制約条件 ⇒縦方向と横方向の状態遷移は独立  幾何学的変動(並進, 拡大縮小)のモデル化  状態の組合せ総数の削減 ⇒ 計算量の削減 出力確率分布 横方向の状態遷移 縦 方 向 の 状 態 遷 移 状態で画像を矩形領域に分割 特徴量は対応する 確率分布より出力 15
  16. 16. 可変固有画像モデル[Higaki el al.; ‘07]  基底とノイズベクトルが分離型格子2次元HMMから生成 : 観測データ : 因子負荷行列 : 因子ベクトル : 固有画像 (基底) : ノイズベクトル 利点 : 状態間の共分散や相関と幾何学的変動をモデル化 16
  17. 17. パラメトリック固有空間法との関連  パラメトリック固有空間法[Murase; ‘02]の特徴  連続的に見かけが変化する画像を固有空間上の多様体で表現  一連の画像を多様体上の軌跡として表現  対象の大きさ・輝度の正規化が前提  位置ずれの変動は基底の線形和で表現 ⇒より多くの学習画像を必要とする  可変固有画像モデル  認識対象の幾何学的変動を状態遷移により表現  状態遷移で合わせきれない部分を基底により表現 例:照明変動や顔の表情の変化など 17
  18. 18. パラメトリック固有空間法との関連  パラメトリック固有空間法[Murase; ‘02]の特徴  連続的に見かけが変化する画像を固有空間上の多様体で表現  一連の画像を多様体上の軌跡として表現  対象の大きさ・輝度の正規化が前提  位置ずれの変動は基底の線形和で表現 ⇒より多くの学習画像を必要とする  可変固有画像モデル  認識対象の幾何学的変動を状態遷移により表現  状態遷移で合わせきれない部分を基底により表現 例:照明変動や顔の表情の変化など 18 より少ないデータで汎用性の高いモデルを実現
  19. 19. 部分空間法・テンプレートマッチ法との関連  可変固有画像モデルにおける識別的パラメータ共有構造 基底と因子の共有レベルにより様々な構造を表現  基底と因子がクラス固有 ⇒ 部分空間法  基底を全クラスで共有 ⇒ 固有顔法  基底と因子の共有構造を変化 ⇒ 両者の中間的構造を表現  各状態のガウス分布が画像の形を表わすテンプレート 対象の位置ずれを状態遷移で表現  確率的テンプレートマッチとみなすことが可能  状態数は画像テンプレートの数に対応 [Fujii et al.; ’10]
  20. 20. 部分空間法・テンプレートマッチ法との関連  可変固有画像モデルにおける識別的パラメータ共有構造 基底と因子の共有レベルにより様々な構造を表現  基底と因子がクラス固有 ⇒ 部分空間法  基底を全クラスで共有 ⇒ 固有顔法  基底と因子の共有構造を変化 ⇒ 両者の中間的構造を表現  各状態のガウス分布が画像の形を表わすテンプレート 対象の位置ずれを状態遷移で表現  確率的テンプレートマッチとみなすことが可能  状態数は画像テンプレートの数に対応 従来の認識手法を内包しつつ 幾何学的変動に対処可能なモデル [Fujii et al.; ’10]
  21. 21. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 21
  22. 22. 概要  序論  研究背景および目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 22
  23. 23. はじめに 分離型格子2次元HMMの問題点 1. アフィン変換への対応が不完全  並進・拡大縮小のみに対応可能  回転変動には対応困難 2. モデル化能力に関する脆弱性  隣接する観測間の相関を無視  同一状態内で変動する観測のモデル化が困難 分離型格子2次元HMMの問題点を解消する より高精度な統計モデルを提案 23
  24. 24. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 24
  25. 25. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 25
  26. 26. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 26
  27. 27. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 27
  28. 28. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 28
  29. 29. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 29
  30. 30. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 30
  31. 31. 回転変動を考慮したモデル構造(1/2) 分離型格子2次元HMMによる画像のモデル化 ⇒矩形状の領域分割  並進,拡大・縮小 領域のサイズを変更して対応  回転変動 サイズの変更では対応困難 回転変動を考慮したモデル構造が必要 31
  32. 32. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 縦 方 向 の 状 態 遷 移 32
  33. 33. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 33
  34. 34. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 34
  35. 35. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 35
  36. 36. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 横方向のシフト状態遷移 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 縦 方 向 の シ フ ト 状 態 遷 移 36
  37. 37. シフト状態遷移系列の導入 縦・横方向の状態位置をシフト ⇒回転変動を吸収可能 横方向のシフト状態遷移 縦 方 向 の 状 態 遷 移 回転変動を考慮したモデル構造(2/2) 横方向の状態遷移 縦 方 向 の シ フ ト 状 態 遷 移 37
  38. 38.  関数の逐次最大化による最尤推定  E-step : 事後確率の計算  M-step : モデルパラメータの推定  同時事後確率の計算量が膨大 ⇒実時間では最適化が困難 EMアルゴリズム 変分EMアルゴリズムによる計算量削減 :観測データ :状態遷移系列 :シフト状態遷移系列 :モデルパラメータ 38
  39. 39. 変分EMアルゴリズム(1/2)  対数尤度の下限 を定義 (Jensenの不等式) 39
  40. 40. 変分EMアルゴリズム(1/2)  対数尤度の下限 を定義 (Jensenの不等式) 40
  41. 41. 変分EMアルゴリズム(1/2)  対数尤度の下限 を定義 の近似分布 (Jensenの不等式) 41
  42. 42. 変分EMアルゴリズム(1/2)  対数尤度の下限 を定義 の近似分布 下限 を最大化する近似事後分布の推定 (Jensenの不等式) 42
  43. 43.  近似事後分布 の変数間の独立性を仮定 ⇒計算量を大幅に削減(指数オーダ→多項式オーダ)  下限 の逐次最大化 変分EMアルゴリズム(2/2) E-step M-step が収束するまで 交互に繰り返す 43
  44. 44. 実験条件(1/2)  顔画像認識実験により提案手法の有効性を検証 データベース XM2VTS 原画像サイズ 720×576 画像サイズ 64×64 階調数 256,グレースケール 学習データ 1人あたり7枚×100人 テストデータ 1人あたり1枚×100人 2次元HMM状態数 24×24 シフト状態数 6×6, 10×10, 14×14, 16×16, 18×18 44
  45. 45. 実験条件(2/2)  データの変動の種類  回転変動のみ  位置・大きさ・回転変動  意図した変動をモデルが表現可能か否かの検証が目的  回転変動の場合  状態位置のシフトによりどこまで回転が表現できるかを検証  モデル自体は±45度程度の範囲を表現する能力  位置・大きさの変動の場合  認識対象が画像内に十分収まる範囲で検証 45 データのサイズの変動 500×500 ~ 600×600 データの位置の変動 中心から40×20ピクセル以内 データの回転角 -10°~ 10°(正規乱数)
  46. 46. 用意したデータの例  回転変動  位置・大きさ・回転変動 46
  47. 47. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) テストデータ の変動 47
  48. 48. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 48
  49. 49. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 49
  50. 50. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 50
  51. 51. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 認識率低下 テストデータ の変動 51
  52. 52. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 認識率低下 テストデータ の変動 テストデータの変動による認識率の違い ⇒学習データの変動と不一致のため 52
  53. 53. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 53
  54. 54. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 認識率向上 54
  55. 55. 実験結果(学習データの変動:回転のみ) 変動なし 回転変動 従来モデル 提案モデル(シフト状態数あり) 変動なしデータのみで 学習・認識したときの結果 テストデータ の変動 回転変動を適切に正規化 認識率向上 55
  56. 56. 実験結果(学習データの変動:位置+大きさ+回転) 変動なし 位置・大きさ・回転変動 従来モデル 提案モデル(シフト状態数あり) 56
  57. 57. 実験結果(学習データの変動:位置+大きさ+回転) 変動なし 位置・大きさ・回転変動 従来モデル 提案モデル(シフト状態数あり) 位置・大きさ・回転変動を適切に正規化 57
  58. 58. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  59. 59. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  60. 60. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル 矩形状の状態アライメント ⇒回転変動への対応が困難  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  61. 61. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  62. 62. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  63. 63. 状態アライメント テスト データ 回転角 20° 10° 0° -10° -20° SL2D- HMM 提案モデル 回転変動に対応した状態アライメント ⇒提案モデルの有効性を示す  最尤状態系列に沿って平均ベクトルを配置 ⇒データに対するモデルの当てはまりを視覚化
  64. 64. 概要  序論  研究背景と目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 64
  65. 65. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定  観測間の条件付き独立性を仮定 例:1次元HMM 65
  66. 66. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定   観測間の条件付き独立性を仮定 例:1次元HMM 同一の状態⇒同一の出力分布 66
  67. 67. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定 ⇒状態内で変化する観測の詳細なモデル化が困難  観測間の条件付き独立性を仮定 例:1次元HMM 同一の状態⇒同一の出力分布 67
  68. 68. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定 ⇒状態内で変化する観測の詳細なモデル化が困難  観測間の条件付き独立性を仮定 例:1次元HMM 68
  69. 69. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定 ⇒状態内で変化する観測の詳細なモデル化が困難  観測間の条件付き独立性を仮定  例:1次元HMM 69
  70. 70. 背景・目的(1/3)  従来のSL2D-HMMの問題点  各状態内で統計量(出力分布の平均・分散)が一定 ⇒状態内で変化する観測の詳細なモデル化が困難  観測間の条件付き独立性を仮定 ⇒隣接する観測間の相関を無視 例:1次元HMM 70
  71. 71. 背景・目的(2/3)  SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]  動的特徴量を追加 ⇒ 認識性能の大幅な向上  隣接観測間の依存関係をモデル化する手法の1つ :静的特徴量 静的特徴量 71
  72. 72. 背景・目的(2/3)  SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]  動的特徴量を追加 ⇒ 認識性能の大幅な向上  隣接観測間の依存関係をモデル化する手法の1つ :静的特徴量 水平方向のデルタ 垂直方向のデルタ静的特徴量 窓行列 72
  73. 73. 背景・目的(2/3)  SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]  動的特徴量を追加 ⇒ 認識性能の大幅な向上  隣接観測間の依存関係をモデル化する手法の1つ :静的特徴量 水平方向のデルタ 垂直方向のデルタ :観測ベクトル 静的特徴量 窓行列 73
  74. 74. 背景・目的(2/3)  SL2D-HMMへの動的特徴量の適用[Kumaki el al; ‘10]  動的特徴量を追加 ⇒ 認識性能の大幅な向上  隣接観測間の依存関係をモデル化する手法の1つ :静的特徴量 水平方向のデルタ 垂直方向のデルタ :観測ベクトル 静的特徴量 関係式(行列形式) 窓行列 74
  75. 75.  統計モデル的に正しくない枠組み  静的・動的特徴量を独立な確率変数としてモデル化 ⇒静的特徴量が決まれば動的特徴量は一意に決定  統計モデルは に対する関数として定義されるべき ⇒本来観測されたものは であり ではない 背景・目的(3/3) 分離型格子2次元HMMを 静的特徴量 の統計モデルとして再定式化 75
  76. 76. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 HMMの出力確率分布 76
  77. 77. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 HMMの出力確率分布 ⇒ 各特徴量分布の積 77
  78. 78. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) HMMの出力確率分布 ⇒ 各特徴量分布の積 78
  79. 79. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) HMMの出力確率分布 ⇒ 各特徴量分布の積 79
  80. 80. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) HMMの出力確率分布 ⇒ 各特徴量分布の積 HMMの平均系列 ⇒ 階段上の不連続な系列 HMMの平均系列 80
  81. 81. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) トラジェクトリHMMの確率分布 ⇒ の分布として正規化 HMMの平均系列 81
  82. 82. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) トラジェクトリHMMの確率分布 ⇒ の分布として正規化 HMMの平均系列 正規化定数 82
  83. 83. トラジェクトリHMM [Zen et al; ‘06] 時間的関係を考慮した静的特徴量の統計モデル 静的特徴量,動的特徴量の関係を明示的にモデル化 観測系列 0.8 0.4 0.0 -0.4 -0.8 -1.2 50 100 150 200 250 300 350 400 4500 Time (frame) トラジェクトリHMMの平均系列 ⇒ 状態内で滑らかに変化 静的特徴量 1次動的特徴量 (速度) 2次動的特徴量 (加速度) トラジェクトリHMMの確率分布 ⇒ の分布として正規化 HMMの平均系列 正規化定数 83
  84. 84. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化    提案モデル 84
  85. 85. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化    提案モデル 出力確率 状態遷移確率 85
  86. 86. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化    提案モデル 静的特徴量 1次動的特徴量 (水平方向) 1次動的特徴量 (垂直方向) 出力確率 状態遷移確率 86
  87. 87. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化  平均ベクトルは状態内で値が滑らかに変化   提案モデル 静的特徴量 1次動的特徴量 (水平方向) 1次動的特徴量 (垂直方向) 出力確率 状態遷移確率 87
  88. 88. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化  平均ベクトルは状態内で値が滑らかに変化  共分散行列は一般に全共分散型 ⇒隣接する観測間の相関を考慮可能 提案モデル 静的特徴量 1次動的特徴量 (水平方向) 1次動的特徴量 (垂直方向) 出力確率 状態遷移確率 88
  89. 89. 2次元的な相関を考慮した静的特徴量の統計モデル ⇒トラジェクトリHMMと同様の定式化  平均ベクトルは状態内で値が滑らかに変化  共分散行列は一般に全共分散型 ⇒隣接する観測間の相関を考慮可能 提案モデル 静的特徴量 1次動的特徴量 (水平方向) 1次動的特徴量 (垂直方向) 出力確率 状態遷移確率 SL2D-HMMの問題点を解消する統計モデル 89
  90. 90. 推定された平均ベクトルの例  画像サイズ:32×32 状態数:16×16  SL2D-HMMと提案モデルの状態系列は共通  SL2D-HMM  提案モデル SL2D-HMM 提案モデルテストデータ 90
  91. 91. 推定された平均ベクトルの例  画像サイズ:32×32 状態数:16×16  SL2D-HMMと提案モデルの状態系列は共通  SL2D-HMM  提案モデル SL2D-HMM 提案モデルテストデータ ⇒状態内で値が一定 91
  92. 92. 推定された平均ベクトルの例  画像サイズ:32×32 状態数:16×16  SL2D-HMMと提案モデルの状態系列は共通  SL2D-HMM  提案モデル SL2D-HMM 提案モデルテストデータ ⇒状態内で値が滑らかに変化 ⇒状態内で値が一定 92
  93. 93. 推定された共分散行列の例  画像サイズ:32×32 状態数:16×16  行と列はそれぞれ2次元格子のラスタ順で配置 SL2D-HMMの共分散行列 提案モデルの共分散行列 93
  94. 94. 推定された共分散行列の例  画像サイズ:32×32 状態数:16×16  行と列はそれぞれ2次元格子のラスタ順で配置 SL2D-HMMの共分散行列 提案モデルの共分散行列 対角成分のみ分散が大 94
  95. 95. 推定された共分散行列の例  画像サイズ:32×32 状態数:16×16  行と列はそれぞれ2次元格子のラスタ順で配置 SL2D-HMMの共分散行列 提案モデルの共分散行列 対角成分のみ分散が大 非対角成分も分散が大 95
  96. 96. 推定された共分散行列の例  画像サイズ:32×32 状態数:16×16  行と列はそれぞれ2次元格子のラスタ順で配置 SL2D-HMMの共分散行列 提案モデルの共分散行列 対角成分のみ分散が大 非対角成分も分散が大 隣接する観測間の相関をモデル化 96
  97. 97. 学習アルゴリズム EMアルゴリズム 出力確率が状態系列全体に依存 ⇒Forward-Backwardアルゴリズムの適用が困難 ⇒実時間による最適化が困難 関数 Viterbi近似による計算量削減 97
  98. 98.  顔画像認識実験による有効性の検証  認識率は4-fold cross validationで評価 実験条件(1/2) データベース XM2VTS 原画像サイズ 720×576 画像サイズ 16×16 階調数 256,グレースケール 学習データ 1人あたり6枚×100人 テストデータ 1人あたり2枚×100人 2次元HMM状態数 4×4, 6×6, 8×8 10×10, 12×12 98
  99. 99.  比較手法  NoUpdate : SL2Dのパラメタを提案モデル用に線形変換  ParamUpdate:NoUpdateのパラメタの値を最適化  状態系列は3手法とも同一(SL2DのViterbi状態系列) 実験条件(2/2) 手法 パラメタの更新 SL2D (従来法) - NoUpdate なし ParamUpdate あり 99
  100. 100. 0 10 20 30 40 50 60 4×4 6×6 8×8 10×10 12×12 SL2D NoUpdate ParamUpdate 実験結果 状態数 認識率(%) 100
  101. 101. 0 10 20 30 40 50 60 4×4 6×6 8×8 10×10 12×12 SL2D NoUpdate ParamUpdate 実験結果 状態数 認識率(%) NoUpdateの認識率が低い ⇒パラメタが最適化されていないため 101
  102. 102. 0 10 20 30 40 50 60 4×4 6×6 8×8 10×10 12×12 SL2D NoUpdate ParamUpdate 実験結果 状態数 認識率(%) ParamUpdateの認識率が高い ⇒パラメタが最適化されたため 102
  103. 103. 0 10 20 30 40 50 60 4×4 6×6 8×8 10×10 12×12 SL2D NoUpdate ParamUpdate 実験結果 状態数 認識率(%) ParamUpdateの最高認識率がSL2Dを上回る ⇒観測間の相関が適切にモデル化されたため 103
  104. 104. まとめ SL2D-HMMの問題点を解消する統計モデル  状態位置の移動を表現するシフト状態遷移系列の導入 ⇒正規化可能な変動の範囲を回転変動まで拡張  静的・動的特徴量の関係を明示的にモデル化 ⇒観測間の相関を効率よく捉えるモデル構造 画像認識のための高精度な統計モデル 104
  105. 105. 今後の課題・将来の展望  今後の課題  適切な窓行列の設計,状態推定アルゴリズムの検討  様々なデータセット上で他の手法との性能比較・評価  省メモリ・高速化と認識性能の両立  将来の展望  前処理・特徴量選択・モデル構造選択の同時最適化 例:識別モデル(CRFなど)を活用した特徴量・モデル構造選択  画像を用いた様々なタスクへの応用可能性 例:3次元物体認識,動画像認識,画像探索,文字認識など  プログラムをオープンソースとして公開(C++) 105
  106. 106. 概要  序論  研究背景と目的  分離型格子2次元HMMの概要及び既存手法との関連  研究紹介 分離型格子2次元HMMの拡張  回転変動への対応  観測間の相関を捉えるモデル  活動報告 106
  107. 107. ソフトウェアの開発・保守 音声信号処理ツールキットSPTK  音声信号処理に有用なLinuxコマンド群を提供  マイクロソフト他,国内外の多くの研究機関で利用 最近1年間のダウンロード総数:約8,100  共同研究・プロジェクトでの基盤ソフトウェア  主要開発メンバーとして従事 数多くの新機能を開発・実装&バグ修正等の保守作業 http://sp-tk.sourceforge.net/ 107
  108. 108. 研究活動(1/3)  総務省 SCOPE プロジェクト  期間 2009/11 ~ 2011/12  「講演者のための 多言語音声合成技術に関する研究開発」  共同研究機関  京都市立芸術大学  独立行政法人情報通信機構 話者選択モジュールの開発に従事しプロジェクトに貢献 おはよう 音声翻訳 システム Good Morning 108
  109. 109. 研究活動(2/3)  JST CREST uDialogue プロジェクト  期間 2011/10 ~ 2017/03  「コンテンツ生成の循環系を軸とした 次世代音声技術基盤の確立」  共同研究機関  名古屋工業大学国際音声技術研究所  名古屋工業大学情報基盤センター  エジンバラ大学 研究者の方々と活発に意見を 交換しプロジェクトの発展に貢献 名工大双方向 音声案内システム モバイル環境 音声対話システム 109
  110. 110. 研究活動(3/3)  学外交流  NTT コミュニケーション科学基礎研究所 2012/01 ~ 2012/04 実習生 博士論文完成に不可欠な実装技術を習得 110

×