深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用

深層学習を用いたコンピュータビジョン技術と
運転行動モニタリングへの応用
AIシステム部
内田祐介, 本多浩大
0

自己紹介
• 内田祐介
– 〜2017年：通信キャリアの研究所で画像認識・検索の研究に従事
– 2016年：社会人学生として博士号を取得（情報理工学）
– 2017年〜：DeNA中途入社、深層学習を中心とした
コンピュータビジョン技術の研究開発に従事
– 電子情報通信学会学術奨励賞、FITヤングリサーチャー賞、
映像情報メディア学会技術振興賞受賞、
国際学術会議にてBest Paper Awardを2度受賞
1
Twitter: https://twitter.com/yu4u
GitHub: https://github.com/yu4u
Qiita: https://qiita.com/yu4u

本講演のアウトライン
• 深層学習を用いたコンピュータビジョン技術
– 画像認識から高速化まで
• 運転行動モニタリングへの応用事例紹介
– ドライバーモニタリング
– 車載カメラ画像認識による
環境モニタリング
2
内田
本多

深層学習を用いたコンピュータビジョン技術
• 様々なタスクで盛んに研究が行われている
– 画像分類、物体検出、ランドマーク検出、
セマンティックセグメンテーション、
姿勢推定、行動認識、属性認識…
3

深層学習を用いたコンピュータビジョン技術
• 様々なタスクで盛んに研究が行われている
– 画像分類、物体検出、ランドマーク検出、
セマンティックセグメンテーション、
姿勢推定、行動認識、属性認識…
4

画像分類
• 最も基本的かつ重要なタスク
• 入力画像がどのようなクラス（例：猫）に
対応するのかを判定する
• 畳み込みニューラルネットワークにより実現
– 画像分類で進化した畳み込みニューラルネットワークが
他の様々なタスクで利用される
5

畳み込みニューラルネットワーク
• 畳み込みとプーリング演算により徐々に高度な
特徴を抽出
6
227x227x3
55x55x96
27x27x9627x27x256
13x13x25613x13x38413x13x38413x13x2566x6x256
9216
4096 4096
1000
conv11x11, 96
stride (4, 4)
maxpool3x3
stride (2, 2)
conv5x5, 256
stride (1, 1)
maxpool3x3
stride (2, 2)
conv3x3, 384
stride (1, 1)
conv3x3, 384
stride (1, 1)
conv3x3, 256
stride (1, 1)
maxpool3x3
stride (2, 2)
flattenflattendensedense
densedensedensedense
AlexNetモデル

特徴を抽出
7畳み込み
プーリング
畳み込み
プーリング畳み込みプーリング
全結合
1000
1000クラス
の分類入力画像

畳み込み演算
• 3次元テンソルに対して、畳み込みカーネルを
適用し、認識に重要な特徴を抽出する
8
W
H
N M
K
K
W
H
入力テンソル
畳み込み
カーネル
N
出力テンソル
＊
和
要素積
× M
Conv K×K, M

プーリング演算
• 空間的な特徴を集約（平均値・最大値）し、
位置ずれに不変な特徴を抽出する
9
W
W/2
N
N
H/2
2
2
最大値
Maxpool 2×2
入力テンソル出力テンソル

特徴を抽出
10畳み込み
プーリング
畳み込み
プーリング畳み込みプーリング
全結合
1000
1000クラス
の分類入力画像

研究のトレンド
• 畳み込みニューラルネットワーク自体の進化
• 様々なタスクへの適用
• 高速化
11

畳み込みニューラルネットワークの進化
12
AlexNet
VGGNet
GoogLeNet ResNet
Batch
Normalization
LeNet
Neocognitron
Back
propagation
Heの初期化
Glorotの
初期化
conv 1x1
Dropout
ReLU
1990s 2012 2013 2014 2015
NIN
Global
Average
Pooling Residual
内田, 山下, “[サーベイ論文] 畳み込みニューラルネットワークの研究動向,”
パターン認識・メディア理解研究会, 2017. http://mprg.jp/publications/f188
モデル
モデルの
構成要素

畳み込みニューラルネットワークの進化
13
AlexNet
VGGNet
GoogLeNet ResNet
Batch
Normalization
LeNet
Neocognitron
Back
propagation
Heの初期化
Glorotの
初期化
conv 1x1
Dropout
ReLU
1990s 2012 2013 2014 2015
NIN
Global
Average
Pooling Residual
内田, 山下, “[サーベイ論文] 畳み込みニューラルネットワークの研究動向,”
パターン認識・メディア理解研究会, 2017. http://mprg.jp/publications/f188
モデル
モデルの
構成要素
Residual Networks (ResNet) がデファクトスタンダード
その後の様々なネットワークも
ほとんどがResNetの亜種とみなせる

様々なタスクへの応用
• 特徴マップ抽出後の処理を切り替えることで
様々なタスクに対応可能
14
クラス分類
用の処理
全結合
特徴マップ特徴抽出
入力画像

入力画像
受容野
（receptive field）
特徴マップ
15
特徴抽出
入力画像
特徴マップ
4
4
このあたりの領域の情報が
集約される
C

例えば、
信頼度：1次元
物体の領域：4次元
（x, y, w, h）
を出力するように学習すると
1クラスの物体検出が可能
物体検出への応用
16
特徴マップ
4
4
入力画像
w
h
(x, y)
5

例えば、
信頼度：1次元
物体の領域：4次元
（x, y, w, h）
＋クラスらしさ：C次元
Cクラスの物体検出が可能
物体検出への応用
17
最近のSingle Shot系の物体検出のアーキテクチャまとめ
https://www.slideshare.net/ren4yu/single-shot
特徴マップ
4
4
入力画像
w
h
(x, y)
車
5+C

例えば、
信頼度：1次元
ランドマークの座標：2N次元
（xi, yi）i=1〜N
ランドマーク検出が可能
ランドマーク検出への応用
18
特徴マップ
4
4
入力画像
(xi, yi)

セグメンテーションへの応用
19
畳み込み
入力画像画像と同じサイズの
クラスらしさ：C次元
Cクラスのセマンティック
セグメンテーションが可能
逆畳み込み
C
画像引用元: https://www.cityscapes-dataset.com/examples/

高速化
• 枝刈り (pruning)
– 性能にあまり影響しない畳み込みフィルタを削除 → 後述
• 畳み込みの分解 (factorization)
– 大きな畳み込みを、軽量な複数の畳み込みで近似 → 後述
• 蒸留 (distillation)
– 精度の高い大きなネットワークを教師として
小さなネットワークを学習する
• 早期終了 (early termination)
– ネットワークの途中でも結果の出力を行う
信頼度が高い場合、処理を打ち切る
20
モデルアーキテクチャ観点からのDeep Neural Network高速化
https://www.slideshare.net/ren4yu/deep-neural-network-79382352

蒸留 (distillation)
• アンサンブルモデルや大きなモデルから
小さなモデルへの知識の移行
21
1. アンサンブルモデルや
大きなモデルを学習
2. 学習済みモデルを利用して
小さなモデルを学習
アンサンブル
モデル
大きなモデル

通常の学習
22
学習画像
学習するモデル
正解ラベル
…
正解ラベルのみを
利用して学習
認識結果
（例：クラスラベル）

蒸留における学習
23
……
学習画像
学習済みモデル
学習するモデル
正解ラベル
…
学習済み
モデルの出力
正解ラベルと
学習済みモデル出力の
両方を利用して学習
認識結果
（例：クラスラベル）

早期終了 (early termination)
• ネットワークの途中でも結果の出力を行い、
信頼度が高い場合、処理を打ち切る
24
信頼度低信頼度高
…
結果結果
…
処理しない

交通事故低減への取り組み事例紹介
25

ドライバーの運転行動
• 事故原因の多くはドライバーの
「認知」「判断」の誤り
26
認知
運転プロセス
操作判断

交通事故低減ソリューション
• 制御を行うもの
– 自動ブレーキ、レーンキープアシスト
• 制御を行わないもの
– 乗車中のリアルタイムアラート
– 運転行動診断
27

交通事故低減ソリューション
• 制御を行うもの
– 自動ブレーキ、レーンキープアシスト
• 制御を行わないもの
– 乗車中のリアルタイムアラート
– 運転行動診断
28
認知・判断をサポート
後付けで導入することが可能

コンセプト
29
重大事故：1
軽微な事故：29
ヒヤリ・ハット：300
ハインリッヒの法則

コンセプト
30
不安全行動
（よそ見、速度超過
車間距離不足…）
重大事故：1

コンセプト
31
不安全行動
（よそ見、速度超過
車間距離不足…）
重大事故：1
仮説：
不安全行動を減らせば
重大事故が減らせる

アプローチ
32
地図
運転行動をモニタリングし
潜在的な不安全行動を指摘
行動変容を促す
ドライバー
モニタリング
環境
モニタリング
センサ解析
（GPS、加速度、ジャイロ）

不安全行動の検出例
• 車速が一定以上＋車間距離が一定以下
→車間距離不足
• 停車中ではない状態で一定以上前方以外を注視
→よそ見
• 以降ではドライバーモニタリングおよび
環境モニタリングで活用できる
コンピュータビジョン技術の紹介
33

ドライバーモニタリング
• ランドマーク検出＋顔姿勢推定
– 顔のランドマークを検出し、顔の3Dモデルと
フィッティングすることで顔の3D姿勢を推定
34
・・・
左目
鼻
あご
ランドマーク検出結果顔の3Dモデル

ドライバーの顔の姿勢
35
正面
後
上
横
前
下
上
下
上
右左
右左
前後

36
正面
後
上
横
前
下
上
下
上
右左
右左
前後
• カメラに対しての姿勢なので解析しづらい
• 最も頻度の高い姿勢＝正面を向いていると仮定し
正面の姿勢で正規化（回転）

37
正面
後
上
横
前
下
上
下
上
右左
右左
前後

38
正面
後
上
横
前
下
上
下
上
右左
右左
前後
• カメラの位置や個人の運転姿勢を吸収した
運転姿勢の認識が可能
• よそ見の検知や左右確認の有無の認識に活用

本講演のアウトライン
• 深層学習を用いたコンピュータビジョン技術
– 画像認識から高速化まで
• 運転行動モニタリングへの応用事例紹介
– ドライバーモニタリング
– 車載カメラ画像認識による
環境モニタリング
39
内田
本多

自己紹介
Hiroto Honda
物理工学専攻
メーカー研究所 ⇨ 2017/1 DeNA
AI研究開発エンジニア、コンピュータビジョン担当
専門分野
・コンピュータビジョン：
画像復元、マルチスペクトルイメージング (チューリッヒ工科大CVL)
・ハードウェア：
イメージセンサチップ(前職)
40
@hirotomusiker

outline
• 車載カメラ画像認識による環境モニタリング
• 独自データ構築
• オブジェクト検出
• レーン検出
• ネットワーク軽量化、エッジデバイスでの実行
• まとめと展望
41

車載カメラ画像認識による環境モニタリング
42
Mafrica, Stefano. (2016). Bio-Inspired Visual Sensors for
Robotic and Automotive Applications.
レーダー
LIDAR
カメラ
超音波
カメラ、特に前方監視は情報量が多い

43
検出結果

44
車両レーン境界線
歩行者
二輪車
オブジェクトを検出し、自車との位置関係を逐次取得する
自分のレーンにいる
前方車との車間距離
：３m！

独自データの構築
45
・独自に開発したアノテーション・システム
・AI研究開発エンジニアをサポートするアノテーション体制
→大規模データの構築

深層学習：オブジェクト検出
46
入力画像
特徴マップ各グリッドで、
オブジェクトの
・種類
・位置と大きさ
・確からしさ
が出力される
特徴抽出
ネットワーク
オブジェクト検出
ヘッドネットワーク

深層学習：レーン検出
47
ポーズ推定を応用した独自のレーン検出ネットワークを開発。
白線だけでなく、黄線、路肩など、レーンの境界を全て検出する
ネットワーク入力：画像ネットワーク出力：
各水平線上のレーン存在確率
水平位置
レーン
境界線
存在
確率

深層学習：レーン検出
48
入力画像
レーン検出
ヘッドネットワーク
特徴抽出
ネットワークレーンの存在確率
が出力される
特徴マップ
水平位置
レーン
境界線
存在
確率

レーン検出例
49
1522_000011_F_1499682784780_7634imgs_4
pts_resnet_adam_noline2frames_thre0.36.mo
vを放映するか？

ネットワーク軽量化、エッジでの実行
• 深層学習ベースの検出は高性能だが、大規模な
積和演算が必要
• エッジデバイスで実行するには、精度を保った
まま積和演算数を減らす必要がある
50
精度
演算数

ネットワーク軽量化 ①畳み込みの分解
通常の畳み込み演算
3x3
x40 channel
x 60フィルタ
=21,600
合計で21,600x(WxH)回の掛け算
が必要
W
H
入力
特徴マップ
出力
特徴マップ
40
3x3
例：40 channel入力
例：60 channel出力

ネットワーク軽量化 ①畳み込みの分解
(この例では)7.8倍の効率化!
畳み込み演算を２種類の軽量な畳み込みで近似
40
1x1
3x3
3x3
x40 channel
=360
1x1
x40 channel
x60 フィルタ
=2400
合計で 2,760x(WxH)回の掛け算が必要
例：40 channel入力
W
H
例：60 channel出力
W
H
①チャネルごとの畳み込み
②チャネル方向の畳み込み
入力
特徴マップ
出力
特徴マップ

ネットワーク軽量化 ②枝刈り
53
不要な演算の枝刈り (pruning)
40 1x1
1x1
x40 channel
x60 フィルタ
=2400
W
H
40
1x1
1x1
x40 channel
x30 フィルタ
=1200
W
H
フィルタの「重要性」判断器を
埋め込んで学習
(この例では)2.0倍
の効率化!

ネットワーク軽量化結果
54
ベース
ライン
①畳み込みの
分解
(fine-tuning)
②枝刈り

ネットワーク軽量化結果
55
元ネットワーク軽量化ネットワーク
Tesla GPU エッジデバイス
精度を保ったままエッジデバイスでの動作に成功

まとめと展望
• 深層学習を用いたコンピュータビジョン技術は、画像分類、物体
検出、姿勢推定など、様々なタスクにて研究・応用されている
• 深層学習と独自データを用い、ドライバー・車両環境のモニタリ
ング技術を開発した
• ネットワーク軽量化により、性能を維持したまま、車載エッジデ
バイスでの動作を実現した
• ドライバーの運転行動をメタデータ化し、危険運転低減につなげ
ていく
56

深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用

Similar to 深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用 (20)

More from Yusuke Uchida

More from Yusuke Uchida (20)

Recently uploaded

Recently uploaded (8)

深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用