Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用

34,886 views

Published on

DeNA TechCon 2018での講演資料です。

「深層学習、特に畳み込みニューラルネットワーク (CNN) の進化により、近年のコンピュータビジョン技術は急速に発展しています。CNNは画像分類だけではなく、物体検出、セグメンテーション、姿勢推定といった様々なタスクに利用されています。
本公演では、近年提案されている様々なCNNや物体検出手法を解説します。また、これらの技術の応用として、車載カメラ画像認識を用いた運転行動モニタリングについて紹介します。」

Published in: Technology

深層学習を用いたコンピュータビジョン技術と運転行動モニタリングへの応用

  1. 1. 深層学習を用いたコンピュータビジョン技術と 運転行動モニタリングへの応用 AIシステム部 内田祐介, 本多浩大 0
  2. 2. 自己紹介 • 内田祐介 – 〜2017年:通信キャリアの研究所で画像認識・検索の研究に従事 – 2016年 :社会人学生として博士号を取得(情報理工学) – 2017年〜:DeNA中途入社、深層学習を中心とした コンピュータビジョン技術の研究開発に従事 – 電子情報通信学会学術奨励賞、FITヤングリサーチャー賞、 映像情報メディア学会技術振興賞受賞、 国際学術会議にてBest Paper Awardを2度受賞 1 Twitter: https://twitter.com/yu4u GitHub: https://github.com/yu4u Qiita: https://qiita.com/yu4u
  3. 3. 本講演のアウトライン • 深層学習を用いたコンピュータビジョン技術 – 画像認識から高速化まで • 運転行動モニタリングへの応用事例紹介 – ドライバーモニタリング – 車載カメラ画像認識による 環境モニタリング 2 内田 本多
  4. 4. 深層学習を用いたコンピュータビジョン技術 • 様々なタスクで盛んに研究が行われている – 画像分類、物体検出、ランドマーク検出、 セマンティックセグメンテーション、 姿勢推定、行動認識、属性認識… 3
  5. 5. 深層学習を用いたコンピュータビジョン技術 • 様々なタスクで盛んに研究が行われている – 画像分類、物体検出、ランドマーク検出、 セマンティックセグメンテーション、 姿勢推定、行動認識、属性認識… 4
  6. 6. 画像分類 • 最も基本的かつ重要なタスク • 入力画像がどのようなクラス(例:猫)に 対応するのかを判定する • 畳み込みニューラルネットワークにより実現 – 画像分類で進化した畳み込みニューラルネットワークが 他の様々なタスクで利用される 5
  7. 7. 畳み込みニューラルネットワーク • 畳み込みとプーリング演算により徐々に高度な 特徴を抽出 6 227x227x3 55x55x96 27x27x9627x27x256 13x13x25613x13x38413x13x38413x13x2566x6x256 9216 4096 4096 1000 conv11x11, 96 stride (4, 4) maxpool3x3 stride (2, 2) conv5x5, 256 stride (1, 1) maxpool3x3 stride (2, 2) conv3x3, 384 stride (1, 1) conv3x3, 384 stride (1, 1) conv3x3, 256 stride (1, 1) maxpool3x3 stride (2, 2) flattenflattendensedense densedensedensedense AlexNetモデル
  8. 8. 畳み込みニューラルネットワーク • 畳み込みとプーリング演算により徐々に高度な 特徴を抽出 7畳み込み プーリング 畳み込み プーリング 畳み込み プーリング 全結合 1000 1000クラス の分類入力画像
  9. 9. 畳み込み演算 • 3次元テンソルに対して、畳み込みカーネルを 適用し、認識に重要な特徴を抽出する 8 W H N M K K W H 入力テンソル 畳み込み カーネル N 出力テンソル * 和 要素積 × M Conv K×K, M
  10. 10. プーリング演算 • 空間的な特徴を集約(平均値・最大値)し、 位置ずれに不変な特徴を抽出する 9 W W/2 N N H/2 2 2 最大値 Maxpool 2×2 入力テンソル 出力テンソル
  11. 11. 畳み込みニューラルネットワーク • 畳み込みとプーリング演算により徐々に高度な 特徴を抽出 10畳み込み プーリング 畳み込み プーリング 畳み込み プーリング 全結合 1000 1000クラス の分類入力画像
  12. 12. 研究のトレンド • 畳み込みニューラルネットワーク自体の進化 • 様々なタスクへの適用 • 高速化 11
  13. 13. 畳み込みニューラルネットワークの進化 12 AlexNet VGGNet GoogLeNet ResNet Batch Normalization LeNet Neocognitron Back propagation Heの初期化 Glorotの 初期化 conv 1x1 Dropout ReLU 1990s 2012 2013 2014 2015 NIN Global Average Pooling Residual 内田, 山下, “[サーベイ論文] 畳み込みニューラルネットワークの研究動向,” パターン認識・メディア理解研究会, 2017. http://mprg.jp/publications/f188 モデル モデルの 構成要素
  14. 14. 畳み込みニューラルネットワークの進化 13 AlexNet VGGNet GoogLeNet ResNet Batch Normalization LeNet Neocognitron Back propagation Heの初期化 Glorotの 初期化 conv 1x1 Dropout ReLU 1990s 2012 2013 2014 2015 NIN Global Average Pooling Residual 内田, 山下, “[サーベイ論文] 畳み込みニューラルネットワークの研究動向,” パターン認識・メディア理解研究会, 2017. http://mprg.jp/publications/f188 モデル モデルの 構成要素 Residual Networks (ResNet) がデファクトスタンダード その後の様々なネットワークも ほとんどがResNetの亜種とみなせる
  15. 15. 様々なタスクへの応用 • 特徴マップ抽出後の処理を切り替えることで 様々なタスクに対応可能 14 クラス分類 用の処理 全結合 特徴マップ特徴抽出 入力画像
  16. 16. 入力画像 受容野 (receptive field) 特徴マップ 15 特徴抽出 入力画像 特徴マップ 4 4 このあたりの領域の情報が 集約される C
  17. 17. 例えば、 信頼度:1次元 物体の領域:4次元 (x, y, w, h) を出力するように学習すると 1クラスの物体検出が可能 物体検出への応用 16 特徴マップ 4 4 入力画像 w h (x, y) 5
  18. 18. 例えば、 信頼度:1次元 物体の領域:4次元 (x, y, w, h) +クラスらしさ:C次元 を出力するように学習すると Cクラスの物体検出が可能 物体検出への応用 17 最近のSingle Shot系の物体検出のアーキテクチャまとめ https://www.slideshare.net/ren4yu/single-shot 特徴マップ 4 4 入力画像 w h (x, y) 車 5+C
  19. 19. 例えば、 信頼度:1次元 ランドマークの座標:2N次元 (xi, yi)i=1〜N を出力するように学習すると ランドマーク検出が可能 ランドマーク検出への応用 18 特徴マップ 4 4 入力画像 (xi, yi)
  20. 20. セグメンテーションへの応用 19 畳み込み 入力画像 画像と同じサイズの クラスらしさ:C次元 を出力するように学習すると Cクラスのセマンティック セグメンテーションが可能 逆畳み込み C 画像引用元: https://www.cityscapes-dataset.com/examples/
  21. 21. 高速化 • 枝刈り (pruning) – 性能にあまり影響しない畳み込みフィルタを削除 → 後述 • 畳み込みの分解 (factorization) – 大きな畳み込みを、軽量な複数の畳み込みで近似 → 後述 • 蒸留 (distillation) – 精度の高い大きなネットワークを教師として 小さなネットワークを学習する • 早期終了 (early termination) – ネットワークの途中でも結果の出力を行う 信頼度が高い場合、処理を打ち切る 20 モデルアーキテクチャ観点からのDeep Neural Network高速化 https://www.slideshare.net/ren4yu/deep-neural-network-79382352
  22. 22. 蒸留 (distillation) • アンサンブルモデルや大きなモデルから 小さなモデルへの知識の移行 21 1. アンサンブルモデルや 大きなモデルを学習 2. 学習済みモデルを利用して 小さなモデルを学習 アンサンブル モデル 大きなモデル
  23. 23. 通常の学習 22 学習画像 学習するモデル 正解ラベル … 正解ラベルのみを 利用して学習 認識結果 (例:クラスラベル)
  24. 24. 蒸留における学習 23 …… 学習画像 学習済みモデル 学習するモデル 正解ラベル … 学習済み モデルの出力 正解ラベルと 学習済みモデル出力の 両方を利用して学習 認識結果 (例:クラスラベル)
  25. 25. 早期終了 (early termination) • ネットワークの途中でも結果の出力を行い、 信頼度が高い場合、処理を打ち切る 24 信頼度低 信頼度高 … 結果 結果 … 処理しない
  26. 26. 交通事故低減への取り組み事例紹介 25
  27. 27. ドライバーの運転行動 • 事故原因の多くはドライバーの 「認知」「判断」の誤り 26 認知 運転プロセス 操作判断
  28. 28. 交通事故低減ソリューション • 制御を行うもの – 自動ブレーキ、レーンキープアシスト • 制御を行わないもの – 乗車中のリアルタイムアラート – 運転行動診断 27
  29. 29. 交通事故低減ソリューション • 制御を行うもの – 自動ブレーキ、レーンキープアシスト • 制御を行わないもの – 乗車中のリアルタイムアラート – 運転行動診断 28 認知・判断をサポート 後付けで導入することが可能
  30. 30. コンセプト 29 重大事故:1 軽微な事故:29 ヒヤリ・ハット:300 ハインリッヒの法則
  31. 31. コンセプト 30 不安全行動 (よそ見、速度超過 車間距離不足…) 重大事故:1 軽微な事故:29 ヒヤリ・ハット:300 ハインリッヒの法則
  32. 32. コンセプト 31 不安全行動 (よそ見、速度超過 車間距離不足…) 重大事故:1 軽微な事故:29 ヒヤリ・ハット:300 ハインリッヒの法則 仮説: 不安全行動を減らせば 重大事故が減らせる
  33. 33. アプローチ 32 地図 運転行動をモニタリングし 潜在的な不安全行動を指摘 行動変容を促す ドライバー モニタリング 環境 モニタリング センサ解析 (GPS、加速度、ジャイロ)
  34. 34. 不安全行動の検出例 • 車速が一定以上+車間距離が一定以下 →車間距離不足 • 停車中ではない状態で一定以上前方以外を注視 →よそ見 • 以降ではドライバーモニタリングおよび 環境モニタリングで活用できる コンピュータビジョン技術の紹介 33
  35. 35. ドライバーモニタリング • ランドマーク検出+顔姿勢推定 – 顔のランドマークを検出し、顔の3Dモデルと フィッティングすることで顔の3D姿勢を推定 34 ・・・ 左目 鼻 あご ランドマーク検出結果 顔の3Dモデル
  36. 36. ドライバーの顔の姿勢 35 正面 後 上 横 前 下 上 下 上 右左 右左 前後
  37. 37. ドライバーの顔の姿勢 36 正面 後 上 横 前 下 上 下 上 右左 右左 前後 • カメラに対しての姿勢なので解析しづらい • 最も頻度の高い姿勢=正面を向いていると仮定し 正面の姿勢で正規化(回転)
  38. 38. ドライバーの顔の姿勢 37 正面 後 上 横 前 下 上 下 上 右左 右左 前後
  39. 39. ドライバーの顔の姿勢 38 正面 後 上 横 前 下 上 下 上 右左 右左 前後 • カメラの位置や個人の運転姿勢を吸収した 運転姿勢の認識が可能 • よそ見の検知や左右確認の有無の認識に活用
  40. 40. 本講演のアウトライン • 深層学習を用いたコンピュータビジョン技術 – 画像認識から高速化まで • 運転行動モニタリングへの応用事例紹介 – ドライバーモニタリング – 車載カメラ画像認識による 環境モニタリング 39 内田 本多
  41. 41. 自己紹介 Hiroto Honda 物理工学専攻 メーカー研究所 ⇨ 2017/1 DeNA AI研究開発エンジニア、コンピュータビジョン担当 専門分野 ・コンピュータビジョン: 画像復元、マルチスペクトルイメージング (チューリッヒ工科大CVL) ・ハードウェア: イメージセンサチップ(前職) 40 @hirotomusiker
  42. 42. outline • 車載カメラ画像認識による環境モニタリング • 独自データ構築 • オブジェクト検出 • レーン検出 • ネットワーク軽量化、エッジデバイスでの実行 • まとめと展望 41
  43. 43. 車載カメラ画像認識による環境モニタリング 42 Mafrica, Stefano. (2016). Bio-Inspired Visual Sensors for Robotic and Automotive Applications. レーダー LIDAR カメラ 超音波 カメラ、特に前方監視は情報量が多い
  44. 44. 車載カメラ画像認識による環境モニタリング 43 検出結果
  45. 45. 車載カメラ画像認識による環境モニタリング 44 車両 レーン境界線 歩行者 二輪車 オブジェクトを検出し、自車との位置関係を逐次取得する 自分のレーンにいる 前方車との車間距離 : 3m!
  46. 46. 独自データの構築 45 ・独自に開発したアノテーション・システム ・AI研究開発エンジニアをサポートするアノテーション体制 →大規模データの構築
  47. 47. 深層学習:オブジェクト検出 46 入力画像 特徴マップ 各グリッドで、 オブジェクトの ・種類 ・位置と大きさ ・確からしさ が出力される 特徴抽出 ネットワーク オブジェクト検出 ヘッドネットワーク
  48. 48. 深層学習:レーン検出 47 ポーズ推定を応用した独自のレーン検出ネットワークを開発。 白線だけでなく、黄線、路肩など、レーンの境界を全て検出する ネットワーク入力:画像 ネットワーク出力: 各水平線上のレーン存在確率 水平位置 レーン 境界線 存在 確率
  49. 49. 深層学習:レーン検出 48 入力画像 レーン検出 ヘッドネットワーク 特徴抽出 ネットワーク レーンの存在確率 が出力される 特徴マップ 水平位置 レーン 境界線 存在 確率
  50. 50. レーン検出例 49 1522_000011_F_1499682784780_7634imgs_4 pts_resnet_adam_noline2frames_thre0.36.mo vを放映するか?
  51. 51. ネットワーク軽量化、エッジでの実行 • 深層学習ベースの検出は高性能だが、大規模な 積和演算が必要 • エッジデバイスで実行するには、 精度を保った まま積和演算数を減らす必要がある 50 精度 演算数
  52. 52. ネットワーク軽量化 ①畳み込みの分解 通常の畳み込み演算 3x3 x40 channel x 60フィルタ =21,600 合計で21,600x(WxH)回の掛け算 が必要 W H 入力 特徴マップ 出力 特徴マップ 40 3x3 例:40 channel入力 例:60 channel出力
  53. 53. ネットワーク軽量化 ①畳み込みの分解 (この例では)7.8倍の効率化! 畳み込み演算を2種類の軽量な畳み込みで近似 40 1x1 3x3 3x3 x40 channel =360 1x1 x40 channel x60 フィルタ =2400 合計で 2,760x(WxH)回の掛け算が必要 例:40 channel入力 W H 例:60 channel出力 W H ①チャネルごとの畳み込み ②チャネル方向の畳み込み 入力 特徴マップ 出力 特徴マップ
  54. 54. ネットワーク軽量化 ②枝刈り 53 不要な演算の枝刈り (pruning) 40 1x1 1x1 x40 channel x60 フィルタ =2400 W H 40 1x1 1x1 x40 channel x30 フィルタ =1200 W H フィルタの「重要性」判断器を 埋め込んで学習 (この例では)2.0倍 の効率化!
  55. 55. ネットワーク軽量化 結果 54 ベース ライン ①畳み込みの 分解 (fine-tuning) ②枝刈り
  56. 56. ネットワーク軽量化 結果 55 元ネットワーク 軽量化ネットワーク Tesla GPU エッジデバイス 精度を保ったままエッジデバイスでの動作に成功
  57. 57. まとめと展望 • 深層学習を用いたコンピュータビジョン技術は、画像分類、物体 検出、姿勢推定など、様々なタスクにて研究・応用されている • 深層学習と独自データを用い、ドライバー・車両環境のモニタリ ング技術を開発した • ネットワーク軽量化により、性能を維持したまま、車載エッジデ バイスでの動作を実現した • ドライバーの運転行動をメタデータ化し、危険運転低減につなげ ていく 56

×