Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

DeepLearningDay2016Spring

9,195 views

Published on

Heterogeneous Learning for Convolutional Neural Network

Published in: Technology
  • Be the first to comment

DeepLearningDay2016Spring

  1. 1. Heterogeneous Learning for Multi-task Facial Analysis Using Single Deep Convolutional Network 山下 隆義
  2. 2. MPRGについて Machine  Perception  and  Robotics  Group 2 2014年度 学科を超えた研究グループを発足 藤吉弘亘教授 山下隆義講師 山内悠嗣助手 教員3名 博士課程後期 2名 博士課程前期 2名 秘書1名 学部4年生 19名 ロボット理工学科 ロボット理工学科 情報工学科
  3. 3. MPRGについて Machine  Perception  and  Robotics  Group 3 http://mprg.jp
  4. 4. MPRGについて Machine  Perception  and  Robotics  Group 4 機械知覚 ロボティクス
  5. 5. MPRGについて Machine  Perception  and  Robotics  Group 5 機械知覚 ロボティクス ディープラーニング,SVMなどの 機械学習による画像認識 内積演算のバイナリ処理化によるSVMの高速化
  6. 6. MPRGについて Machine  Perception  and  Robotics  Group 6 機械知覚 ロボティクス 産業・生活支援ロボットのための 画像認識 ピッキングアイテムの認識 (Amazon  Picking  Challenge)
  7. 7. MPRGについて Machine  Perception  and  Robotics  Group 7 機械知覚 ロボティクス 産業・生活支援ロボットのための 画像認識 Weighted  Hough  Forestによる把持判定・追加学習
  8. 8. ディープラーニングに関する研究 検出 回帰 セグメンテーション 歩行者検出 シーンラベリング 顔器官検出 姿勢推定 手領域抽出 顔ラベリング 8 認識 標識認識 文字認識 一般物体認識 一般物体検出 車両検出 eep Convolutional Neural Network による画像認識 I) ワークを複数生成して識別 ・顔器官点検出  -Deep Convolutional Neural Network を回帰問題に適応  - 出力層で各器官点の座標値を推定 山下 2014] ep Convolutional Neural Network ・シーンラベリング - ラベルマップを用いて各画素のシーンを認識 - CNN の出力層は各画素に対応 求めることで 0.23 0.77 0.42 0.58 0.15 0.85 0.23 0.42 0.15Neg 0.77 0.58 0.85 Pos 複数の ネットワーク ソートした 各クラスの出力値 各ネットワーク の出力値 出力層 路上物体 道路 水 空 山 草 木 建物 対象クラス 左目の 左目の左目 唇の右端入力画像 各器官点の座標値を出力 あり Curriculum Learning 1 番目の 畳み込み層 無し
  9. 9. ディープラーニングに関する研究 検出 回帰 セグメンテーション 歩行者検出 シーンラベリング 顔器官検出 姿勢推定 手領域抽出 顔ラベリング 9 認識 標識認識 文字認識 一般物体認識 一般物体検出 車両検出 eep Convolutional Neural Network による画像認識 I) ワークを複数生成して識別 ・顔器官点検出  -Deep Convolutional Neural Network を回帰問題に適応  - 出力層で各器官点の座標値を推定 山下 2014] ep Convolutional Neural Network ・シーンラベリング - ラベルマップを用いて各画素のシーンを認識 - CNN の出力層は各画素に対応 求めることで 0.23 0.77 0.42 0.58 0.15 0.85 0.23 0.42 0.15Neg 0.77 0.58 0.85 Pos 複数の ネットワーク ソートした 各クラスの出力値 各ネットワーク の出力値 出力層 路上物体 道路 水 空 山 草 木 建物 対象クラス 左目の 左目の左目 唇の右端入力画像 各器官点の座標値を出力 あり Curriculum Learning 1 番目の 畳み込み層 無し 様々なタスクを効率的に 行うには?
  10. 10. ヘテロジニアスラーニング 10
  11. 11. GTCでの発表 11 Fast  Forward  Poster  (top  20)
  12. 12. GTCでの発表 12 Fast  Forward  Poster  (top  20)
  13. 13. GTCでの発表 13
  14. 14. ヘテロジニアスラーニング(1) [加藤,  MIRU2015,  GTC2016] 異なるタスク(認識と回帰)を1つのネットワークで行う 各タスクに学習誤差関数を設定 各タスクから得られた誤差を逆伝播して学習 単一のDCNNの計算コストで複数タスクの識別が可能 顔器官点検出 年齢推定 性別認識 14
  15. 15. ヘテロジニアスラーニング(2) [加藤,  MIRU2015,  GTC2016] 複数の回帰推定タスクと認識タスクを単一のDCNNで学習 各タスクに学習誤差関数を設定 各タスクから得られた誤差を逆伝播して学習 単一のDCNNの計算コストで複数タスクの識別が可能 顔器官点検出 年齢推定 性別認識 学習誤差のばらつきが大きい 15
  16. 16. 重み付きヘテロジニアスラーニング(1) [山下,  GTC2016] 学習誤差のばらつきを抑制するタスク重みを導入 サブタスク 基準タスク (顔器官点) 基準タスク : 学習誤差が最小かつ安定しているタスク サブタスク :  基準タスク以外のタスク 基準タスク以外のサブタスクに対して重み係数を付与 16
  17. 17. 重み付きヘテロジニアスラーニング(2) [山下,  GTC2016] 単一タスクの事前学習によりタスクを分類し,重み付け 17 10 2 3 4 5 6 7 8 9 10 -6 0 -2 -4 -8 10 10 10 10 10 10 2 3 4 5 6 7 8 9 10 -6 0 -2 -4 -8 10 10 10 10 10 ・・・ ・・・ ・・・ 10 2 3 4 5 6 7 8 9 10 -6 0 -2 -4 -8 10 10 10 10 10 N =2.1 x 10 N =2.8 x 10 N =8.9 x 10 -4 -3 -2 Facial point detection Age estimation Gender recognition Calcurate training error and baseline NTraining for single task CNN Select basis task Basis task Subtask Subtask t t t
  18. 18. 重み付きヘテロジニアスラーニング(3) [山下,  GTC2016] 重み導入により学習誤差のばらつきを抑制 導入前 18 導入後
  19. 19. 比較実験 [山下,  GTC2016] 単一タスクと比較して同等以上の識別性能を実現 40 50 60 70 80 90 100 左目 右目 鼻 口左 口右 平均 性別 年齢 人種 笑顔度 全体 識別率[%] 単一のDCNN 従来法 提案手法 19
  20. 20. 認識結果例(1) [加藤,  MIRU2015,  GTC2016] 20
  21. 21. 認識結果例(2) [加藤,  MIRU2015,  GTC2016] 21
  22. 22. Jetson TX1への実装 22
  23. 23. ヘテロジニアスラーニングの応用(1) ヘテロジニアスラーニングによる歩行者検出と部位推定 1 0.0001 0.001 0.01 0.1 1 10 MissRate False Positive per Image 回帰型DCNN 31.77% 単体のDCNN 38.38%   0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 Daimler  Mono-­‐Pedestrian  Benchmark  Dataset の評価結果 距離[m] 距離推定結果[m] 誤差[%] 5 4.89 2.2 10 9.26 5.3 15 14.12 5.8 [山下,  SSII2015] 23
  24. 24. ヘテロジニアスラーニングの応用(2) 歩行者の属性推定 24 Task.2 身体の向き推定 Task.3 顔の向き推定 Task.4 性別認識 Task.5 傘の所持認識 Task.1 歩行者部位位置推定 全結合層 傘をさしているか 男性 女性 : 歩行者部位検出 ( 頭と両足 ) 身体の向き ( 前 , 後 , 左 , 右 ) 顔の向き ( 前 , 後 , 左 , 右 ) 識別するタスク [Fukui,  2016]
  25. 25. ヘテロジニアスラーニングの応用(3) 把持物体の検出と把持位置推定 [長谷川,  SSII2016] 25 入力層 距離画像 カラー画像 RGBD画像 全結合層 出力層 物体検出ユニット 把持位置 検出ユニット Convolution層 Pooling層 Convolution層 Pooling層
  26. 26. その他の研究事例 26
  27. 27. ディープラーニングに関する研究 検出 回帰 セグメンテーション 歩行者検出 シーンラベリング 顔器官検出 姿勢推定 手領域抽出 顔ラベリング 27 認識 標識認識 文字認識 一般物体認識 一般物体検出 車両検出 eep Convolutional Neural Network による画像認識 I) ワークを複数生成して識別 ・顔器官点検出  -Deep Convolutional Neural Network を回帰問題に適応  - 出力層で各器官点の座標値を推定 山下 2014] ep Convolutional Neural Network ・シーンラベリング - ラベルマップを用いて各画素のシーンを認識 - CNN の出力層は各画素に対応 求めることで 0.23 0.77 0.42 0.58 0.15 0.85 0.23 0.42 0.15Neg 0.77 0.58 0.85 Pos 複数の ネットワーク ソートした 各クラスの出力値 各ネットワーク の出力値 出力層 路上物体 道路 水 空 山 草 木 建物 対象クラス 左目の 左目の左目 唇の右端入力画像 各器官点の座標値を出力 あり Curriculum Learning 1 番目の 畳み込み層 無し
  28. 28. 動画像解析(行動認識) 28
  29. 29. CNNとRNN(LSTM)による自己運動推定(1) 29 手法 認識率[%] カラー画像 可視化画像 カラー+可視化 C-­RNN(2段階学習) 30.71 84.52 61.00 C-­RNN(End-­to-­End) 49.66 82.66 73.57 DCNN 28.47 81.52 48.90 RNN 35.71 71.71 67.57 [川口,  2016]
  30. 30. CNNとRNN(LSTM)による自己運動推定(2) 自動車の移動推定 30[川口,  2016]
  31. 31. まとめ 複数の異なるタスクを1つのネットワークで実行 ヘテロジニアスラーニング 重み付き学習を導入することで単一タスクと同等性能 応用事例 顔属性推定 歩行者属性 歩行者検出 把持位置検出 その他の研究事例 セグメンテーション 行動認識 31 @takayosiy 山下隆義 yamashita@cs.chubu.ac.jp

×