ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016

2,348 views

Published on

ディープラーニングを用いた画像認識の動向と、オープンソースを用いたデータセット作成について、おそ松さんを題材として

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,348
On SlideShare
0
From Embeds
0
Number of Embeds
1,463
Actions
Shares
0
Downloads
11
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016

  1. 1. 画像チュートリアル 深層学習フレームワークChainerを用いた画像識別 ~ディープラーニングで おそ松さんの六つ子は見分けられるのか~ 株式会社ネクスト リッテルラボラトリー 石田 陽太 1Copyright(c) NEXT Co., Ltd. All Rights Reserved. FIT2016 第15回情報科学技術フォーラム 2016.09.07 富山大学
  2. 2. 2Copyright(c) NEXT Co., Ltd. All Rights Reserved. 自己紹介 › 石田 陽太 › 株式会社ネクスト › リッテルラボラトリー › 画像認識+住まい探し支援 コンテンツ画像 スタイル画像 A Neural Algorithm of Artistic Style, Leon A. Gatys, Alexander S. Ecker, Matthias Bethge, Sep 2015
  3. 3. 3Copyright(c) NEXT Co., Ltd. All Rights Reserved. 画像認識+住まい探し支援 研究の例 キッチン 97.3% リビング52.0% 間取り91.0% 風呂100.0% 物件画像の種別判定 キッチンの種別判定 正解:セクショナル 確信度:99.6% 正解:システム 確信度:99.9% 広さスコア 21.7 広さスコア 96.5 広さスコア 40.1 狭い 広い キッチンのワークスペース広さの推定 間取り画像の構造解析 壁検出 ドアの検 出
  4. 4. 4 Large Scale Visual Recognition Challenge 通称ILSVRC 大規模画像認識のコンペティション http://papers.nips.cc/paper/4824-imagenet-classification-with-deep- convolutional-neural-networks.pdf Classification and Localization タスク • 1000クラスの分類+位置特定 • 120万枚の訓練データ Detection タスク • 200クラスの物体検出 • 40万枚の訓練データ
  5. 5. 5 ILSVRC2012 ディープラーニングの衝撃 チーム Error 手法 SuperVision 0.15315 Deep CNN ISI 0.26172 FV + PA OZFORD_VGG 0.26979 FV + SVM XRCE/INRIA 0.27058 FV + SVM University of Amsterdam 0.29576 FV + SVM LEAR-XRCE 0.33419 FV + SVM http://www.image-net.org/challenges/LSVRC/2012/results.html http://www.slideshare.net/hokutokagaya/convolutional-neural-network-cv-35089848 ILSVRC 2012 Classification Result
  6. 6. 6 ILSVRC2012 ディープラーニングの衝撃 チーム Error 手法 Clarifai 0.11197 Deep CNN NUS 0.12953 SVM Based + Deep CNN ZF 0.13511 Deep CNN Andrew Howard 0.13555 Deep CNN OverFeat - NYU 0.14182 Deep CNN UvA-Euvision 0.14291 Deep CNN http://www.image-net.org/challenges/LSVRC/2013/results.html http://www.slideshare.net/hokutokagaya/convolutional-neural-network-cv-35089848 ILSVRC 2013 Classification Result
  7. 7. 畳み込みニューラルネットワーク › 畳み込みニューラルネットワーク (CNN) • 画像認識に特化したDeep Learningの手法 • 画像ラベルのスコアを推定する • 畳み込みとプーリングを繰り返す Image: https://clarifai.com/technology
  8. 8. 8 ILSVRC2012 SuperVision (AlexNet) ILSVRC2014 GoogLeNet ILSVRC2015 MSRA 各年のILSVRC Classificationの 最もerrorが低いモデル ImageNet Classification with Deep Convolutional Neural Networks [Alex+, 2012] Going deeper with convolutions[Christian+, 2014] Deep Residual Learning for Image Recognition [Kaiming+, 2015]
  9. 9. 9Copyright(c) NEXT Co., Ltd. All Rights Reserved. 画像認識パイプラインの変化 特徴抽出 高次特徴 に変換 識別 SIFT, SURF HOGなど BoVW, FVなど SVMなど ネコ ディープラーニング ネコ 特徴抽出から識別までを学習
  10. 10. 10 深層学習フレームワークの充実 順伝搬 逆伝搬 › 研究者に便利な機能 • 基本的な構造が実装済み • 誤差逆伝搬を自動でやってくれる › 多くのモデルを簡単に使える • 論文発表と同時にGithubで公開 • サンプルモデルとして実装 最新のモデルを簡単に使うことができる! Image: http://www.slideshare.net/unnonouno /chainer-56292907
  11. 11. 11Copyright(c) NEXT Co., Ltd. All Rights Reserved. › 一般物体認識 • ImageNet画像で学習済みのモデルを利用 • 各機械学習ライブラリで利用可能 › 特定のものを検出・識別したい • データセットの作成が必要 • 大量の画像と正解データが必要 • 数千枚オーダー ディープラーニングによる画像認識の利用 おそ松さんを通して、データセットの作成から 検出・識別を容易にできる方法
  12. 12. 12 1966年 アニメ おそ松くん
  13. 13. 13 2015年 アニメ おそ松さん 長男 おそ松 次男 カラ松 三男 チョロ松 四男 一松 五男 十四松 六男 トド松
  14. 14. 14 http://tunzaku.blog.so- net.ne.jp/_images/blog/_b46/tunzaku/E3818AE3819DE69DBE.jpg おそ松くん おそ松さん
  15. 15. 15 これは何松でしょうか? おそ松 カラ松 チョロ松 十四松 一松 トド松
  16. 16. 16 これは何松でしょうか? おそ松 カラ松 チョロ松 十四松 一松 トド松 正解:おそ松
  17. 17. 17http://lohas.nicoseiga.jp/thumb/5449224i?
  18. 18. 18 人の目でも見分けにくい おそ松さんの六つ子 ではディープラーニングで どの程度見分けられるのか?
  19. 19. 19 アニメから顔画像だけ切り取り 手作業で切り出していくのはコストが大きい
  20. 20. 20 おそ松さん判別器の作成について おそ松さん顔検出器の作成 (HOG+SVM) 判別用データセット 作成 おそ松さん識別器の作成 (CNN)
  21. 21. http://ultraist.hatenablog.com/entry/20110718/1310965532 › OpenCVの物体検出器 › Harr-like, LBP, HOGなどの特徴量を用いた検出器 顔の検出について 学習済みの検出器 アニメの顔不可 おそ松さん顔不可 検出器を作成する場合 大量の教師データが必要 画像と検出位置の組み合わせ 1千~1万枚程度 教師データの 作成コスト大 通常の顔検出器 アニメ顔検出器
  22. 22. 22 Dlib HOG+SVMによる物体検出器 http://gori-naru.blogspot.jp/2012/11/hog.html Structual SVM 顔 or Not 顔 HOG特徴量 (Histograms of Oriented Gradients) › Dlibの物体検出器 › HOG特徴量とSVMを用いた検出器 › 100枚程度の教師データで、ある程度の精度の検出器の作成 が可能
  23. 23. 23 › Dlibの物体検出器 › HOG特徴量とSVMを用いた検出器 › 100枚程度の教師データで、ある程度の精度の検出器の作成 が可能 画像名 顔個数 x座標 y座標 幅 高さ ・・・ osomatsu_ss/SS100.png 5 616 131 167 176 401 237 164 156 195 99 136 148 124 283 125 133 729 112 115 122 osomatsu_ss/SS101.png 1 595 76 461 467 osomatsu_ss/SS102.png 4 594 43 98 90 71 204 124 122 153 347 114 125 196 25 80 76 教師データ例 Dlib HOG+SVMによる物体検出器
  24. 24. 24 › SVMのパラメータCをグリッドサーチで パラメータチューニング › Recall重視のパラメータ採用 • Precisionは人手分類時に担保 物体検出器のパラメータチューニング 採用した 検出器の精度 Recall : 0.751 Precision: 0.863
  25. 25. 25 CNN用データセットを作る 動画を画像にする 検出器で顔だけ切り取り 顔画像生成 人手で顔を分類 おそ松さんデータセット
  26. 26. 26 CNN用データセットを作る 顔画像のみだと識別が困難 動画を画像にする 検出器で顔だけ切り取り 顔画像生成 人手で顔を分類 おそ松さんデータセット
  27. 27. 27 CNN用データセットを作る 文脈、位置関係、服の色、声などで マルチモーダルに識別できる 動画を画像にする 検出器で顔だけ切り取り 顔画像生成 人手で顔を分類 おそ松さんデータセット アニメがあれば人は
  28. 28. 28 CNN用データセットを作る アニメを見ながら スクリーンショット取る 自動で顔だけ切り取る その場で人手で顔を分類 おそ松さんデータセット おそ松 カラ松 チョロ松 一松 十四松 トド松 自動切り取り 手動分類
  29. 29. 29 おそ松さん判別器の作成について おそ松さん顔検出器の作成 (HOG+SVM) 判別用データセット 作成 おそ松さん識別器の作成 (CNN)
  30. 30. 30 Large Scale Visual Recognition Challenge 通称ILSVRC 大規模画像認識のコンペティション Classification and Localization タスク › Chainerのサンプルに入っているモデル › AlexNet ←ILSVRC2012で圧勝したモデル › GoogLeNet ←ILSVRC2014 トップのGoogleモデル › Network in Network ←GoogLeNetのベース
  31. 31. 31Copyright(c) NEXT Co., Ltd. All Rights Reserved. 学習データセットの作成 分類画像 各クラス約1000枚 画像パス クラス番号 image0001.jpg 0 image0002.jpg 1 image0003.jpg 2 image0004.jpg 3 image0005.jpg 4 train Test (validation) 7 3 平均画像 拡大 縮小 切り取り 256×256 画像
  32. 32. › nVIDIA GPUによる環境がほぼ必須 › CPU : 0.139 image/s (Core i7-6700) › GPU : 133 image/s (GeForce GTX Titan) › CUDA › nVIDIAのGPGPU技術 › AWSにGPUインスタンスあり 32Copyright(c) NEXT Co., Ltd. All Rights Reserved. ディープラーニングの学習環境について
  33. 33. 33 精度 おそ松さん識別の精度 : 0.861
  34. 34. 34Copyright(c) NEXT Co., Ltd. All Rights Reserved. 検出器と組み合わせ おそ松 カラ松 チョロ松 一松 十四松 トド松
  35. 35. 35Copyright(c) NEXT Co., Ltd. All Rights Reserved. おそ松 カラ松 チョロ松 一松 十四松 トド松
  36. 36. 36Copyright(c) NEXT Co., Ltd. All Rights Reserved. おそ松 カラ松 チョロ松 一松 十四松 トド松
  37. 37. 37Copyright(c) NEXT Co., Ltd. All Rights Reserved. 誤判定の例 おそ松 カラ松 チョロ松 十四松 一松 トド松 正解 チョロ松 識別結果 十四松 正解 おそ松 識別結果 十四松 口が影響か
  38. 38. 38Copyright(c) NEXT Co., Ltd. All Rights Reserved. 誤判定の例 おそ松 カラ松 チョロ松 十四松 一松 トド松 正解 チョロ松 識別結果 一松 半開きの目の影響?
  39. 39. 39Copyright(c) NEXT Co., Ltd. All Rights Reserved. テストデータにおける混同行列 おそ松 カラ松 チョロ松 一松 十四松 トド松 正解 判別結果 カラ松をおそ松に、おそ松をトド松に間違えやすい
  40. 40. 40Copyright(c) NEXT Co., Ltd. All Rights Reserved. 参考:人による判別精度と混同行列 おそ松 カラ松 チョロ松 一松 十四松 トド松 正解 判別結果 おそ松の精度が悪い ←特徴が少ないためか? n=300 5000枚以上 おそ松さん判別の 訓練を積んだ人間による CNN:0.861 人 :0.730
  41. 41. 41 ご清聴ありがとうございました。 おそ松さん顔検出器の作成 (HOG+SVM) 判別用データセット 作成 おそ松さん識別器の作成 (CNN) おそ松さん ディープラーニング 詳細な方法やツールなどは、ブログで公開しています。
  42. 42. › 国立情報学研究所 情報学研究データリポジトリ (IDR)にて、HOME`Sデータセットを提供中 • 『HOME’S』賃貸物件 約530万件分の情報 • 賃料、面積、立地(市区町村、郵便番号、最寄 り駅、徒歩分)、築年数、間取り、建物構造、 諸設備など • 物件画像データ 約8300万枚 • deep learning適用を想定した画像サイズ • 不動産会社が付与した属性データ(画像の種類、フ リーテキスト)を含む ~HOME’Sデータセット 概要~
  43. 43. • 物件画像データ 約8300万枚 ~HOME’Sデータセット 概要~ 周辺 17% 外観 11% 内装 11% 居間 7% 間取り 6% キッチン 5% 風呂 4% 玄関 3% 寝室 1% 設備 1% 収納 1% トイレ 1% 洗面 1% バルコニー 0% エントランス 0% 駐車場 0% 地図 0% 子供部屋 0% その他 28% 画像種別 枚数(万枚) 周辺 1413 外観 947 内装 941 居間 558 間取り 524 キッチン 453 風呂 364 玄関 269 寝室 89 設備 88 収納 85 トイレ 64 洗面 54 バルコニー 38 エントランス 38 駐車場 14 地図 12 子供部屋 2 その他 2299
  44. 44. › 5分割交差検証で精度検証 › SVMのパラメータCを グリッドサーチで パラメータチューニング 物体検出器のパラメータチューニング 採用した検出器の精度 Recall : 0.751 Precision: 0.863 データ セット 分割 学習 精度 精度 精度 精度 精度 平均 5分割交差 検証におけ る精度 テストデータ

×