Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
「コンピュータビジョンと
イメージメディア(CVIM)」分野
の最新動向
春の情報処理祭り
2015.3.16
京都大学 橋本敦史
1
自己紹介
• 橋本敦史
– 京都大学博士(情報学)
– 出身: 札幌北高校
– 研究分野: 画像処理,パターン認識,HCI, 食メディア…
– 学会活動
• 情報処理学会 CVIM研究会 運営委員
• 信学会 マルチメディア・仮想環境基礎研究会...
本日の発表について
1. 技術的な詳細は省略
– 一部は資料へのリンクのみ提供
2. 皆さんのバックグラウンドとの出会いに期待
– 多くのトピックを紹介
3. 技術的限界なども省略
– 紹介する技術の多くは現在進行形
– コラボするなら相手(C...
CVIMってどんな分野?
コンピュータの中の世界と実世界をつなぐ窓
イメージング
デバイス
人ドライブレコード
端末
ネットワー
ク
診察・診断 街角
計算機の中の世界実世界
4
諸問題を極限まで一般化すると…
実世界の事象を計算機で扱える
記号/数値に変換する
計算機の中の世界実世界
観測 y
観測対象
推定値 x
5
諸問題を極限まで一般化すると…
実世界の事象を計算機で扱える
記号/数値に変換する
計算機の中の世界実世界
観測 y
観測対象
推定値 x
x = argmax F(y|x)
6
Computer Vision≒画像処理?
• 画像処理はComputer Visionの一部
– Computer Vision ⊃画像処理
• もちろん,最も重要な分野
– まずは画像処理について,範囲を絞って紹介
7
画像処理の多様な課題
• ノイズの除去
• カメラの動き推定
• ……
• 物体認識
– 画像中のどの領域が,何の物体なのか
物体認識領域分割
湯呑み
大葉
いくら
雲丹 8
物体領域の推定
計算機の中の世界実世界
観測 y 物体の場所+ラベル
背景差分/動き抽出
/画像中の物体検索
a
b
9
物体モデルの学習
90’年代
00’年代
10’年代
窓探索+物体認識
特徴点抽出+投票(ISM)
おおよその時期
物体領域の推定
背景差分 動き検出
RGBの比較
HLSの比較
最適色空間の学習
PCAによるモデル化
GMMによるモデル化
増...
物体認識
計算機の中の世界実世界
観測 y
+物体領域
商品名/人名/
物体名/ etc…
特徴抽出+識別器
http://www.publicdomainpictures.net/ 他
11
識別器物体特徴
90’年代
00’年代
10’年代
画素値そのもの + テンプレートマッチング
k-Nearest Neighbor
Real AdaBoost
Random Forest
Support Vector Machine
分類木
...
識別器物体特徴
90’年代
00’年代
10’年代
画素値そのもの + テンプレートマッチング
k-Nearest Neighbor
Real AdaBoost
Random Forest
Support Vector Machine
分類木
...
Convolutional Neural Network(CNN)
• いわゆる Deep Learning の画像処理版
– 地理的関係を考慮している(poolingなど)
• Deep Face などの応用が特に有名
– Yann LeCa...
Structure from Motion(SfM)
計算機の中の世界実世界
観測 y 観測yの各画素に対
する3D世界座標
Bundle Adjustment
Building Rome in a Day
15
Structure from Motion(SfM)
• Building Rome in a Day(ローマを一日で成す)
– http://grail.cs.washington.edu/rome/
• PTAM
– http://www....
勉強のための資料
• 画像処理全般
– コンピュータビジョン―アルゴリズムと応用―
– “Visual Object Detection, Recognition
and Tracking,” Yu Huang
• http://goo.gl/...
研究資源
• CV Datasets on the web
– http://www.cvpapers.com/datasets.html
• ImageNet (WordNetに対応した画像データセット)
– http://www.image...
Toolbox
1. OpenCV (c/c++)
– 画像処理全般を対象としたライブラリ
– 派生 scikit-image (python)
2. Caffe (python/c++)
– CNNのライブラリ.Mac/Linuxのみサポート...
観測できる世界はデバイスで変わる
イメージング
デバイス
人ドライブレコード
端末
ネットワー
ク
診察・診断 街角
計算機の中の世界実世界
20
イメージングデバイス
2D
3D
静止画 動画
デジカメ ビデオカメラ
ハイスピードカメラ
電子顕微鏡
多視点カメラ
X線
タイムフライトカメ
ラ
(Kinect v2)Shape from X
Femto Photography
可視光
赤外...
Computational Photography
イメージング
デバイス
人ドライブレコード
端末
ネットワー
ク
診察・診断 街角
計算機の中の世界実世界
計算機による処理を前提とした
特殊なデバイスの利用
22
Light Field Camera
Jason C. Yang et al., “A Real-Time Distributed Light Field
Camera,” Eurographics Workshop on Rendering ...
Light Field Display
Douglas Lanman David Luebke, “Near-Eye Light-Field Displays,” SIGGRAPH Asia 201324
CVIMってどんな分野?
より積極的に実世界へ働きかける
イメージング
デバイス
人ドライブレコード
端末
ネットワー
ク
診察・診断 街角
計算機の中の世界実世界
25
CVIMってどんな分野?
より積極的に実世界へ働きかける
イメージング
デバイス
人ドライブレコード
端末
ネットワー
ク
診察・診断 街角
計算機の中の世界実世界
プロジェクタ/照明/etc…
26
三次元形状計測(Shape from X)
• 様々なものを利用した三次元形状獲得手法
照度差ステレオ法
色は三次元表面
の法線方向
http://perception.csl.illinois.edu/
matrix-rank/stereo....
物体表面の光の反射の測定
Y. Mukaigawa et al. “Rapid BRDF measurement using an ellipsoidal mirror and a projector,”
IPSJ Transaction on...
実世界への上手い働きかけを考える
多くの問題は不良設定
→上手い拘束条件で可解な問題へ変換
計算機の中の世界実世界
観測 y
観測対象
推定値 x
観測対象へ
の働きかけ拘束条件など x = argmax F(y|x)
29
Xbox360 Kinect (2010)
赤外光(人には不可視)の
パターン光を照射
Shooting Kinect by HDR-XR500(Nightshot mode)
http://goo.gl/dDCvjC
- Kinect v2 ...
X + CV によるイノベーション
イメージング
デバイス
人ドライブレコード
端末
ネットワー
ク
診察・診断 街角
計算機の中の世界実世界
プロジェクタ/照明
31
X + CV によるイノベーション
イメージング
デバイス
人ドライブレコード
端末
ネットワー
ク
診察・診断 街角
計算機の中の世界実世界
プロジェクタ/照明
他の情報システム
32
技術(機械翻訳) + CV
• Translator (Microsoft)
– http://goo.gl/EU3GnB
文字候補領域の検出
領域をグループ毎に分ける
グループ毎の文認識
機械翻訳
the 1st workshop on Ro...
場(キッチン)+CV
物体へのアクセスに基づいた作業者意図感知ナビゲーション 34
場(キッチン)+CV
橋本他,”机上物体検出を対象とした接触理由付けによる誤検出棄却” 201235
場(キッチン)+CV
• 自然言語処理
– レシピや,レシピブログの解析
• VR
– 五感の錯覚による食感提示
– meta cookie++
• 医療
– 認知症患者へのリハビリ
– レコーディングダイエット支援(Food Logアプリ)
...
研究資源(2)
• Pascal-sentence
– http://vision.cs.uiuc.edu/pascal-sentences
• Kyoto Univ. Smart Kitchen Dataset(※
– 調理作業を多数のセンサ...
この分野に関連するセッション
• 初日 [3/17(火)]
– 距離画像処理: [1T会場] (9:30〜12:00, 学生)
– 画像解析・評価: [1D会場] (9:30〜12:00,一般)
– 画像特徴: [2P会場] (13:00〜15...
まとめ
• 画像処理
– 物体領域推定,物体認識,…
– Computational Photography
• 画像処理 + 実世界への働きかけ
– Shape from X
– 人間に不可視な光の投影
• 画像処理 + 実世界への働きかけ ...
Upcoming SlideShare
Loading in …5
×

春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

1,878 views

Published on

  • Be the first to comment

春の情報処理祭り 2015 [リクルートx情報処理学会] CVIM 橋本

  1. 1. 「コンピュータビジョンと イメージメディア(CVIM)」分野 の最新動向 春の情報処理祭り 2015.3.16 京都大学 橋本敦史 1
  2. 2. 自己紹介 • 橋本敦史 – 京都大学博士(情報学) – 出身: 札幌北高校 – 研究分野: 画像処理,パターン認識,HCI, 食メディア… – 学会活動 • 情報処理学会 CVIM研究会 運営委員 • 信学会 マルチメディア・仮想環境基礎研究会 専門委員 • 信学会 食メディア研究会 専門委員 – その他 • 経産省Vulcanus in Europe 2006 国費奨学生として独語の語 学研修(4ヶ月),独・Leica Camera社にてインターン(8ヶ月) 2
  3. 3. 本日の発表について 1. 技術的な詳細は省略 – 一部は資料へのリンクのみ提供 2. 皆さんのバックグラウンドとの出会いに期待 – 多くのトピックを紹介 3. 技術的限界なども省略 – 紹介する技術の多くは現在進行形 – コラボするなら相手(CVIMの研究者)側にとって もチャレンジングな方が良い. 3
  4. 4. CVIMってどんな分野? コンピュータの中の世界と実世界をつなぐ窓 イメージング デバイス 人ドライブレコード 端末 ネットワー ク 診察・診断 街角 計算機の中の世界実世界 4
  5. 5. 諸問題を極限まで一般化すると… 実世界の事象を計算機で扱える 記号/数値に変換する 計算機の中の世界実世界 観測 y 観測対象 推定値 x 5
  6. 6. 諸問題を極限まで一般化すると… 実世界の事象を計算機で扱える 記号/数値に変換する 計算機の中の世界実世界 観測 y 観測対象 推定値 x x = argmax F(y|x) 6
  7. 7. Computer Vision≒画像処理? • 画像処理はComputer Visionの一部 – Computer Vision ⊃画像処理 • もちろん,最も重要な分野 – まずは画像処理について,範囲を絞って紹介 7
  8. 8. 画像処理の多様な課題 • ノイズの除去 • カメラの動き推定 • …… • 物体認識 – 画像中のどの領域が,何の物体なのか 物体認識領域分割 湯呑み 大葉 いくら 雲丹 8
  9. 9. 物体領域の推定 計算機の中の世界実世界 観測 y 物体の場所+ラベル 背景差分/動き抽出 /画像中の物体検索 a b 9
  10. 10. 物体モデルの学習 90’年代 00’年代 10’年代 窓探索+物体認識 特徴点抽出+投票(ISM) おおよその時期 物体領域の推定 背景差分 動き検出 RGBの比較 HLSの比較 最適色空間の学習 PCAによるモデル化 GMMによるモデル化 増分符号相関(国産) TexCut(私の手法) フレーム間差分 点追跡結果の クラスタリング 肌色検出(人物領域の推定) Deformable Shape Model 10
  11. 11. 物体認識 計算機の中の世界実世界 観測 y +物体領域 商品名/人名/ 物体名/ etc… 特徴抽出+識別器 http://www.publicdomainpictures.net/ 他 11
  12. 12. 識別器物体特徴 90’年代 00’年代 10’年代 画素値そのもの + テンプレートマッチング k-Nearest Neighbor Real AdaBoost Random Forest Support Vector Machine 分類木 おおよその時期 Bag of Visual Words Convolutional Neural Network 色ヒストグラム フーリエ記述子 Hu Histogram ガボールフィルタバンク Wavelet Haar-Like特徴 Histgram of Oriented Gradient (HOG) 12
  13. 13. 識別器物体特徴 90’年代 00’年代 10’年代 画素値そのもの + テンプレートマッチング k-Nearest Neighbor Real AdaBoost Random Forest Support Vector Machine 分類木 おおよその時期 Bag of Visual Words Convolutional Neural Network 色ヒストグラム フーリエ記述子 Hu Histogram ガボールフィルタバンク/gist Wavelet Haar-Like特徴 Histgram of Oriented Gradient (HOG) OpenCVから簡単に利用可能 scikit-learn および libsvm 等から利用可能 Caffeから簡単に利用可能 13
  14. 14. Convolutional Neural Network(CNN) • いわゆる Deep Learning の画像処理版 – 地理的関係を考慮している(poolingなど) • Deep Face などの応用が特に有名 – Yann LeCan (Director of AI Research, Facebook ) “ImageNet Classification with Deep Convolutional Neural Networks”より引用 14
  15. 15. Structure from Motion(SfM) 計算機の中の世界実世界 観測 y 観測yの各画素に対 する3D世界座標 Bundle Adjustment Building Rome in a Day 15
  16. 16. Structure from Motion(SfM) • Building Rome in a Day(ローマを一日で成す) – http://grail.cs.washington.edu/rome/ • PTAM – http://www.robots.ox.ac.uk/~gk/PTAM/ • 鍵となる技術 – Bundle Adjustment (束調整) 16
  17. 17. 勉強のための資料 • 画像処理全般 – コンピュータビジョン―アルゴリズムと応用― – “Visual Object Detection, Recognition and Tracking,” Yu Huang • http://goo.gl/jgkgI8 (英語) • Convolutional Neural Network – Deep Learning 〜使いこなすために知っておきたいこと〜 (中部大・山下先生) • http://goo.gl/7hvCTR (日本語) (共立出版) 17
  18. 18. 研究資源 • CV Datasets on the web – http://www.cvpapers.com/datasets.html • ImageNet (WordNetに対応した画像データセット) – http://www.image-net.org/ • Kyoto Univ. Smart Kitchen Dataset – 調理作業のデータセット – CookPadのレシピ20種類に対応した作業 – http://kusk.mm.media.kyoto-u.ac.jp 18
  19. 19. Toolbox 1. OpenCV (c/c++) – 画像処理全般を対象としたライブラリ – 派生 scikit-image (python) 2. Caffe (python/c++) – CNNのライブラリ.Mac/Linuxのみサポート 3. Point Cloud Library (c/c++) – 3Dの点群データ処理に特化 19
  20. 20. 観測できる世界はデバイスで変わる イメージング デバイス 人ドライブレコード 端末 ネットワー ク 診察・診断 街角 計算機の中の世界実世界 20
  21. 21. イメージングデバイス 2D 3D 静止画 動画 デジカメ ビデオカメラ ハイスピードカメラ 電子顕微鏡 多視点カメラ X線 タイムフライトカメ ラ (Kinect v2)Shape from X Femto Photography 可視光 赤外線 紫外線 ハイパースペクトル 観測対象 観測機器/プロジェクタで取れるものが大きく変わる 磁気共鳴画像 … 21
  22. 22. Computational Photography イメージング デバイス 人ドライブレコード 端末 ネットワー ク 診察・診断 街角 計算機の中の世界実世界 計算機による処理を前提とした 特殊なデバイスの利用 22
  23. 23. Light Field Camera Jason C. Yang et al., “A Real-Time Distributed Light Field Camera,” Eurographics Workshop on Rendering 2002 - 少しずつ視点がずれた多数の低解像度のカメラ → 統合すると撮影後に自由に焦点を変えられる高解像度画像が 得られる(キーとなる技術: 超解像) - Depth from Defocusによる3次元画像取得 https://pictures.lytro.com/lytro https://www.lytro.com/ 23
  24. 24. Light Field Display Douglas Lanman David Luebke, “Near-Eye Light-Field Displays,” SIGGRAPH Asia 201324
  25. 25. CVIMってどんな分野? より積極的に実世界へ働きかける イメージング デバイス 人ドライブレコード 端末 ネットワー ク 診察・診断 街角 計算機の中の世界実世界 25
  26. 26. CVIMってどんな分野? より積極的に実世界へ働きかける イメージング デバイス 人ドライブレコード 端末 ネットワー ク 診察・診断 街角 計算機の中の世界実世界 プロジェクタ/照明/etc… 26
  27. 27. 三次元形状計測(Shape from X) • 様々なものを利用した三次元形状獲得手法 照度差ステレオ法 色は三次元表面 の法線方向 http://perception.csl.illinois.edu/ matrix-rank/stereo.html パターン光投影法 阿久澤ら,”ワンショットスキャン法による獲得 形状を利用した様々な姿勢を表現可能な 手形状モデルの構築” MIRU2012 27
  28. 28. 物体表面の光の反射の測定 Y. Mukaigawa et al. “Rapid BRDF measurement using an ellipsoidal mirror and a projector,” IPSJ Transaction on Computer Vision and Application CGの龍の表面に 実物体の材質の パラメータを設定 古いペニー 新しいペニー 28
  29. 29. 実世界への上手い働きかけを考える 多くの問題は不良設定 →上手い拘束条件で可解な問題へ変換 計算機の中の世界実世界 観測 y 観測対象 推定値 x 観測対象へ の働きかけ拘束条件など x = argmax F(y|x) 29
  30. 30. Xbox360 Kinect (2010) 赤外光(人には不可視)の パターン光を照射 Shooting Kinect by HDR-XR500(Nightshot mode) http://goo.gl/dDCvjC - Kinect v2 for windows (2014)では,この方式ではなく,Time of Flight方式に変更 - SDK: http://www.microsoft.com/en-us/kinectforwindows/develop/ 赤外パターン光 のプロジェクタ 赤外光カメラ RGBカメラ 三角測量 (画素毎に距離計測) https://www.youtube.com/watch?v= eCbURRDUUdI なりきりウルトラマンセブン 30
  31. 31. X + CV によるイノベーション イメージング デバイス 人ドライブレコード 端末 ネットワー ク 診察・診断 街角 計算機の中の世界実世界 プロジェクタ/照明 31
  32. 32. X + CV によるイノベーション イメージング デバイス 人ドライブレコード 端末 ネットワー ク 診察・診断 街角 計算機の中の世界実世界 プロジェクタ/照明 他の情報システム 32
  33. 33. 技術(機械翻訳) + CV • Translator (Microsoft) – http://goo.gl/EU3GnB 文字候補領域の検出 領域をグループ毎に分ける グループ毎の文認識 機械翻訳 the 1st workshop on Robust Reading in conjunction with ACCV2014 33
  34. 34. 場(キッチン)+CV 物体へのアクセスに基づいた作業者意図感知ナビゲーション 34
  35. 35. 場(キッチン)+CV 橋本他,”机上物体検出を対象とした接触理由付けによる誤検出棄却” 201235
  36. 36. 場(キッチン)+CV • 自然言語処理 – レシピや,レシピブログの解析 • VR – 五感の錯覚による食感提示 – meta cookie++ • 医療 – 認知症患者へのリハビリ – レコーディングダイエット支援(Food Logアプリ) 36
  37. 37. 研究資源(2) • Pascal-sentence – http://vision.cs.uiuc.edu/pascal-sentences • Kyoto Univ. Smart Kitchen Dataset(※ – 調理作業を多数のセンサで観測したデータセット • CookPadのレシピ20種類に対応した作業 • http://kusk.mm.media.kyoto-u.ac.jp – 対応する自然言語側のデータベースも. • http://plata.ar.media.kyoto- u.ac.jp/mori/research/NLR/FGC/main.html ※) A. Hashimoto et al,”KUSK Dataset: Toward a Direct. Understanding of Recipe Text and Human Cooking Activity, 2014 37
  38. 38. この分野に関連するセッション • 初日 [3/17(火)] – 距離画像処理: [1T会場] (9:30〜12:00, 学生) – 画像解析・評価: [1D会場] (9:30〜12:00,一般) – 画像特徴: [2P会場] (13:00〜15:30, 学生) • 二日目[3/18(水)] – 画像処理・認識: [3R会場] (9:30〜12:00, 学生) – ロボットビジョン: [3ZG会場] (9:30〜12:00, 学生) – 画像特徴抽出: [4C会場] (15:20〜17:50, 一般) • 三日目[3/19(木)] – 画像復元・評価: [5ZG会場] (9:30〜12:00, 学生) – 画像分析: [6Q会場] (14:40〜17:10, 学生) 38
  39. 39. まとめ • 画像処理 – 物体領域推定,物体認識,… – Computational Photography • 画像処理 + 実世界への働きかけ – Shape from X – 人間に不可視な光の投影 • 画像処理 + 実世界への働きかけ + X – CV + 技術 – CV + 場 39

×