東北大学先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太

菊池悠太
深層学習による画像認識と
データの話
2022/01/13
東北大学産学連携講義「先端技術の基礎と実践」

菊池悠太
経歴
- 2011年-2016年東京工業大学修士&博士
- 奥村・高村研究室で自然言語処理．主に文書要約について研究
- 2016年10月- 株式会社 Preferred Networks
- 2016年4月- アルバイトも
- 入社以降はほぼコンピュータビジョン関係の研究開発に従事
自己紹介
2
https://projects.preferred.jp/interactive-robot/ https://projects.preferred.jp/tidying-up-robot/

本日のお話
- 深層学習による画像認識
- 訓練データとその重要性について
- CGデータの活用
- おまけ: 訓練の自動化
3

深層学習による画像認識
お片付けロボットを例に
4

画像認識タスクの代表例
画像分類何が写ってるか
物体検出どこにあるか
セグメンテーション
どんな形状か
(画像生成) カテゴリ等から画像を生成する
「猫」
「猫」
cat
dog
5

画像認識タスクの代表例
画像分類何が写ってるか
物体検出どこにあるか
どんな形状か
(画像生成) カテゴリ等から画像を生成する
「猫」
「猫」
cat
dog
6
画像に対するこの正解情報を
訓練データとして用意する

画像認識タスクの比較
イメージ訓練データの作成コ
スト
モデルの複雑さ
(≒チューニングコ
スト)
活用できる場面
画像分類
低低
画像単位の分類で
十分なケース
物体検出
中高
物体形状は要らない
が、
位置・個数・種類等が
重要なケース
高中
物体や領域の形状が
重要なケース
および画像変換器とし
ての活用
「猫」
7
cat
dog

8
CEATEC2018のお片付けロボットデモ展示での認識結果の例（セグメンテーション）
お片付けロボットを支えた技術画像認識編

9
CEATEC JAPAN 2018
Oct 16–19, 2018
四日間のデモ期間中
止まらずに動き続けた
(ブース内が停電した時でも）

お片付けロボットの実現に必要な認識システム
● 数百種類の物体の位置・形状・種類が識別できること
● 物体の置かれ方や環境条件が変わっても安定して動作すること
従来システム(マッチングや色ベースの分類器など )の課題
- ルールの作り込みが大変
- 一部の物体にしか適用できない
- 乱雑に置かれる状況に弱い
深層学習によるブレイクスルー
- 訓練用データセットから自動でルールを獲得
- 高い汎用性・ロバスト性
- 高速な推論速度 (1GPUで0.1秒など)
10
収集した訓練データの例
入力(左)とその教師出力(右)

11

12

13
ただし...
←10万枚規模のデータを集めるのは大変
←それでも訓練データにない状況は解けないことも
←訓練には8GPUで数日といった時間がかかる

現実世界
機械学習モデル構築のおおまかな流れ
14

現実世界
撮影
15
photos from Kirillov et al., “Panoptic Segmentation”, CVPR2019

現実世界
撮影
16
アノテーション

現実世界
撮影
17
データセット

現実世界
撮影
18
データセット
モデル

現実世界
撮影
19
データセット
モデル
入力

現実世界
撮影
20
データセット
モデル
入力予測

現実世界
撮影
21
データセット
モデル
入力予測
正解

現実世界
撮影
22
データセット
モデル
入力予測
正解
間違い情報

現実世界
撮影
23
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム

現実世界
撮影
24
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練

頑健な認識のために，多種多様なデータを集める
25

26
照明条件の違い

27
カメラのスペックの違い

お片付けロボットデモでの認識エラー例
28
白いテーブル上に白い充電器の幻影
高密度な配置の際の認識抜け
マンゴー vs レモン
人間の誤認識
多種多様なデータを用意したつもりでも....

お片付けロボットデモでの認識エラー例
29
高密度な配置の際の認識抜け
マンゴー vs レモン
人間の誤認識
「白（似た）色の重なり」データが足りない？
白いテーブル上に白い充電器の幻影
訓練データに「人間」が足りない？
多種多様なデータを用意したつもりでも....

現実世界
撮影
データセット
僕たち大変では...

訓練データとその重要性について
31

アノテーションのコスト
ImageNet
最も有名なデータセット ? 1400万枚以上のラベル付き
画像
※よく訓練に使われているのはサブセットの100万枚
クラウドソーシングを活用し数万人が作業
（そうでなければ19年かかる試算）
32
CityScapes
車載カメラ画像のSemantic Segmentationデータ
セット
詳細な5000枚，簡易な20000枚のアノテーション
詳細なアノテーションには作業とチェックのために一枚
あたり平均1.5hかかったらしい
Marius et al., “The Cityscapes Dataset for Semantic Urban Scene Understanding”, CVPR2016
J. Deng et al., “ImageNet: A Large-Scale Hierarchical Image Database”, CVPR2009.
(photo from https://image-net.org/static_files/papers/ImageNet_2010.pdf )

訓練データの質の重要性
ラベル付けの一貫性，運用にあったシーンをちゃんとカバーできているかなど，
質の良い訓練データを用意することがとても大事（
↓では実際に実験も行っている）
33
Andrew Ng先生による「Data-Centric AI」など，データにフォーカスを当てる運動も [video] [slide]
（Neurips2021においてワークショップも開催 : Data-centric AI Workshop, https://datacentricai.org/ )
photos from https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps-From-Model-centric-to-Data-centric-AI.pdf

効率的なアノテーションのための工夫
例:
「効率的な特定物体アノテーションを
　実現するWebアプリケーションの開発」
　from 青山裕良さん
　　2021年度 PFN夏季インターンシップ
34
https://tech.preferred.jp/ja/blog/webapp-for-eﬃcien
t-image-annotation-of-products/
GUIの改善や訓練済みモデルの活用など，データの質を保ちつつアノテーション時間を縮め
るための様々な工夫が存在する

効率的なアノテーションのための工夫
ARなど，近年のスマートフォンなどデバイスの発展に合わせて効率的にデータを集める取り組みも
35
Laielli et al., “LabelAR: A Spatial Guidance Interface for Fast Computer Vision Image
Collection”, UIST2019
Ahmadyan et al., “Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild with
Pose Annotations”, arXiv2020

運用先にあったデータをしっかり作る
オープンなデータセットは存在するものの，実際の現場で頑健に動作する認識器を作りたい場合
はその要件に合わせて自前で訓練データを用意することになる
質の高いデータのために
- 機能の要件定義
- 運用環境に合ったデータ撮影
- アノテーションのルール整備
などをしっかり行うことが大事
　
36
お片付けロボットでは認
識器の訓練のために
10万枚規模のデータを
3,4ヶ月かけて集めた
どれ？

現実世界
撮影
データセット
僕たち大変では...
37

現実世界
撮影
データセット
アノテーションツールの
改善
すごい
ツール
ありがてぇ
38
クラウドソーシング
というかもうある程度の規模では
クラウドソーシングなど外注が
前提になるといって良い

現実世界
撮影
データセット
改善
すごい
ツール
ありがてぇ
39
ラベルなしデータの活用（本日は割愛）

現実世界
撮影
データセット
別の可能性？
シミュレータ（CG）の活用
改善
すごい
ツール
ありがてぇ
40
ラベルなしデータの活用（本日は割愛）

訓練データへのCGの活用
41

42
（ゲーム，シミュレータなど）
CGのレンダラーは，
「自分がなにをどこに描画しているか」
わかっている
描画しているものの種類ごとに異なる色で
塗りつぶせば，これまで見たアノテーション
画像と同じものが得られる
CGの利用

43
わかっている
CGの利用

44
わかっている
CGの利用

45
わかっている
CGの利用

46
わかっている
CGの利用

47
わかっている
画像と同じものが得られる　　
CGの利用

48
わかっている
CGの利用

The Matrix Awakens: An Unreal Engine 5 Experienceが話題に
https://www.unrealengine.com/ja/blog/introducing-the-matrix-awakens-an-unreal-engine-5-experience 49
リアルさだけじゃなく，こんな機能も

CGの訓練データへの活用
シミュレータによりCGデータを作成することのメリット
- アノテーションコストをかけずデータを生成可能
- 人手でアノテーションを付けるのが難しいデータの生成
- レアなイベント
- 危険な現場，シチュエーションの撮影
- 運用先でのデータの撮影が（建築前などで）不可能
ただし「現実とシミュレーションのギャップ」という課題も存在
50
Roberts et al., “Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding”, ICCV2021
Wang et al., “TartanAir: A Dataset to Push the
Limits of Visual SLAM”, IROS2020
Devaranjan et al., “Meta-Sim2: Unsupervised Learning of Scene Structure for
Synthetic Data Generation”, ECCV2020
Richer et al., “Playing for Data: Ground Truth from Computer Games”,
ECCV2016
↓この論文は 3Dアセットへの
アノテーションは人手でして
ることに注意．そこにはコス
トがかかるが，その後レンダ
リングした各 2D画像へのア
ノテーションが自動化され
る．

訓練データへのCGの活用
PFNでの取り組み
画像認識やその他様々な「CG，シミュレータの活用」
51

52
3Dスキャンで生成した高精細モデル
実物の写真
回転させた3Dモデル（低解像度） (gif) 3Dモデルのメッシュ構造 (gif)
高精細3Dモデル生成技術
https://www.preferred.jp/ja/news/pr20210310/

様々な訓練データをCGで生成
53
生成した3Dモデルを配置して，大量の多様な訓練データを生成可能

シミュレータ内で動作の検証も
54

55
55元素の
組み合わせ
に対応
(3000原子) 
2か月
0.3秒
従来と同程度の精度で
10万～1,000万倍
の計算速度
触媒、電池、潤滑油な
ど多様な開発に
利用可能
…and
more
ブラウザ上で
すぐに使用可能
第一原理計算結果を教師データとし、それを独自GNNで学
習モデルを構築したNeural Network Potential (NNP)
Matlantis: 超高速な原子レベルシミュレータ
https://matlantis.com/ja/

今日のお話
- 深層学習による画像認識
- お片付けロボットを例に
- 訓練データについて
- 質，量の大事さ
- アノテーションコスト
- クラウドソーシングやツールの改善
- CGの活用
- 訓練データの生成
- PFNでの取り組み
56

おまけ: 訓練の自動化
57

58
従来人手でやっていた部分を自動でやってくれるツールの発展
● ハイパーパラメータ自動最適化探索
　
● ネットワークアーキテクチャ探索（NAS）
○ ネットワーク構造に関する（ハイパーパラメータの）自動最適化
○ PFNでは，単純な精度向上だけでなく利用環境の制約（推論速度．メモリ使用量など）
も考慮したモデルのチューニングに NASを活用するための研究開発も行っている
● cf. “Neural Architecture Searchを用いたセマンティックセグメンテーションモデルの探索
”,
https://tech.preferred.jp/ja/blog/nas-semseg/
訓練の自動化の波
例:

59
　
”,
例:

現実世界
撮影
60
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練

現実世界
撮影
61
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練
ハイパーパラメタ
モデルやアルゴリズムの
挙動をコントロール

ハイパーパラメタの重要性
機械学習システムの性能はハイパーパラメタに左右されることが多い
62
不適切なハイパーパラメタによる物体検出適切なハイパーパラメタによる物体検出

現実世界
撮影
63
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練
どういう構造か決める

現実世界
撮影
64
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練
どういう方針，条件など
で訓練を進めるか決める

Optuna: ハイパーパラメータ自動最適化探索
●機械学習アルゴリズムの振る舞いを決める値
●機械学習アルゴリズムによって自動的に学習されない値
○ e.g., 多層パーセプトロンにおける層・ユニットの数
●大抵は人間が手動で適切な値を定める
65
をどうすればよいのかを．自動で求めてくれるのが

現実世界
撮影
68
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練
どういう方針，条件など
で訓練を進めるか決める

現実世界
撮影
69
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練
＜Optunaデス

70
　
”,
例:

71
ImageNetベンチマークの成績上位にはすでにNASが関わる手法が
https://paperswithcode.com/sota/image-classification-on-imagenet
Pham et al., "Meta Pseudo Labels", CVPR2021

現実世界
撮影
72
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練
＜Optunaデス

現実世界
撮影
73
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練
＜Optunaデス
＜NASデス

74
　
”,
例:

75
　
”,
例:
データさえ揃えれば，訓練を自動化する研究が進んできている

76
　
”,
例:
データさえ揃えれば，訓練を自動化する研究が進んできている

現実世界
撮影
77
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練
＜Optunaデス
＜NASデス
壁
壁
←???

現実世界
撮影
78
データセット
モデル
入力予測
正解
間違い情報
学習
アルゴリズム
訓練
＜Optunaデス
＜NASデス
CG?
壁
壁
←???

東北大学先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 東北大学先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太

Similar to 東北大学先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太 (20)

More from Preferred Networks

More from Preferred Networks (20)

Recently uploaded

Recently uploaded (10)