SlideShare a Scribd company logo
1 of 18
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Triplet Lossによる
Person Re-identification
株式会社ディー・エヌ・エー
システム本部 AIシステム部
西野 剛平 kohei.nishino@dena.com
2017/3/21
AI研究開発G 週次セミナー
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
カメラ間での同一人物の認識
 Person Re-Identification タスクとして、この分野は現在も盛んに研究
されている。
 Re-Identificationにおける代表的な2つのアプローチ
a) Identification model
b) Verification model
2
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Identification Model に関して
 概要
 1つの画像を入力、多クラス分類タスク
 欠点
 訓練の目的が予測手順と違うものである事。つまり、Loss関数を最
適化する事で得られる特徴ベクトルが2つ画像の類似性を直接説明して
いない事。また、1classあたりのデータ数が少ない場合はoverfittingに
なりやすい。
Tetsu Matsukawa, Einoshin Suzuki, Person Re-Identification Using CNN Features Learned from Combination of Attributes in Proceedings of International
Conference and Pattern Recognition (ICPR2016), pp.2429--2434, 2016
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Verification Model に関して
 概要
 2つの画像を入力。二値分類タスク、もしくは 類似度の回帰タスク
 欠点
 同一人物か否かという情報のみで訓練されるため、それ以外の有用な
情報が考慮されていない。画像間の関係性が弱い。
L. Wu, C. Shen, and A. v. d. Hengel, “Personnet: Person reidentification with deep convolutional neural networks,” arXiv preprint arXiv:1601.07255, 2016.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FaceNet: A Unified Embedding for Face Recognition and Clustering
 顔認証 (同一人物か?)、認識 (誰か?)、クラスタリングのための統一的な
システムとして Google Inc. のリサーチャーから CVPR2015で発表
 少なくとも発表された時点では顔認識の state of the art
 オープンソースAPIとして公開されている「OpenFace」もこの論文を元
に実装されている。
 顔画像を128次元の特徴ベクトルとして表現し、特徴ベクトル同士のユー
クリッド距離がそのまま類似度の評価となるような空間にマッピングする事
を目指す。
 Triplet Lossを採用
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Triplet Loss に関して
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Triplet Loss に関して
 入力画像xをd次元のユークリッド空間に埋め込む関数を表現
 d次元の超球面上に制約する。すなわち、
 目標
ある人物の画像 が 他人の任意の画像
との距離よりも、同じ人物 の他の全ての画像との距離
が近くなる事を保証したい。
※ αはマージン、Tは全ての可能なTripletの集合
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Triplet Loss に関して
 Loss Function
※ 全てのTripletに関して計算するのは現実的ではないので選択したい.
 Triplet選択方針の理想と実際
 ハードネガティブとハードポジティブを選びたい
 全データから計算してハードネガポジを選ぶのは計算量的に無理
 Tripletの現実的な選び方
 Hardest PositiveではなくPositiveは全部利用
 ランダムに選んだある部分集合内でのHardestNegativeを利用
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FaceNet の 評価
 学習
 800万人分の1億 〜 2億枚の顔画像データを使って学習する
 CNNは入力画像sizeが96X96〜224X224まで異なる6種類を使用
 評価関数
ある閾値dを与えた時に、同じ人物のペア同士のL2ノルムの2乗がd以下
となったペアの数 (true accept)
ある閾値dを与えた時に、違う人物のペア同士のL2ノルムの2乗がd以下
となったペアの数、つまり間違った数(false accept)
The false accept rate FAR(d)とThe validation rate VAL(d)で精度を評価
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FaceNet の 評価
 Personal Photos
 12,000枚の顔画像
 12,000^2(12000C2)から選んだ2枚のペアに対してFARとVAL
rateを計算
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
FaceNet の 評価
 Hold-out Test Set
 100万の顔画像
 20万ずつ5つに分けて、10万x10万の画像でFARとVAL rateを計算
※ FAR = 0.001の場合、±は5つのテストの誤差範囲
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Triplet LossでのRe-IDの実験
 データセットは CUHK02を使用
 人物の総数は1816人でそれぞれ2台のカメラで2枚ずつ撮影された
画像が用意されている。したがって、イメージ数は7264枚。
 1,816人, 7,264 imagesのデータを被らないようにTrainとValidに分割
 Train: 6,836 images (1,709人)
 Valid: 428 images (107人)
 Triplet Selection
 Anchorをcamera1の人物とした場合は、Positiveにはcamera2の同
一人物、Negativeにはcamera2の別の人物をランダムに選択 (Anchor
が逆の場合も同様)
Train,Valid合わせて7,264SetをMinibatch30セットとして、20Epoch回す
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Triplet LossでのRe-IDの実験
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Triplet LossでのRe-IDの実験
 ValidのLossが下がらない
 判別しようとしているIdentityの数に対してマージンの値が適切では
ない。小さすぎる可能性が高い。
 Tripletの選び方でNegativeが変わっていないため、特徴空間に適切
に配置されていない可能性が大。
 分離したいIdentityの数が少なすぎるため、そもそもこのLoss関数で
はPositiveの距離が縮まらない。
 下記のように改善
 Triplet Selectionの選び方を変更。ある部分集合の中でHardest
Negativeを選択し、パラメータ更新毎にNegativeが変わるようにする
。
 Triplet Loss Functionを見直し
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Triplet Loss Functionの見直し
 Person Re-Identification by Multi-Channel Parts-Based CNN with
Improved Triplet Loss Function (CVPR2016)
FaceNetのTripletLossでは、Negativeが十分な距離離れてしまうとLoss
が0となってしまい、Positiveはそれ以上近くならないパターンが発生しう
る。
 以下のようにPositive自体を近づける項をTripletLossに追加
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Triplet LossでのRe-IDの再実験
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Re-ID 再実験 画像確認
 428images (107人,カメラ2つ,1人あたりカメラ1つにつき2枚の画像)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
まとめおよび今後に関して
 Triplet-Lossを使ったRe-IDはそれなりの精度がでる事は確認できた。
 実際には連続フレームのカメラ映像からの人物特定タスクとなるため、ど
の画像を利用するのか、またocclusionをどうするかなど考えなければいけ
ない課題はまだまだありそうである。
 実証実験で取得したデータを使ってさらに学習を進められるような枠組み
(ツール含む)はきちんと考えておきたい。

More Related Content

What's hot

Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural RepresentationsDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 

What's hot (20)

Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
一般向けのDeep Learning
一般向けのDeep Learning一般向けのDeep Learning
一般向けのDeep Learning
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations【DL輪読会】WIRE: Wavelet Implicit Neural Representations
【DL輪読会】WIRE: Wavelet Implicit Neural Representations
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 

Similar to Triplet Lossによる Person Re-identification

ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~Kensuke Otsuki
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)Yusuke Uchida
 
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)nmaro
 
深層学習とTensorFlow入門
深層学習とTensorFlow入門深層学習とTensorFlow入門
深層学習とTensorFlow入門tak9029
 
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜Mao Yamaguchi
 
Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Plot Hong
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19Deep Learning JP
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成knjcode
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編Daiyu Hatakeyama
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜佑 甲野
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANsKentaro Tachibana
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
バイオイメージング研究のためのImageJによるデジタル画像解析法(2012年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析法(2012年6月版)バイオイメージング研究のためのImageJによるデジタル画像解析法(2012年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析法(2012年6月版)nmaro
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016Yota Ishida
 

Similar to Triplet Lossによる Person Re-identification (20)

ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析入門(2011年6月版)
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
深層学習とTensorFlow入門
深層学習とTensorFlow入門深層学習とTensorFlow入門
深層学習とTensorFlow入門
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
画像処理応用
画像処理応用画像処理応用
画像処理応用
 
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
 
Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介Crowd Counting & Detection論文紹介
Crowd Counting & Detection論文紹介
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
 
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編機械学習 / Deep Learning 大全 (1) 機械学習基礎編
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
 
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜強化学習技術とゲーム AI  〜 今できる事と今後できて欲しい事 〜
強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
バイオイメージング研究のためのImageJによるデジタル画像解析法(2012年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析法(2012年6月版)バイオイメージング研究のためのImageJによるデジタル画像解析法(2012年6月版)
バイオイメージング研究のためのImageJによるデジタル画像解析法(2012年6月版)
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
 

Triplet Lossによる Person Re-identification

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Triplet Lossによる Person Re-identification 株式会社ディー・エヌ・エー システム本部 AIシステム部 西野 剛平 kohei.nishino@dena.com 2017/3/21 AI研究開発G 週次セミナー
  • 2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. カメラ間での同一人物の認識  Person Re-Identification タスクとして、この分野は現在も盛んに研究 されている。  Re-Identificationにおける代表的な2つのアプローチ a) Identification model b) Verification model 2
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Identification Model に関して  概要  1つの画像を入力、多クラス分類タスク  欠点  訓練の目的が予測手順と違うものである事。つまり、Loss関数を最 適化する事で得られる特徴ベクトルが2つ画像の類似性を直接説明して いない事。また、1classあたりのデータ数が少ない場合はoverfittingに なりやすい。 Tetsu Matsukawa, Einoshin Suzuki, Person Re-Identification Using CNN Features Learned from Combination of Attributes in Proceedings of International Conference and Pattern Recognition (ICPR2016), pp.2429--2434, 2016
  • 4. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Verification Model に関して  概要  2つの画像を入力。二値分類タスク、もしくは 類似度の回帰タスク  欠点  同一人物か否かという情報のみで訓練されるため、それ以外の有用な 情報が考慮されていない。画像間の関係性が弱い。 L. Wu, C. Shen, and A. v. d. Hengel, “Personnet: Person reidentification with deep convolutional neural networks,” arXiv preprint arXiv:1601.07255, 2016.
  • 5. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FaceNet: A Unified Embedding for Face Recognition and Clustering  顔認証 (同一人物か?)、認識 (誰か?)、クラスタリングのための統一的な システムとして Google Inc. のリサーチャーから CVPR2015で発表  少なくとも発表された時点では顔認識の state of the art  オープンソースAPIとして公開されている「OpenFace」もこの論文を元 に実装されている。  顔画像を128次元の特徴ベクトルとして表現し、特徴ベクトル同士のユー クリッド距離がそのまま類似度の評価となるような空間にマッピングする事 を目指す。  Triplet Lossを採用
  • 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Triplet Loss に関して
  • 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Triplet Loss に関して  入力画像xをd次元のユークリッド空間に埋め込む関数を表現  d次元の超球面上に制約する。すなわち、  目標 ある人物の画像 が 他人の任意の画像 との距離よりも、同じ人物 の他の全ての画像との距離 が近くなる事を保証したい。 ※ αはマージン、Tは全ての可能なTripletの集合
  • 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Triplet Loss に関して  Loss Function ※ 全てのTripletに関して計算するのは現実的ではないので選択したい.  Triplet選択方針の理想と実際  ハードネガティブとハードポジティブを選びたい  全データから計算してハードネガポジを選ぶのは計算量的に無理  Tripletの現実的な選び方  Hardest PositiveではなくPositiveは全部利用  ランダムに選んだある部分集合内でのHardestNegativeを利用
  • 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FaceNet の 評価  学習  800万人分の1億 〜 2億枚の顔画像データを使って学習する  CNNは入力画像sizeが96X96〜224X224まで異なる6種類を使用  評価関数 ある閾値dを与えた時に、同じ人物のペア同士のL2ノルムの2乗がd以下 となったペアの数 (true accept) ある閾値dを与えた時に、違う人物のペア同士のL2ノルムの2乗がd以下 となったペアの数、つまり間違った数(false accept) The false accept rate FAR(d)とThe validation rate VAL(d)で精度を評価
  • 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FaceNet の 評価  Personal Photos  12,000枚の顔画像  12,000^2(12000C2)から選んだ2枚のペアに対してFARとVAL rateを計算
  • 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. FaceNet の 評価  Hold-out Test Set  100万の顔画像  20万ずつ5つに分けて、10万x10万の画像でFARとVAL rateを計算 ※ FAR = 0.001の場合、±は5つのテストの誤差範囲
  • 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Triplet LossでのRe-IDの実験  データセットは CUHK02を使用  人物の総数は1816人でそれぞれ2台のカメラで2枚ずつ撮影された 画像が用意されている。したがって、イメージ数は7264枚。  1,816人, 7,264 imagesのデータを被らないようにTrainとValidに分割  Train: 6,836 images (1,709人)  Valid: 428 images (107人)  Triplet Selection  Anchorをcamera1の人物とした場合は、Positiveにはcamera2の同 一人物、Negativeにはcamera2の別の人物をランダムに選択 (Anchor が逆の場合も同様) Train,Valid合わせて7,264SetをMinibatch30セットとして、20Epoch回す
  • 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Triplet LossでのRe-IDの実験
  • 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Triplet LossでのRe-IDの実験  ValidのLossが下がらない  判別しようとしているIdentityの数に対してマージンの値が適切では ない。小さすぎる可能性が高い。  Tripletの選び方でNegativeが変わっていないため、特徴空間に適切 に配置されていない可能性が大。  分離したいIdentityの数が少なすぎるため、そもそもこのLoss関数で はPositiveの距離が縮まらない。  下記のように改善  Triplet Selectionの選び方を変更。ある部分集合の中でHardest Negativeを選択し、パラメータ更新毎にNegativeが変わるようにする 。  Triplet Loss Functionを見直し
  • 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Triplet Loss Functionの見直し  Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss Function (CVPR2016) FaceNetのTripletLossでは、Negativeが十分な距離離れてしまうとLoss が0となってしまい、Positiveはそれ以上近くならないパターンが発生しう る。  以下のようにPositive自体を近づける項をTripletLossに追加
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Triplet LossでのRe-IDの再実験
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. Re-ID 再実験 画像確認  428images (107人,カメラ2つ,1人あたりカメラ1つにつき2枚の画像)
  • 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. まとめおよび今後に関して  Triplet-Lossを使ったRe-IDはそれなりの精度がでる事は確認できた。  実際には連続フレームのカメラ映像からの人物特定タスクとなるため、ど の画像を利用するのか、またocclusionをどうするかなど考えなければいけ ない課題はまだまだありそうである。  実証実験で取得したデータを使ってさらに学習を進められるような枠組み (ツール含む)はきちんと考えておきたい。