SlideShare a Scribd company logo
ディープラーニングと単語ベクトル
を用いた画像レコメンドの考察
2
• produce(農産物)
• strawberry
• fruit
• food
• plant
画像 判定結果
⇒ 精度もかなり高く判定できるように
※Google Cloud Vision API使用
DeepLearningを使った画像のカテゴリ分析
3
これを応用して
類似写真検索できないか?
4
でも課題あり・・・
5
類似画像判定:課題(1) – 複数カテゴリ
机?
ギター?
人? 椅子?
⇒ 実際の写真は複数カテゴリの組み合わせ
なので、これを全て加味する必要がある
6
類似画像判定:課題(2) – 類似のニュアンス
⇒ 「なんとなく似ている」という人間的な
ニュアンスを判定しなくてはいけない
類似?
7
これら課題の
解決案を考えてみた
8
R-CNN
+
単語ベクトル
9
⇒ 100枚の画像から似た画像を探す
10
類似画像検索 – 検証結果(1)
検索画像 結果
11
類似画像検索 – 検証結果(2)
検索画像 結果
12
今回使用したロジックや
理論・技術
13
類似画像検索ロジック
画像αに
おける
物体Aの
スコア
Deep Learningが
物体Aとして返した
Score
Max(= ☓
物体候補のPixel数
画像全体のPixel数
)
⇒画像内における物体の重要度
画像
ベクトル
=
各物体の
単語ベクトル ☓ 物体のスコアSum( )
⇒ 単語ベクトルと重要度を用いて画像をベクトル化
画像内物体数
1
☓
14
類似画像検索ロジック
類似画像 =
画像αの
画像ベクトル - 画像≠αの
画像ベクトル
Min(Sqrt(Sum( )**2)))
⇒ ユークリッド距離が最も⼩さいものを類似とする
15
類似画像検索ロジック
画像αに
おける
物体Aの
スコア
Deep Learningが
物体Aとして返した
Score
Max(= ☓
物体候補のPixel数
画像全体のPixel数
)
⇒画像内における物体の重要度
画像
ベクトル
=
各物体の
単語ベクトル ☓ 物体のスコアSum( )
⇒ 単語ベクトルと重要度を用いて画像をベクトル化
画像内物体数
1
☓
16
Girshick, R., Donahue, J., Darrell, T., & Malik, J. “Rich feature hierarchies for accurate object detection and semantic segmentation”. CVPR2014.
R-CNN: 複数カテゴリへの対応
物体候補を抜き出しそれぞれをCNNにかける
CNNの結果(Score)を元にオブジェクトを判別
(元はSVMで判定. 今回は前述のロジックで判別)
17
Jasper R. R. Uijlings, Koen E. A. van de Sande, Theo Gevers, Arnold W. M. Smeulders “Selective Search for Object Recognition”
Selective Search:物体候補の抜き出し
類似した領域をグルーピングして物体候補を抽出す
るアルゴリズム
DeepLearningと違って学習の必要がない
18
R-CNN: 複数カテゴリの抜き出しロジック
Input Image
物体候補
Selective
Search
19
R-CNN: 複数カテゴリの抜き出しロジック
物体候補
候補Pixel
/全体Pixel
0.1
0.05
0.07
DLによる
物体検知
Person: 95.0
Person: 70.0
Person: 80.0
☓
☓
☓
0.095
0.035
0.056
=
=
=
⇒ 最も値の大きい0.095をPersonのスコアとする
20
類似画像検索ロジック
画像αに
おける
物体Aの
スコア
Deep Learningが
物体Aとして返した
Score
Max(= ☓
物体候補のPixel数
画像全体のPixel数
)
⇒画像内における物体の重要度
画像
ベクトル
=
各物体の
単語ベクトル ☓ 物体のスコアSum( )
⇒ 単語ベクトルと重要度を用いて画像をベクトル化
画像内物体数
1
☓
21
単語ベクトルとは?
King + Woman = QUEEN
• 単語をベクトル(数値配列)にする技術
• 距離が近い単語は意味が似ており、遠いと似ていない
=>なんとなく類似というニュアンスが表現できる
• ベクトルになっているので単語の演算が可能になる
22
単語ベクトル(Word2Vec): ニュアンスを表現
• ベクトル化しているので重要度を乗じることが可能
• また平均をとることも可能
⇒ 画像内の物体ベクトル*スコアの平均を取れば画
像のベクトルとして扱える(はず)
factory
steel
sea
画像ベクトル
23
単語ベクトル(Word2Vec): ニュアンスを表現
物体 単語ベクトル
(0.1,0.2)
(0.8,0.7)
(0.01,0.01)
物体スコア
0.8
0.95
0.5
☓
☓
☓
=
=
=
⇒ 平均である(0.281,0.276)を画像ベクトルとする
実際は40次元
(0.08,0.16)
(0.76,0.665)
(0.005,0.005)
(
0.281
,0.276
)
24
類似画像検索ロジック
類似画像 =
画像αの
画像ベクトル - 画像≠αの
画像ベクトル
Min(Sqrt(Sum(( )**2)))
⇒ ユークリッド距離が最も⼩さいものを類似とする
⇒ 画像毎に算出ベクトル間の距離を測れば推薦可能
25
効果検証
検索画像 結果
• helicopter
• vehicle
• boeing ch 47
• aircraft
• rotorcraft
• tank
• military
• weapon
• vehicle
• combat vehicle
⇒ ⽂字列で一致したのはvehicleだけ
26
効果検証
他にVehicleが含まれていた写真
⇒ ベクトル化することにより軍隊関係が近いと判断
できており、ロジックが効果的に動作している
27
Pros/Cons
28
• 複数カテゴリの組合せの考慮
• 強調したい部分(大きさ、位置)の考慮
• なんとなく似ているというニュアンスの考慮
今回手法のメリット
29
今回手法の苦手な部分
• 芸能人やアニメなど固有名詞が重要な場合には対応が厳しい
• 上記例は全て”anime”となってしまう
• 同じ作品、キャラを類似として扱うことができない
削除
30
先⾏研究: Illustartion2vec
http://demo.illustration2vec.net/
• 個別の固有名詞がわかるような識別器を作れば解決できる
• ただし難易度は若⼲高め
削除
31
結論
(感想?)
32
Deep Learningもさることながら
Word2Vecの⼒が凄い
33
DeepLearning上の
Feature Mapで…というのはスマート
だけど曖昧さを許容させるためには
有効な手段ではないかと
34
ご清聴ありがとうございました

More Related Content

What's hot

【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
Deep Learning JP
 
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
 
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みData-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組み
Takeshi Suzuki
 
Ml system in_python
Ml system in_pythonMl system in_python
Ml system in_python
yusuke shibui
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
Kazuhiro Ota
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション
Deep Learning JP
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
harmonylab
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
Yusuke Uchida
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む
Hiroto Honda
 
AI勉強会用スライド
AI勉強会用スライドAI勉強会用スライド
AI勉強会用スライド
harmonylab
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII
 
Cvpr2021で発表されたvirtual try on まとめ
Cvpr2021で発表されたvirtual try on まとめCvpr2021で発表されたvirtual try on まとめ
Cvpr2021で発表されたvirtual try on まとめ
yuichi takeda
 
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
Toru Tamaki
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
Deep Learning JP
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
Deep Learning JP
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
Ryutaro Yamauchi
 
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
Deep Learning JP
 

What's hot (20)

【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
【DL輪読会】AuthenticAuthentic Volumetric Avatars from a Phone Scan
 
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
Data-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組みData-Centric AI開発における データ生成の取り組み
Data-Centric AI開発における データ生成の取り組み
 
Ml system in_python
Ml system in_pythonMl system in_python
Ml system in_python
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
社内論文読み会資料 Image-to-Image Retrieval by Learning Similarity between Scene Graphs
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション
 
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
SegFormer: Simple and Efficient Design for Semantic Segmentation with Transfo...
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む
 
AI勉強会用スライド
AI勉強会用スライドAI勉強会用スライド
AI勉強会用スライド
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 
Cvpr2021で発表されたvirtual try on まとめ
Cvpr2021で発表されたvirtual try on まとめCvpr2021で発表されたvirtual try on まとめ
Cvpr2021で発表されたvirtual try on まとめ
 
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
論文紹介:OneFormer: One Transformer To Rule Universal Image Segmentation
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation[DL輪読会]Graph R-CNN for Scene Graph Generation
[DL輪読会]Graph R-CNN for Scene Graph Generation
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
 
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
 

Recently uploaded

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 

Recently uploaded (8)

Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 

DeepLearningとWord2Vecを用いた画像レコメンドの考察