料理及び店舗の画像に対するCNNを用いた印象語の推定に関する研究

料理および店舗の画像に対するCNN
を用いた印象語の推定に関する研究
北海道大学工学部情報エレクトロニクス学科
情報理工学コース調和系工学研究室
学部4年町田稜平
1

研究背景
飲食店検索サービスの現状
– 営業日や料理名などの客観的情報を元に飲食店を検索可能
– 課題（検索サービス運営会社への事前調査）
• より主観的な印象語に基づく検索のニーズが高い
• 現状の印象語検索はユーザの要求と検索結果にズレが存在
2
「おしゃれ」、「大人向け」等
個人差はあるが受け手の間で一定の共通認識がある語句
食べログ(https://tabelog.com/)

研究背景
飲食店検索サービス上の印象に関する情報
– 料理および店舗の画像
• ユーザはサイト上の画像を見て所望の印象と一致するかを判断
3
https://tabelog.com/kanagawa/A1405/A140501/14063889/
(Accessed on 2019-02-01)
https://tabelog.com/kyoto/A2601/A260201/26031174/
(Accessed on 2019-02-01)
本研究の目的料理や店舗の画像から印象語の推定

研究目的
従来研究
– 店舗画像から「大人向け」などの印象語を推定する研究[1]
• 「おしゃれ」「インスタ映え」などのより抽象度の高い印象語の
推定精度は低い
– クラウドソーシングなどアノテーションの信頼性が低い場合に、
複数のアノテーション結果から正しいラベルを推測する研究[2]
本研究
– 検索のニーズが高い30の印象語について学習を行う
– 時間的・人数的コストのため、代表として6人の専門学校生にア
ノテーションを依頼した
– 異なるアノテーション結果を学習するために様々な手法を適用し、
比較実験を行う
4
[1]. Varshneya D. et al. Restaurant Attribute classiﬁcation using Deep Learning. 2016 IEEE Annual India Conference. (2016) pp:1-6
[2]. Raykar V. C. et al. Learning From Crowds. Machine Learning Research 11. (2016) pp:1297-1322
本研究の目的料理や店舗の画像から印象語の推定

研究アプローチ
1. 画像に印象語のラベルを付与
– 事前調査をもとに選定した30の印象語に関連する画像を収集
– 印象語の個人差を考慮した複数人によるアノテーション
2. 画像と印象語の関係をCNNを用いて学習
– 複数人でアノテーションしたデータを学習
1. ラベルを一つに統合し、それが真のラベルに等しいと仮定して学習
1. 一人でも正例と判断すれば正例とする
2. 二人以上正例と判断すれば正例とする
3. 三人が正例と判断すれば正例とする
2. 複数のアノテーション結果をそれぞれの画像-ラベル対に分解し、
3倍に拡張したデータの分類問題として学習
– 手法の比較実験
5

学習させる印象語の選定
次の3点を考慮し30種類の印象語を選択
– 検索のニーズが高い（検索サービス運営会社への事前調査）
– 十分な枚数の関連画像を収集可能
– 先行研究[1]で精度の低かった抽象度の高い印象語
6
料理の印象お店の印象
こってり女子会おしゃれ
あっさりデートかわいい
ふわふわ家族インスタ映え
大きいひとり大人
小さい接待隠れ家
大盛り合コンゆったり
デカ盛り宴会穴場
おしゃれカップル高級
かわいい子連れ夜景
インスタ映え記念日絶景
[1]. Varshneya D. et al. Restaurant Attribute classiﬁcation using Deep Learning. 2016 IEEE Annual India Conference. (2016) pp:1-6

画像の準備
飲食店の口コミサイト「食べログ」で投稿された画像に付けられたキャ
プションから、各印象語の候補画像を収集し複数人でアノテーションを
行う
7
）
例: 「大盛り」の候補画像の収集
ユーザーの投稿
牛丼おかず、
ご飯 800円
追加
大盛り
ふわふわ
宴会
アノテーション

画像に対するアノテーション
各々の印象語に対して1200枚の候補画像を用意
8
・個人差が大きいため複数人でアノテーションを行う
・アノテータの人数を増やすため，画像を半分ずつに分け，
それぞれ3人でアノテーションを行う
事前実験で画像枚数と精度の関係を調査し，1200枚で正解率収束

アノテーション結果の解析１
アノテーションに正例が付与された割合
9
料理の印象語
各アノテータ
全員
1 2 3 4 5 6
小さい 0.50 0.64 0.49 0.71 0.54 0.47 0.56
かわいい 0.31 0.73 0.75 0.70 0.77 0.86 0.69
大きい 0.44 0.65 0.58 0.85 0.48 0.37 0.56
デカ盛り 0.57 0.73 0.65 0.81 0.62 0.71 0.68
ふわふわ 0.58 0.79 0.69 0.84 0.63 0.76 0.71
おしゃれ 0.71 0.80 0.79 0.91 0.65 0.86 0.79
大盛り 0.87 0.86 0.82 0.81 0.85 0.94 0.86
あっさり 0.73 0.82 0.78 0.81 0.84 0.84 0.80
インスタ映え 0.61 0.75 0.80 0.85 0.64 0.89 0.76
こってり 0.90 0.88 0.84 0.84 0.84 0.93 0.87
印象語が有する個人差という性質によって、正例の割合がアノテータごとに異
なっている。

アノテーション結果の解析１ 10
店舗の印象語
各アノテータ
全員
1 2 3 4 5 6
高級 0.49 0.78 0.39 0.81 0.68 0.75 0.65
子連れ 0.51 0.42 0.44 0.68 0.53 0.54 0.52
大人 0.28 0.72 0.77 0.77 0.67 0.63 0.64
かわいい 0.71 0.83 0.52 0.78 0.66 0.72 0.70
女子会 0.55 0.91 0.79 0.91 0.73 0.87 0.79
インスタ映え 0.90 0.75 0.74 0.82 0.65 0.74 0.76
隠れ家 0.83 0.86 0.69 0.75 0.73 0.88 0.79
絶景 0.68 0.65 0.56 0.75 0.74 0.78 0.69
穴場 0.81 0.83 0.73 0.75 0.69 0.86 0.78
ひとり 0.57 0.76 0.78 0.82 0.78 0.81 0.75
夜景 0.73 0.56 0.80 0.84 0.80 0.85 0.76
おしゃれ 0.69 0.88 0.80 0.82 0.80 0.72 0.78
記念日 0.65 0.74 0.74 0.82 0.73 0.74 0.74
家族 0.56 0.71 0.64 0.79 0.63 0.70 0.67
デート 0.80 0.89 0.83 0.80 0.80 0.74 0.81
宴会 0.79 0.89 0.83 0.76 0.86 0.83 0.83
ゆったり 0.82 0.93 0.81 0.79 0.79 0.90 0.84
接待 0.87 0.78 0.89 0.84 0.83 0.90 0.85
合コン 0.92 0.82 0.86 0.81 0.79 0.85 0.84
カップル 0.83 0.91 0.84 0.78 0.83 0.89 0.84

アノテーション結果の解析２
アノテーション判断の全員一致率
– それぞれの画像は3人のアノテータにより判断される
– 3人全員が正例または負例とした画像の割合を全員一致率と定義
全員一致率の内訳
– 平均：64%
– 最小値：41% （料理画像に対する「大きい」）
– 最大値：78.3% （店舗画像に対する「合コン」）
11
印象語全員一致率
合コン 0.783
こってり 0.777
カップル 0.756
デカ盛り 0.498
小さい 0.483
大きい 0.408
⋮
印象語の一覧
（一致率順）
料理の量に関する印象語は一
致率が低い = 個人差が大きい

アノテーション結果の解析３
アノテータのグループ間の全員一致率を比較
– 各印象語にアノテーションは2グループで600枚ずつ付与
– グループ１とグループ2は重複しないアノテータにより構成される
グループ間で全員一致率の異なる印象語が存在
12
子連れ
大人
大きい

アノテーション結果の解析４
• 正例のデータのうち3人の意見が一致している画像の割合と、負
例のデータで意見が一致している割合の関係
13
アノテータ1が
正例と判断した
割合が低い
アノテータ6が正例と
判断した割合が高い
全員一致率が低い印象語 = アノテータ間の個人差が大きい

学習方法
• CNN(畳み込みニューラルネットワーク)が画像認識のデファクトスタ
ンダードとなっており、2012年以降は画像認識の性能を競うILSVRC
においてCNNを用いた学習器が常に上位を維持している
• 先行研究[1]ではVGG16[2],Inception-v3[3],Resnet[4]を用いて印象語を
推定し、Resnetが最も高い精度
• Resnet-50: 従来のCNNの構造にShortcut-connectionを導入することで、
膨大な数の層を持つ安定なニューラルネットワークを実現
• 本研究では1200枚の画像を8:2に分割し訓練用(960枚)、
評価用(240枚)としてResnet-50の学習を行う
14
Shortcut
connection
[1]神戸瑞樹, 横山想一郎, 山下倫央, 川村秀憲. CNNを用いた服飾画像に対するアノテーションの学
習に関する研究(2018)
[2]Karen Simonyan and Andrew Zisseman. Very Deep Convolutional Networks for Large-Scale
Image Recogniton Sep.2014
[3]Cristian Szegedy,Vincent Vanhoucke,Sergey loffe,Jonathon Shlens, and Zbigniew Wojna.
Rethinking the Inception Architecture for Computer Vision.dec 2015
[4] Hem Kaiming et al. Identity mappings in deep residual networks, arXiv:1603.05027 (2016)

アノテーションの学習 15
かわいい？
真のラベル
観測不可
真のラベルを大衆の半数以上が一致する意見とする
真のラベルを推測したいが、観測できないのでアノテーション結果を用いて
近似的に学習を行う
かわいい
アノテーション結果
観測可
かわいくない
かわいい
学習方法
1. 統合したラベルが真のラベルに等しいと仮定
して学習
1. 一人でも正例と判断すれば正例とする
2. 二人以上正例と判断すれば正例とする
3. 三人が正例と判断すれば正例とする
2. アノテーション結果は真のラベルの近似と仮
定し、アノテーション結果をそのまま学習
真のラベルの近似

①ラベルを一つに統合し、それが真のラベルに等しいと仮定して学習
学習ラベル
1-A:
一人でも正例と判断
すれば正例とする
かわいい
観測可
かわいい
かわいくない
かわいい
1-B:
二人以上正例と判断
1-C:
三人が正例と判断
かわいくない
かわいい
かわいい
観測可
かわいい
かわいくない
かわいい
観測可
かわいい
かわいくない

②複数のアノテーション結果をそれぞれの画像-ラベル対に分解し、3倍
に拡張したデータの分類問題として学習
分解
アノテーション結果は真のラベルの近似と仮定して学習
かわいい
観測可
かわいい
かわいくない
かわいい
かわいくない
かわいい

評価手法 18
アノテーション結果が真のラベルの近似であると仮定して、CNNの出力結
果とアノテーション結果の一致率の平均(E)を用いて評価
一致率 =
1
3
1 + 1 + 0 =
2
3
個人によりアノテーション結果が異なるので、平均一致率は1にはなり得な
い。
→各印象語ごとにおける平均一致率の上界Emaxを計算
𝐸 𝑚𝑎𝑥 = max(𝐸 𝐶𝑁𝑁 )
かわいい？
真のラベル
利用できない
かわいい
評価に利用
かわいくない
かわいい
かわいい
CNNの出力
比較

学習結果
平均一致率（料理の印象）
19
手法
あっさ
り
デカ盛
り
ふわふ
わ
インス
タ映え
かわい
い
こって
り
大きい大盛りおしゃ
れ
小さい
1A 0.777 0.688 0.797 0.807 0.711 0.873 0.587 0.864 0.756 0.607
1B 0.826 0.734 0.781 0.789 0.726 0.874 0.606 0.851 0.781 0.674
1C 0.641 0.578 0.669 0.738 0.619 0.841 0.585 0.713 0.698 0.545
2 0.826 0.730 0.754 0.772 0.728 0.848 0.652 0.816 0.752 0.679
Emax 0.894 0.833 0.880 0.905 0.866 0.926 0.803 0.899 0.882 0.826
印象語ごとに最適な手法が異なる
印象語の性質の違いが学習結果に与える影響が大きい

学習結果
平均一致率（店舗の印象）
20
手法
かわい
い
子連れ高級おしゃ
れ
大人接待夜景ゆった
り
絶景女子会
1A 0.725 0.701 0.669 0.824 0.734 0.882 0.778 0.835 0.767 0.801
1B 0.744 0.690 0.714 0.797 0.714 0.865 0.804 0.857 0.770 0.808
1C 0.683 0.690 0.626 0.671 0.511 0.819 0.763 0.717 0.718 0.361
2 0.745 0.724 0.717 0.796 0.738 0.857 0.794 0.829 0.778 0.751
Emax 0.858 0.829 0.848 0.892 0.855 0.916 0.895 0.904 0.886 0.861
手法
穴場記念日カップ
ル
デート宴会家族合コンひとりインス
タ映え
隠れ家
1A 0.783 0.793 0.858 0.825 0.848 0.689 0.873 0.793 0.763 0.788
1B 0.782 0.804 0.866 0.843 0.866 0.796 0.890 0.806 0.765 0.796
1C 0.579 0.768 0.760 0.751 0.722 0.763 0.838 0.744 0.565 0.746
2 0.781 0.803 0.870 0.815 0.826 0.804 0.861 0.788 0.765 0.777
Emax 0.875 0.881 0.919 0.900 0.910 0.885 0.928 0.890 0.876 0.876

考察
• 料理の印象語に対する正例の割合と一致率の関係
21
手法1B, 2よりも手法1Aは回帰直線の傾きが大きい(t-test, p<0.05).
• 正例の割合が低い場合 → 手法2のほうが
有利
• 正例の割合が高い場合 → 手法1Aが最も正
解率が高くなり、その次に手法1Bと続く
• 手法1Cでは一貫して一致率が低い
全体の正例の割合が高いため、手法1Cだと
学習データにおける正例の割合が低くなり、
その結果学習における損失関数と評価手法の
基準が異なってしまう

考察
• 飲食店の印象語に対する正例の割合と一致率の関係
22
料理と同様、正例の割合により最適な手法が異なる
• 正例の割合が低い場合 → 手法2や
手法1Bが有利
• 正例の割合が高い場合 → 手法1C以
外に顕著な違いは見られなかった
• 手法1Cでは一貫して一致率が低い

まとめ
印象語の自動生成を学習するため、以下の手法を適用した。
• 1枚の画像に3人でアノテーション
• 異なるアノテーション結果が存在する場合の学習手法を比較
23
• アノテーション結果から、印象語によってはアノ
テータ間で個人差が大きく表れていることを確認し
た。
• 同じ画像に対して異なるアノテーション結果が存在
する場合、正例の割合が1に近い場合はアノテーショ
ン結果を1つに統合したほうが正解率が高くなった

料理及び店舗の画像に対するCNNを用いた印象語の推定に関する研究

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

料理及び店舗の画像に対するCNNを用いた印象語の推定に関する研究