Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

料理及び店舗の画像に対するCNNを用いた印象語の推定に関する研究

107 views

Published on

学士論文
北海道大学 工学部 情報エレクトロニクス学科
情報理工学コース 調和系工学研究室 町田稜平

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

料理及び店舗の画像に対するCNNを用いた印象語の推定に関する研究

  1. 1. 料理および店舗の画像に対するCNN を用いた印象語の推定に関する研究 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 調和系工学研究室 学部4年 町田稜平 1
  2. 2. 研究背景 飲食店検索サービスの現状 – 営業日や料理名などの客観的情報を元に飲食店を検索可能 – 課題(検索サービス運営会社への事前調査) • より主観的な印象語に基づく検索のニーズが高い • 現状の印象語検索はユーザの要求と検索結果にズレが存在 2 「おしゃれ」、「大人向け」 等 個人差はあるが受け手の間で一定の共通認識がある語句 食べログ(https://tabelog.com/)
  3. 3. 研究背景 飲食店検索サービス上の印象に関する情報 – 料理および店舗の画像 • ユーザはサイト上の画像を見て所望の印象と一致するかを判断 3 https://tabelog.com/kanagawa/A1405/A140501/14063889/ (Accessed on 2019-02-01) https://tabelog.com/kyoto/A2601/A260201/26031174/ (Accessed on 2019-02-01) 本研究の目的 料理や店舗の画像から印象語の推定
  4. 4. 研究目的 従来研究 – 店舗画像から「大人向け」などの印象語を推定する研究[1] • 「おしゃれ」「インスタ映え」などのより抽象度の高い印象語の 推定精度は低い – クラウドソーシングなどアノテーションの信頼性が低い場合に、 複数のアノテーション結果から正しいラベルを推測する研究[2] 本研究 – 検索のニーズが高い30の印象語について学習を行う – 時間的・人数的コストのため、代表として6人の専門学校生にア ノテーションを依頼した – 異なるアノテーション結果を学習するために様々な手法を適用し、 比較実験を行う 4 [1]. Varshneya D. et al. Restaurant Attribute classification using Deep Learning. 2016 IEEE Annual India Conference. (2016) pp:1-6 [2]. Raykar V. C. et al. Learning From Crowds. Machine Learning Research 11. (2016) pp:1297-1322 本研究の目的 料理や店舗の画像から印象語の推定
  5. 5. 研究アプローチ 1. 画像に印象語のラベルを付与 – 事前調査をもとに選定した30の印象語に関連する画像を収集 – 印象語の個人差を考慮した複数人によるアノテーション 2. 画像と印象語の関係をCNNを用いて学習 – 複数人でアノテーションしたデータを学習 1. ラベルを一つに統合し、それが真のラベルに等しいと仮定して学習 1. 一人でも正例と判断すれば正例とする 2. 二人以上正例と判断すれば正例とする 3. 三人が正例と判断すれば正例とする 2. 複数のアノテーション結果をそれぞれの画像-ラベル対に分解し、 3倍に拡張したデータの分類問題として学習 – 手法の比較実験 5
  6. 6. 学習させる印象語の選定 次の3点を考慮し30種類の印象語を選択 – 検索のニーズが高い(検索サービス運営会社への事前調査) – 十分な枚数の関連画像を収集可能 – 先行研究[1]で精度の低かった抽象度の高い印象語 6 料理の印象 お店の印象 こってり 女子会 おしゃれ あっさり デート かわいい ふわふわ 家族 インスタ映え 大きい ひとり 大人 小さい 接待 隠れ家 大盛り 合コン ゆったり デカ盛り 宴会 穴場 おしゃれ カップル 高級 かわいい 子連れ 夜景 インスタ映え 記念日 絶景 [1]. Varshneya D. et al. Restaurant Attribute classification using Deep Learning. 2016 IEEE Annual India Conference. (2016) pp:1-6
  7. 7. 画像の準備 飲食店の口コミサイト「食べログ」で投稿された画像に付けられたキャ プションから、各印象語の候補画像を収集し複数人でアノテーションを 行う 7 ) 例: 「大盛り」の候補画像の収集 ユーザーの投稿 牛丼 おかず、 ご飯 800円 追加 大盛り ふわふわ 宴会 アノテーション
  8. 8. 画像に対するアノテーション 各々の印象語に対して1200枚の候補画像を用意 8 ・個人差が大きいため複数人でアノテーションを行う ・アノテータの人数を増やすため,画像を半分ずつに分け, それぞれ3人でアノテーションを行う 事前実験で画像枚数と精度の関係を調査し,1200枚で正解率収束
  9. 9. アノテーション結果の解析1 アノテーションに正例が付与された割合 9 料理の印象語 各アノテータ 全員 1 2 3 4 5 6 小さい 0.50 0.64 0.49 0.71 0.54 0.47 0.56 かわいい 0.31 0.73 0.75 0.70 0.77 0.86 0.69 大きい 0.44 0.65 0.58 0.85 0.48 0.37 0.56 デカ盛り 0.57 0.73 0.65 0.81 0.62 0.71 0.68 ふわふわ 0.58 0.79 0.69 0.84 0.63 0.76 0.71 おしゃれ 0.71 0.80 0.79 0.91 0.65 0.86 0.79 大盛り 0.87 0.86 0.82 0.81 0.85 0.94 0.86 あっさり 0.73 0.82 0.78 0.81 0.84 0.84 0.80 インスタ映え 0.61 0.75 0.80 0.85 0.64 0.89 0.76 こってり 0.90 0.88 0.84 0.84 0.84 0.93 0.87 印象語が有する個人差という性質によって、正例の割合がアノテータごとに異 なっている。
  10. 10. アノテーション結果の解析1 10 店舗の印象語 各アノテータ 全員 1 2 3 4 5 6 高級 0.49 0.78 0.39 0.81 0.68 0.75 0.65 子連れ 0.51 0.42 0.44 0.68 0.53 0.54 0.52 大人 0.28 0.72 0.77 0.77 0.67 0.63 0.64 かわいい 0.71 0.83 0.52 0.78 0.66 0.72 0.70 女子会 0.55 0.91 0.79 0.91 0.73 0.87 0.79 インスタ映え 0.90 0.75 0.74 0.82 0.65 0.74 0.76 隠れ家 0.83 0.86 0.69 0.75 0.73 0.88 0.79 絶景 0.68 0.65 0.56 0.75 0.74 0.78 0.69 穴場 0.81 0.83 0.73 0.75 0.69 0.86 0.78 ひとり 0.57 0.76 0.78 0.82 0.78 0.81 0.75 夜景 0.73 0.56 0.80 0.84 0.80 0.85 0.76 おしゃれ 0.69 0.88 0.80 0.82 0.80 0.72 0.78 記念日 0.65 0.74 0.74 0.82 0.73 0.74 0.74 家族 0.56 0.71 0.64 0.79 0.63 0.70 0.67 デート 0.80 0.89 0.83 0.80 0.80 0.74 0.81 宴会 0.79 0.89 0.83 0.76 0.86 0.83 0.83 ゆったり 0.82 0.93 0.81 0.79 0.79 0.90 0.84 接待 0.87 0.78 0.89 0.84 0.83 0.90 0.85 合コン 0.92 0.82 0.86 0.81 0.79 0.85 0.84 カップル 0.83 0.91 0.84 0.78 0.83 0.89 0.84
  11. 11. アノテーション結果の解析2 アノテーション判断の全員一致率 – それぞれの画像は3人のアノテータにより判断される – 3人全員が正例または負例とした画像の割合を全員一致率と定義 全員一致率の内訳 – 平均:64% – 最小値:41% (料理画像に対する「大きい」) – 最大値:78.3% (店舗画像に対する「合コン」) 11 印象語 全員一致率 合コン 0.783 こってり 0.777 カップル 0.756 デカ盛り 0.498 小さい 0.483 大きい 0.408 ⋮ 印象語の一覧 (一致率順) 料理の量に関する印象語は一 致率が低い = 個人差が大きい
  12. 12. アノテーション結果の解析3 アノテータのグループ間の全員一致率を比較 – 各印象語にアノテーションは2グループで600枚ずつ付与 – グループ1とグループ2は重複しないアノテータにより構成される グループ間で全員一致率の異なる印象語が存在 12 子連れ 大人 大きい
  13. 13. アノテーション結果の解析4 • 正例のデータのうち3人の意見が一致している画像の割合と、負 例のデータで意見が一致している割合の関係 13 アノテータ1が 正例と判断した 割合が低い アノテータ6が正例と 判断した割合が高い 全員一致率が低い印象語 = アノテータ間の個人差が大きい
  14. 14. 学習方法 • CNN(畳み込みニューラルネットワーク)が画像認識のデファクトスタ ンダードとなっており、2012年以降は画像認識の性能を競うILSVRC においてCNNを用いた学習器が常に上位を維持している • 先行研究[1]ではVGG16[2],Inception-v3[3],Resnet[4]を用いて印象語を 推定し、Resnetが最も高い精度 • Resnet-50: 従来のCNNの構造にShortcut-connectionを導入することで、 膨大な数の層を持つ安定なニューラルネットワークを実現 • 本研究では1200枚の画像を8:2に分割し訓練用(960枚)、 評価用(240枚)としてResnet-50の学習を行う 14 Shortcut connection [1]神戸瑞樹, 横山想一郎, 山下倫央, 川村秀憲. CNNを用いた服飾画像に対するアノテーションの学 習に関する研究(2018) [2]Karen Simonyan and Andrew Zisseman. Very Deep Convolutional Networks for Large-Scale Image Recogniton Sep.2014 [3]Cristian Szegedy,Vincent Vanhoucke,Sergey loffe,Jonathon Shlens, and Zbigniew Wojna. Rethinking the Inception Architecture for Computer Vision.dec 2015 [4] Hem Kaiming et al. Identity mappings in deep residual networks, arXiv:1603.05027 (2016)
  15. 15. アノテーションの学習 15 かわいい? 真のラベル 観測不可 真のラベルを大衆の半数以上が一致する意見とする 真のラベルを推測したいが、観測できないのでアノテーション結果を用いて 近似的に学習を行う かわいい アノテーション結果 観測可 かわいくない かわいい 学習方法 1. 統合したラベルが真のラベルに等しいと仮定 して学習 1. 一人でも正例と判断すれば正例とする 2. 二人以上正例と判断すれば正例とする 3. 三人が正例と判断すれば正例とする 2. アノテーション結果は真のラベルの近似と仮 定し、アノテーション結果をそのまま学習 アノテーション 真のラベルの近似
  16. 16. アノテーションの学習 16 ①ラベルを一つに統合し、それが真のラベルに等しいと仮定して学習 学習ラベル 1-A: 一人でも正例と判断 すれば正例とする かわいい アノテーション結果 観測可 かわいい かわいくない かわいい 1-B: 二人以上正例と判断 すれば正例とする 1-C: 三人が正例と判断 すれば正例とする かわいくない かわいい かわいい アノテーション結果 観測可 かわいい かわいくない かわいい アノテーション結果 観測可 かわいい かわいくない
  17. 17. アノテーションの学習 17 ②複数のアノテーション結果をそれぞれの画像-ラベル対に分解し、3倍 に拡張したデータの分類問題として学習 分解 アノテーション結果は真のラベルの近似と仮定して学習 かわいい アノテーション結果 観測可 かわいい かわいくない かわいい かわいくない かわいい
  18. 18. 評価手法 18 アノテーション結果が真のラベルの近似であると仮定して、CNNの出力結 果とアノテーション結果の一致率の平均(E)を用いて評価 一致率 = 1 3 1 + 1 + 0 = 2 3 個人によりアノテーション結果が異なるので、平均一致率は1にはなり得な い。 →各印象語ごとにおける平均一致率の上界Emaxを計算 𝐸 𝑚𝑎𝑥 = max(𝐸 𝐶𝑁𝑁 ) かわいい? 真のラベル 利用できない かわいい アノテーション結果 評価に利用 かわいくない かわいい アノテーション かわいい CNNの出力 比較
  19. 19. 学習結果 平均一致率(料理の印象) 19 手法 あっさ り デカ盛 り ふわふ わ インス タ映え かわい い こって り 大きい 大盛り おしゃ れ 小さい 1A 0.777 0.688 0.797 0.807 0.711 0.873 0.587 0.864 0.756 0.607 1B 0.826 0.734 0.781 0.789 0.726 0.874 0.606 0.851 0.781 0.674 1C 0.641 0.578 0.669 0.738 0.619 0.841 0.585 0.713 0.698 0.545 2 0.826 0.730 0.754 0.772 0.728 0.848 0.652 0.816 0.752 0.679 Emax 0.894 0.833 0.880 0.905 0.866 0.926 0.803 0.899 0.882 0.826 印象語ごとに最適な手法が異なる 印象語の性質の違いが学習結果に与える影響が大きい
  20. 20. 学習結果 平均一致率(店舗の印象) 20 手法 かわい い 子連れ 高級 おしゃ れ 大人 接待 夜景 ゆった り 絶景 女子会 1A 0.725 0.701 0.669 0.824 0.734 0.882 0.778 0.835 0.767 0.801 1B 0.744 0.690 0.714 0.797 0.714 0.865 0.804 0.857 0.770 0.808 1C 0.683 0.690 0.626 0.671 0.511 0.819 0.763 0.717 0.718 0.361 2 0.745 0.724 0.717 0.796 0.738 0.857 0.794 0.829 0.778 0.751 Emax 0.858 0.829 0.848 0.892 0.855 0.916 0.895 0.904 0.886 0.861 手法 穴場 記念日 カップ ル デート 宴会 家族 合コン ひとり インス タ映え 隠れ家 1A 0.783 0.793 0.858 0.825 0.848 0.689 0.873 0.793 0.763 0.788 1B 0.782 0.804 0.866 0.843 0.866 0.796 0.890 0.806 0.765 0.796 1C 0.579 0.768 0.760 0.751 0.722 0.763 0.838 0.744 0.565 0.746 2 0.781 0.803 0.870 0.815 0.826 0.804 0.861 0.788 0.765 0.777 Emax 0.875 0.881 0.919 0.900 0.910 0.885 0.928 0.890 0.876 0.876
  21. 21. 考察 • 料理の印象語に対する正例の割合と一致率の関係 21 手法1B, 2よりも手法1Aは回帰直線の傾きが大きい(t-test, p<0.05). • 正例の割合が低い場合 → 手法2のほうが 有利 • 正例の割合が高い場合 → 手法1Aが最も正 解率が高くなり、その次に手法1Bと続く • 手法1Cでは一貫して一致率が低い 全体の正例の割合が高いため、手法1Cだと 学習データにおける正例の割合が低くなり、 その結果学習における損失関数と評価手法の 基準が異なってしまう
  22. 22. 考察 • 飲食店の印象語に対する正例の割合と一致率の関係 22 料理と同様、正例の割合により最適な手法が異なる • 正例の割合が低い場合 → 手法2や 手法1Bが有利 • 正例の割合が高い場合 → 手法1C以 外に顕著な違いは見られなかった • 手法1Cでは一貫して一致率が低い
  23. 23. まとめ 印象語の自動生成を学習するため、以下の手法を適用した。 • 1枚の画像に3人でアノテーション • 異なるアノテーション結果が存在する場合の学習手法を比較 23 • アノテーション結果から、印象語によってはアノ テータ間で個人差が大きく表れていることを確認し た。 • 同じ画像に対して異なるアノテーション結果が存在 する場合、正例の割合が1に近い場合はアノテーショ ン結果を1つに統合したほうが正解率が高くなった

×