[DL Hacks]Learning Cross-modal Embeddings for Cooking Recipes and Food Images[CVPR 2017]

•

1 like•1,007 views

Deep Learning JP

2018/03/26 Deep Learning JP: http://deeplearning.jp/hacks/

Technology

Learning Cross-modal Embeddings for
Cooking Recipes and Food Images
[CVPR 2017]
東京大学工学部システム創生学科知能社会システムコース
B3 近藤生也

書誌情報
• 論文名
• Learning Cross-modal Embeddings for Cooking Recipes and Food
Images
• 著者
• MIT Torralba labの方々など
• 公開日
• 2017/07/20
• 論文URL
• http://im2recipe.csail.mit.edu

背景
• そもそも分類じゃだめなのか
• 料理の画像認識は難しい
• 同じクラスでも違う
• チキンラーメンと千里眼のラーメン
• 違うクラスでも似てる
• うどんとフォー
• 考えられる料理名の数に対して、データ数が少なすぎる
→ 一般料理で精度が残念

背景
• Food-101（分類）の精度と、
実際に使ってみた結果
⇒分類には限界がある
• しかしそもそも適切なラベルが含まれていなかった...• 101分類自体は高い精度が出る

概要
• Recipe1M というデータセットの作成
• 画像→レシピの検索（人間超え）
• レシピ→画像の検索
• 材料の特定
• 料理の演算

Recipe1M
• 20サイトからスクレイピング
• タイトル
• 材料
• レシピ
• 画像
• コースラベル（メイン、スナック、前菜...）

材料のエンコード
https://speakerdeck.com/lunardog/learning-cross-modal-embeddings-for-cooking-recipes-and-food-images
• あらかじめレシピ
データで学習させた
word2vecモデルを使
う
• あらかじめ材料名は
同じ基準で並べ替え
る
• bi-directional LSTM
でエンコード
• 300次元にする

手順のエンコード
• 各文章をskip-
thoughtで1024次元
にエンコード
• エンコードされたす
べての文章をLSTM
で1024次元にエン
コード

画像のエンコード
• ResNet+全結合層で
1024次元にエンコー
ド
• 教師ラベルが特にな
いので、ImageNetで
事前学習された重み
を使う

Joint embedding
• あるレシピとその画像
を入力した際、
画像側の最終層の出力
と、レシピ側（調理手
順と材料）をconcatし
て全結合層を追加した
ものの出力のcos類似度
が高くなるように、そ
れぞれの全結合層を学
習させる
⇒共通のJoint
Embedding空間ができる

もうひとつ
• Joint Embedding空間
を使ってfood-101の分
類も行い、この空間の
汎化性を高め精度を上
げる

loss
• レシピと画像の正しい組み合わせを入力した際の類似度が高く、
かつ間違った組み合わせを入力した際の類似度が低くなるよう
に学習を行う

精度
• レシピと画像の正しい組み合わせを選ぶタスクで、一部ヒトよ
り高い正解率を出した。

結果（画像からレシピの推定）
• 実際には、大量のレシピデータの中からもっともらしい一つを
ピックアップしてきている

結果
• チーズサラダ - サラダ + ケーキ => チーズケーキ
• 等、意味的な演算を可能とした。

本家のPyTorch実装
• https://github.com/torralba-lab/im2recipe-Pytorch
• trijoint.pyに材料、手順、画像のエンコードがすべて載ってる

What's hot

パンでも分かるVariational Autoencoderぱんいちすみもと

【基調講演】『深層学習の原理の理解に向けた理論の試み』今泉允聡（東大）MLSE

全力解説！TransformerArithmer Inc.

【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP

【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...Deep Learning JP

Skip Connection まとめ（Neural Network）Yamato OKAMOTO

楽しい研究のために今からできること〜新しく研究を始める皆さんへ〜諒介荒木

How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa

第１１回　全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdfRyoKawanami

【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"Deep Learning JP

機械学習デザインパターンおよび機械学習システムの品質保証の取り組みHironori Washizaki

近年のHierarchical Vision TransformerYusuke Uchida

マルチモーダル深層学習の研究動向Koichiro Mori

機械学習モデルの判断根拠の説明（Ver.2）Satoshi Hara

CV分野におけるサーベイ方法Hirokatsu Kataoka

【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...Deep Learning JP

機械学習のためのベイズ最適化入門hoxo_m

[DL輪読会]A Style-Based Generator Architecture for Generative Adversarial NetworksDeep Learning JP

【DL輪読会】Scaling laws for single-agent reinforcement learningDeep Learning JP

What's hot (20)

パンでも分かるVariational Autoencoder

【基調講演】『深層学習の原理の理解に向けた理論の試み』今泉允聡（東大）

全力解説！Transformer

【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...

[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...

【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...

Skip Connection まとめ（Neural Network）

楽しい研究のために今からできること〜新しく研究を始める皆さんへ〜

How Much Position Information Do Convolutional Neural Networks Encode?

第１１回　全日本コンピュータビジョン勉強会(前編)_TableFormer_carnavi.pdf

【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"

機械学習デザインパターンおよび機械学習システムの品質保証の取り組み

近年のHierarchical Vision Transformer

マルチモーダル深層学習の研究動向

機械学習モデルの判断根拠の説明（Ver.2）

CV分野におけるサーベイ方法

【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...

機械学習のためのベイズ最適化入門

[DL輪読会]A Style-Based Generator Architecture for Generative Adversarial Networks

【DL輪読会】Scaling laws for single-agent reinforcement learning

Recently uploaded

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）Hiroshi Tomioka

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？akihisamiyanaga1

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...博三太田

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama

NewSQLの可用性構成パターン（OCHaCafe Season 8 #4 発表資料）NTT DATA Technology & Innovation

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）UEHARA, Tetsutaro

Recently uploaded (9)

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf

NewSQLの可用性構成パターン（OCHaCafe Season 8 #4 発表資料）

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）