2015 / 5 / 28 (Thu.)
KAGAYA Hokuto
PFI Seminar
- IT × Food-
自己紹介
• 加賀谷北斗 (Hokuto KAGAYA)
• 東大工学部電子情報卒,現在学際情報学府修士2年
• コンピュータビジョン・機械学習に興味
• 今日は専門の話メインでします
• 2014年度サマーインターン
• テーマ:映像解析/監視カメラ上の人物の頭部位置検出と方向推定
• 現在はPFNにてアルバイト中
• 初めてなのでお手柔らかにお願いします
IT化の波
衣
住
食
例:睡眠状態解析
[永田ら 2014]
例:コーディネート推薦
[Liu+ 2013]
例:睡眠状態解析
[永田ら 2014]
例:コーディネート推薦
[Liu+ 2013]
今日は
衣
住
食
今日は
• 食事関連のナウいサービスや最近の研究動向についてお
話したいと思います
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
食とIT
• いくつかの方向性
• 食事画像加工
• 推薦・レシピなど
• 食事に関するVR・AR的な研究
• 食事の自動認識
• その他
1. 食とIT概観
食とIT
• いくつかの方向性
• 食事画像加工
• 推薦・レシピなど
• 食事に関するVR・AR的な研究
• 食事の自動認識
• その他
1. 食とIT概観
食事画像加工
1. 食とIT概観
http://foodpic.net/
食事画像加工
http://foodpic.net/
1. 食とIT概観
食事画像加工
1. 食とIT概観
1. 食とIT概観
1. 食とIT概観
食事画像専用SNS等の登場
http://miil.me/ http://pecolly.jp/ http://www.uniqlo.com/jp/lifetools/recipe/
1. 食とIT概観
IBM Watson
• Watsonが考案したレシピ本が発売(2015/4)
1. 食とIT概観
ワインラベル認識
• App Store上では未だに人気アプリ
1. 食とIT概観
http://k-tai.impress.co.jp/docs/news/20140522_649700.html
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
AR/VR系の研究
• 「Aのときに人間はBする」という心理学の知見
• さまざまなハードウェア,ソフトウェアを用いて
これを仮想的,重畳的に引き起こす
• 元々の知見に基づいた行動変容が期待できる
味覚センサ・ディスプレイ
• 高分子膜により生体膜を模倣した味覚センサの登場[Toko
98]
• 砂糖を利用した「食べられる」モデルを出力する3Dプリ
ンタ (The CandyFab Project, 2006)
http://candyfab.org
2. AR/VR
MetaCookie[Narumi+ 2011など]
• 人間が感じる「味」は化学物質と舌との反応だけで決ま
るものではなく,その食べ物を食べている時の他の感覚
に左右されて変わる
• これを風味と呼ぶ
• 特に「嗅覚」「視覚」は味覚に非常に大きな影響を与え
るとされている
• ex. かき氷のシロップ
• どうせ一緒なら
2. AR/VR
俺はスイで。
MetaCookie
• https://www.youtube.com/watch?v=3GnQE9cCf84
• クッキーを画像で認識,視覚情報および嗅覚情報を重畳
する
2. AR/VR
拡張満腹感
[Narumi+ 2012]など
• 人間が「満腹」を感じるのは・・
• 食事をする際の環境,食事自体の環境がそれぞれ大きく影響
• ex. 誰と食べるか,どこで食べるか,サイズ感,食器
• その中で,食品自体のサイズ感に注目
• 比較的容易に処理可能
• サイズを画像処理的に変化させることで満腹感を人工的
に操作する
2. AR/VR
拡張満腹感
https://www.youtube.c
om/watch?v=KzFNWL
L0l-o
2. AR/VR
rigid MLS methodという手法
拡張満腹感
2. AR/VR
テーブルトップ型拡張満腹感[Sakurai+ 2012]
2. AR/VR
2. AR/VR
テーブルトップ型拡張満腹感[Sakurai+ 2012]
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
食事画像認識
ご飯
189 kcal
たくわん
23 kcal
キャベツのサラダ
90 kcal
スンドゥブ
456 kcal
* Displayed calories are just examples.
30 3. 認識
• For health, for life-log, for entertainment
• FoodLog App by our lab. and foo.log Inc. [1]
• Food record with smartphone
食事画像認識
31
[1] http://app.foodlog.jp/
3. 認識
Problem Definition
• Detection
• Classification
• Estimation
32
Where is a food region?
What is this food?
What amount is this food?
What calorie does this food have?
3. 認識
食事認識研究の事例
TADA Project (パデュー大学)
スマートフォン等のデバイス上で動作することを想定
した包括的な食事記録・評価のフレームワークを提案
食事領域推定/食事分類/量推定などにも取り組む
1. 食事品目の分類に有効な特徴量は何か?[Bosch+
2011]
→色(とか局所特徴量)がやっぱり大事!
2. 食事の量の自動推定[Chae+ 2011]
→食事ごとに別のテンプレートを使う
33 3. 認識
食事認識研究の事例
柳井研究室 (電気通信大学)
精力的に「食事画像」をテーマとした研究を行う
1. Multi Kernel Learningを用いて複数の特徴を結合
して食事認識を行う[Joutou+ 2009]
2. 共起情報の利用[Matsuda+ 2012]
3. スマートフォン上で利用できる食事認識[Kawano+
2014]
識別器の重み圧縮を行うことで
省メモリかつ高速なモバイル上で
の動作を実現
34 3. 認識
食事認識研究の事例
[Yang+ 2011] (CVPR!)
アメリカのファストフードがデータセット
画素レベルでのソフトラベリングが前処理
画素中の2点の関係を特徴量にして学習して分類
要するに独自の新たな特徴量を考案
28%の精度
35 3. 認識
食事認識研究の事例
Platemate [Noronha+ 2011]
画像をアップロードすると裏で管理栄養士さんが写真からカロ
リーを教えてくれる!手軽にクラウドソーシング!
実は同様の仕組みのアプリがすでにけっこうある (ex. 撮って栄養,
カロナビ)
36
http://imd.jp/app/km.html
3. 認識
食事認識研究の事例
最近まであまりデファクトのデータセットがな
かった (cf. Caltech Bird)
(PFID [Chen+ 2009])
Food-101 [Bossard+ 2014]
UEC Food-256 [Kawano+ 2014]
(FoodLog Dataset [Kagaya+ 2014])
37 3. 認識
FoodLog App
個人の記録に特化した食事認識
スマートフォンを用い,領域と量の指定はインタラク
ティブに行う
現在アプリでは空間情報を用いたカラーヒストグラム
を特徴として過去の食事から画像検索
領域/量推定の不確定さを解消される
ただし手間は増える
「検索」なのでわかりやすい
しかし,個人のログを外れるような食事に
は対応できない
38 3. 認識
• このへんから私の研究の話をします
3. 認識
手動!
手動!
半自動
3. 認識
自動!
自動!
自動!
3. 認識
Convolutional Neural Networks (CNN)
深層学習アルゴリズムのひとつ
いわゆるDeep Learning/多層NN
主に畳み込み層とプーリング層で構成
物体認識のコンテストで優勝するなど広く応用される
画像からの特徴抽出が自動で行える
けっきょくとってくる特徴がとても大事だ
食事分類に適した特徴を抽出できる(のではないか?)
42 3. 認識
CNNによる認識
FoodLog Appに実際にユーザが登録した画像を
用いてデータセットを作成
画像登録数上位10種に限定
この10種から900枚ずつ抽出
合計9000枚を6分割し,4つを学
習,1つを検証,1つをテストに用
いる
43 3. 認識
CNNによる認識
結果(他手法との比較)
Boschの結果,杉山の結果[Sugiyama 修士論文]
色,GIST(大域特徴量),SIFT(局所特徴量)などとSVMの組み合わ
せが有効との結果
空間情報を利用した色特徴量+SVM,GIST+SVM,ScSPM[7]
44
層数 特徴マップ 特徴マップのサイズ 正規化 データセット 正解率
2層 32-32 5-5
1回,
LRN(across map)
6-fold cross
validation
73.70%
手法 データセット 正解率
SPM + Color + SVM
6-fold cross
validation
54.63%
GIST + SVM
6-fold cross
validation
52.63%
ScSPM
6-fold cross
validation
60.47%
3. 認識
フィルタの可視化
45
(A) CIFAR-10
(C) FoodLog App
(B) ImageNet
3. 認識
食事への最適化
46 3. 認識
Yet Another Approach (1)
電子レンジの漏れ電流を用いた食事認識
[Nakamata+ 2014]
• 電子レンジを利用中はマイクロ波が漏れる
• そのマイクロ波の時間変化は,食品によって異な
るため,機械学習を適用して食品を認識
47 3. 認識
Yet Another Approach (1)
48 3. 認識
Yet Another Approach (2)
FoodBoard: 食事認識用まな板[Cuong+, 2013]
まな板で調理中にナマの食材たちを認識する
プライバシー問題への対処,特別なカメラなどを用意するためにキッチンの
ものの配置等を動かす必要がない
光ファイバーが敷き詰められたまな板を使う
49 3. 認識
Problem
一般食事画像認識を考えると・・
問題点は何か?
1. number of categories is supermassive
• FoodLogに登録されている(ユニーク)料理数: 68,566
• Cookpad投稿数: 200万超 (11/19現在)
2. intra-class variance is very high
3. inter-class variance is low
3. 認識
これはつまり
Fine-Grained Visual Categorization という分野に属す
る(あるいは近い)
犬や鳥の場合と少し違うのは,料理に階層構造がn(>2)層以上存
在すること,ほぼ同一の内容を示す異名のオブジェクトが存在し
てしまうことなど
1の解決策:名寄せ?
「カレー」「カレーライス」「ライスカレー」「ポークカレー」
2の解決策:個人性の利用
同一人物は同じようなそれをよく食べるという仮定
3の解決策:メタデータ,画像以外の情報の利用
3. 認識
今取り組んでいること
FGVC分野の知見の適用(cf. visipedia[Branson+
2010])
Human-in-the-loop的な考え方を取り入れる
3. 認識
もくじ
1. 「食」とIT概観
2. 詳細事例①AR/VR系
3. 詳細事例②食事認識
4. 自分の研究について
5. まとめ
まとめ
• 食事に関連する最近の研究・サービスを主にCV・ML・
AR/VR関係のことについて紹介した
• 食事は人間が生きる以上かならず必要なので,それに係
る研究は非常に重要
• 食事認識はいくつかとても難しいポイントがあり,まだ
解決できていない部分も多い
• しかしデファクトのデータセットの登場など進歩も見られる
参考文献
• [Narumi+ 2011] Takuji Narumi, Shinya Nishizaka, Takashi Kajinami, Tomohiro Tanikawa
and Michitaka Hirose, "MetaCookie+", IEEE VR 2011 Research Demo, pp.265-266, Mar.
2011.
• [Narumi+ 2012] Takji Narumi, Yuki Ban,Takashi Kajinami, Tomohiro Tanikawa and
Michitaka Hirose, “Augmented Perception of Satiety: Controlling Food Consumption by
Changing Apparent Size of Food with Augmented Reality”, CHI 2012 Proceedings of the
2012 ACM annual conference on Human Factors in Computing Systems, pp.109-118,
Austin Teaxs, USA, May 5-10, (2012)
• [Joutou+ 09] Taichi Joutou and Keiji Yanai: A Food Image Recognition System with
Multiple Kernel Learning, International Conference on Image Processing (ICIP), (2009).
• [Matsuda+ 2012] Yuji Matsuda and Keiji Yanai: Multiple-Food Recognition Considering Co-
occurrence Employing Manifold Ranking, IAPR International Conference on Pattern
Recognition (ICPR), (2012)
• [Bosch+ 2011] M. Bosch, F. Zhu, N. Khanna, C.J. Boushey, and E.J. Delp, "Combining
Global and Local Features for Food Identification and Dietary Assessment," Proceedings of
the International Conference on Image Processing,pp. 1789-1792, September 2011,
Brussels, Belgium. DOI: 10.1109/ICIP.2011.6115809
• [Branson+ 2010] S. Branson et al., “Visual Recognition with Human in the Loop”, ECCV
2010
• [Nakamata+ 2014] Nakamata, A., Asami, T., Wei, W., & Kawahara, Y. (2014, September).
Feature optimization for recognizing food using power leakage from microwave oven. In
Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous
Computing: Adjunct Publication (pp. 537-546). ACM.
参考文献
• [Cuong+ 2013] Cuong, P., SCHOENING, J., Tom, B., Thomas, P., & Patrick, O. (2013).
FoodBoard: Surface Contact Imaging for Food Recognition.
• [Chen+ 2009] Chen, M., Dhingra, K., Wu, W., Yang, L., Sukthankar, R., & Yang, J. (2009,
November). PFID: Pittsburgh fast-food image dataset. In Image Processing (ICIP), 2009
16th IEEE International Conference on (pp. 289-292). IEEE.
• [Bossard+ 2014] Bossard, L., Guillaumin, M., & Van Gool, L. (2014). Food-101–Mining
Discriminative Components with Random Forests. In Computer Vision–ECCV 2014 (pp.
446-461). Springer International Publishing.
• [Kawano+ 2014] Kawano, Y., & Yanai, K. (2014, November). FoodCam-256: A Large-
scale Real-time Mobile Food RecognitionSystem employing High-Dimensional Features and
Compression of Classifier Weights. In Proceedings of the ACM International Conference on
Multimedia (pp. 761-762). ACM.
• [Kagaya+ 2014] Kagaya, H., Aizawa, K., & Ogawa, M. (2014, November). Food Detection
and Recognition Using Convolutional Neural Network. In Proceedings of the ACM
International Conference on Multimedia (pp. 1085-1088). ACM.
• [Chae+ 2011] J. Chae, I. Woo, S. Kim, R. Maciejewski, F. Zhu, E.J. Delp, C.J. Boushey,
and D.S. Ebert, "Volume Estimation Using Food Specific Shape Templates in Mobile
Image-Based Dietary Assessment," Proceedings of the IS&T/SPIE Conference on
Computational Imaging IX, Vol. 7873, pp. 1-8, January 2011
• [Noronha+ 2011] Jon Noronha, Eric Hysen, Haoqi Zhang, and Krzysztof Z. Gajos.
Platemate: Crowdsourcing nutrition analysis from food photographs. In Proceedings of the
24th annual ACM symposium on User interface software and technology, UIST ’11, pp. 1–
12. ACM, 2011.
参考文献
• [Toko 98] Toko, K. (1998). RETRACTED: Electronic tongue. Biosensors and Bioelectronics,
13(6), 701-709.
• [Liu+ 2013] Liu, S., Feng, J., Song, Z., Zhang, T., Lu, H., Xu, C., & Yan, S. (2012,
October). Hi, magic closet, tell me what to wear!. In Proceedings of the 20th ACM
international conference on Multimedia (pp. 619-628). ACM.
• [永田ら 2014] 永田ら, スマートフォンによる短時間睡眠支援に向けた入眠時刻の推定, 情報処理
学会研究報告高度交通システムとスマートコミュニティ, 2014

PFIセミナー2015/05/28 食とIT