Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

KUSK Object Dataset: 調理作業中の物体への接触履歴データセットの作成

1,092 views

Published on

http://www.ieice.org/ken/paper/20150925abcl/

Published in: Technology
  • Be the first to comment

KUSK Object Dataset: 調理作業中の物体への接触履歴データセットの作成

  1. 1. KUSK Object Dataset: 調理作業中の 物体への接触履歴データセットの作成 橋本 敦史, 飯山 将晃, 森 信介, 美濃 導彦 京都大学 2015.9.25 信学会 DE研究会 http://kusk.mm.media.kyoto-u.ac.jp/ja/
  2. 2. コンピュータビジョン(CV)と 自然言語処理(NLP)の融合 • CVとNLPの融合研究が活発化 – 背景に「物体検出」や「物体認識」技術の成熟 • データセットの整備が必要 – モデルケース: Pascal Sentenceデータセット 映像 機械可読な データ構造 認識 文生成 ! CV NLP 解析検索・ 生成 Human- Friendlyな 表現
  3. 3. Pascal Sentence Data Set http://vision.cs.uiuc.edu/pascal-sentences/ Cyrus Rashtchian, Peter Young, Micah Hodosh, and Julia Hockenmaier. “Collecting Image Annotations Using Amazon's Mechanical Turk”. In Proc. of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk. • One jet lands at an airport while another takes off next to it. • Two airplanes parked in an airport. • Two jets taxi past each other. • Two parked jet airplanes facing opposite directions. • two passenger planes on a grassy plain Pascal Dataset (物体認識用の静止画データセット)の一部に 説明文を加えたもの. 説明文はAmazon Mechanical Turkにより不特定の作業者が付与.
  4. 4. 食メディアでのCV/NLPのデータセット(DS) • 自然言語関連 – 料理オントロジー – COOKPAD/楽天レシピ • 映像処理(特に調理行動に関するもの) – TUM Kitchen Data Set (2009) – CMU Multi-Modal Activity Database (2009) – Actions for Cooking Eggs Dataset (2012) – MPII Cooking Activities Dataset (2012) – 50 Salads dataset (2013) – The Breakfast Actions Dataset (2014)
  5. 5. 「レシピ」と「実際の行動」を比べたい • レシピの「自然言語記述」と 「実際に行われた調理行動(≒人間の解釈)」 – 従来の映像側DS: 調理行動の記録+正解ラベル • レシピの問題(単一のレシピ,レシピ不明,文化差…) • 自然言語処理技術者に非友好的 – 従来の言語側DS: 大量のレシピ,コーパス • そもそも映像(≒人間が解釈した結果)が付随せず
  6. 6. KUSK Dataset x Flow Graph Corpus KUSK Dataset (橋本,2014) Flow Graph Corpus (森, 2014) Water Flow Sensors Eye Tracker Touch Display Electric Consumption Sensors Load Sensing Tables 自然言語で解析済みの20レシピ(COOKPADより)を 多様な被験者に調理してもらったデータ
  7. 7. KUSK Dataset(橋本,2014)で撮影したレシピ CookPadでのID レシピID レシピ名 00121196 2014RC01 アツアツとろ~り白菜と鶏のスープ 00180223 2014RC02 押し麦入り和風トマトスープ。 00196551 2014RC03 オムレツ 00162433 2014RC04 母さんのチキンサラダ 00201826 2014RC05 コロッケ種の揚げ包み焼き 00200883 2014RC06 牛肉ときのこのプルコギ風 00176550 2014RC07 しいたけとしめじのソテー 00202059 2014RC08 新じゃがのポテトサラダ 00171343 2014RC09 セロリの葉っぱスープ 00148537 2014RC10 鶏肉と大豆のトマト煮♪更年期も怖くない!? 00185809 2014RC11 鶏肉とブロッコリー炒め 00196431 2014RC12 鶏肉のスパイシーなビーンズ煮込み 00157755 2014RC13 鶏胸肉の☆老化防止♪黒胡麻揚げ 00192913 2014RC14 なすの香り炒め 00195151 2014RC15 肉みそサニーレタス包み♪ 00187900 2014RC16 白菜の重ね煮 00155229 2014RC17 ヘルシー♪豆腐でオープンオムレツ中華風☆ 00193642 2014RC18 ぺペロンチーノ 00182653 2014RC19 もちもち大根餅 00168029 2014RC20 和風のし鶏 ※ ある程度の複雑さ ※ 少ない材料で 多くのバリエーション
  8. 8. KUSK Object Dataset (今回新たに提供) • KUSK Datasetからの映像処理結果を提供 – 画像処理技術者へのベースライン – 自然言語処理技術者が映像処理結果として利用 • 調理中の「物体接触履歴」を提供 – 次の行動の予測において重要な情報(橋本,2014) – 置かれた物体/取られた物体に対して, 時刻,種類,映像中の領域(矩形) の情報を付与 • 調理中に扱われる多様な物体を収集 – 食材,調味料,調理器具,容器 – 容器のフタ,ゴミ,スポンジ,洗剤,布巾,etc
  9. 9. 得られたデータの紹介 材 料 えのき えのき えのき キャベツ キャベツ キャベツ パスタ麺 カリフラワー カリフラワー カリフラワー ガーリック ガーリック 豆腐 豆腐 調 理 器 具 菜箸 ボウル ザル ザル まな板 包丁ボウル 調 味 料 そ の 他 だし ケチャップ コショウ 食べない部分 洗剤 スポンジ 三角コーナー
  10. 10. アノテーションの方法(1/2) • 作業の種類 1. 物体領域領域抽出(橋本,2012)の結果の訂正 (時刻は訂正なし,領域,取る/置くの別のみ) 2. レシピ毎に語彙を決定 3. 各領域への物体ラベルの付与(作業2の語彙から選択) 作業2における語彙の表記ゆれ等への対処 →料理オントロジー(土井, 2014)を利用 – オントロジーに入っていないものは手動分類 • 干しエビ,和風ドレッシング,アク取り,フライ鍋,フライヤー…
  11. 11. アノテーションの方法(2/2) • 学生アルバイト(非情報系学部)による作業 – 最長2ヶ月間雇用,延20名超 – 雇用にあたり,料理経験を考慮 • 概ね半年以上の経験と週1回以上の頻度 • Webブラウザで動作するインターフェイス – 将来的なCloud Sourcingの利用も視野 – 2名の回答が一致しない場合,Checkerがチェック • ただし,Checkerも上記の学生アルバイト – 定期的に著者によるチェック,指導
  12. 12. 得られたデータの紹介(再掲) 材 料 えのき えのき えのき キャベツ キャベツ キャベツ パスタ麺 カリフラワー カリフラワー カリフラワー ガーリック ガーリック 豆腐 豆腐 調 理 器 具 菜箸 ボウル ザル ザル まな板 包丁ボウル 調 味 料 そ の 他 だし ケチャップ コショウ 食べない部分 洗剤 スポンジ 三角コーナー
  13. 13. 物体認識結果データの作成 レシピ毎に識別器を使い分け ⇛ CNN x Linear SVM • 特徴量: AlexNetの6th Layerの出力(4096次元) – Caffeによる実装を利用 • ImageNetにより学習済みのモデルを利用 • Linear SVMによる学習 – レシピ毎に異なるLinear SVMを学習 (レシピは既知である=登場物体が限定可能である ことを仮定)
  14. 14. 物体認識結果 (精度) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 2014RC01 2014RC02 2014RC03 2014RC04 2014RC05 2014RC06 2014RC07 2014RC08 2014RC09 2014RC10 2014RC11 2014RC12 2014RC13 2014RC14 2014RC15 2014RC16 2014RC17 2014RC18 2014RC19 2014RC20 Total
  15. 15. 物体認識結果(グループ別) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 2014RC01 2014RC02 2014RC03 2014RC04 2014RC05 2014RC06 2014RC07 2014RC08 2014RC09 2014RC10 2014RC11 2014RC12 2014RC13 2014RC14 2014RC15 2014RC16 2014RC17 2014RC18 2014RC19 2014RC20 Total 材料 Acc. 調味料 Acc. 調理器具 Acc.
  16. 16. 得られたデータの紹介(再掲) 材 料 えのき えのき えのき キャベツ キャベツ キャベツ パスタ麺 カリフラワー カリフラワー カリフラワー ガーリック ガーリック 豆腐 豆腐 調 理 器 具 菜箸 ボウル ザル ザル まな板 包丁ボウル 調 味 料 そ の 他 だし ケチャップ コショウ 食べない部分 洗剤 スポンジ 三角コーナー
  17. 17. 累積照合特性曲線による評価 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 全種類 材料 調味料 調理器具 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 全種類 材料 調味料 調理器具
  18. 18. 調理中の物体認識に関する考察 • 食材は画像のみでの認識が難しい – 多様な状態で観測される • 包装の有無,切削加工,その他(特に卵) • 調味料,調理器具は比較的頑健である – キッチンによって,同種の調味料,器具は限定 • 文脈情報の利用などによる高精度化を期待 – レシピから文脈情報を抽出,など(今後の課題)
  19. 19. まとめ • KUSK Dataset x Flow Graph Corpus – 映像処理 x 自然言語処理 の融合研究の基盤 • KUSK Object Dataset ⊂KUSK Dataset – 調理中に接触があった物体の履歴 • 次の行動の予測において重要な情報 • 置く/取るの別,時刻,物体を囲む矩形の座標 • 物体のクラス (料理オントロジーによる階層的なラベル) • AlexNetによる特徴抽出 x Linear SVMの認識結果
  20. 20. 今後の課題・展望 KUSK Object DSの細かい使い方は上記Webページを参照するか, 個人的にコンタクトを下されば対応いたします. Mail: a_hasimoto@mm.media.kyoto-u.ac.jp Twitter: @a_hasimoto または,11/9,10 の 食メディア合宿@浜松で. • 我々のグループでの融合研究の推進 – 映像の結果→自然言語処理結果の高度化, レシピ生成 – 自然言語処理結果→映像処理の高度化 • データセットの充実 – KUSK Action/Activity Dataset ? DSの公開先: http://kusk.mm.media.kyoto-u.ac.jp/ja

×