Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Chainer meetup2016 03-19pub

2,181 views

Published on

動画の苦しみ

Published in: Technology
  • Be the first to comment

Chainer meetup2016 03-19pub

  1. 1. 動画の苦しみ 1 2016-03-19 @chainer meetup #02
  2. 2. Yuta Kashino • BakFoo, Inc. CEO • Astro Physics /Observational Cosmology • Zope / Python • Realtime Data Platform for Enterprise
  3. 3. 本日のお話 • 「やってみた」「できた」という自慢系では ありません.皆様に相談するのが趣旨です. • 動画に深層学習を適用する苦しみを共有した いです.
  4. 4. 動画の深層学習
  5. 5. なにから始めればいいか…
  6. 6. NeuralTalk and Walk
  7. 7. Neural Image Caption • 画像をみてその画像を描写するキャプション を生成 Vinyals+ CVPR 2015
  8. 8. NIC = CNN + LSTM
  9. 9. CNN + LSTM 予測確率 学習データ MSCOCO GoogLeNet プレトレーニング: ImageNet + DropOut 初期値: ランダム -> uniform
  10. 10. いくつか既実装がある • "Image caption generation by CNN and LSTM” Satoshi Tsutsui (Chainer) • “Neural Talk” / “Neural Talk2” Andrej Karpathy (Python / Torch) • “Show, Attend and Tell” Xu+2015の実装 (Theano)
  11. 11. NIC Chainer実装 • GoogLeNet学習済みモデル: https://github.com/BVLC/ caffe/tree/master/models/bvlc_googlenet • MSCOCOのプリプロセス: https://github.com/karpathy/ neuraltalk2#id-like-to-train-my-own-network-on-ms-coco • MSCOCOのGoogLeNetによる学習 Satoshi Tsutsui: pre_extract_googlenet_features.py • NICモデルの学習 Satoshi Tsutsui, train_ptb
  12. 12. 動画のNICパイプライン 動画 OpenCV フレーム分割 NIC gen caption NIC gen caption Embarrassingly Parallel ! NIC gen caption
  13. 13. demo
  14. 14. だがしかし
  15. 15. 問題点 • NICはオーバフィッティングしやすく,転移学習の効果が低い. • 動画から静止画を切り出しただけ.動画の時間依存性を全く使っ ていない.たくさんある画像の深層学習にすぎない. • 音声情報を全く利用していない. • 自然言語処理としての日本語を生成する大変さ. • 日本人・日本・日本語に関するすぐに利用可能な教師データが 皆無 -> データ整備から始める必要がある.
  16. 16. 教えてください • 前提:教師データが少ない大量の映像データがあります. • うまくいった研究例を教えて下さい. • どうすれば動画を使うという良さがでるのか? • どのような深層学習の手法(あまり複雑でない)を用いれ ば面白い結果ができるのか? • どのようなデータを使えばNICより先にいけるのか?
  17. 17. 例えば… • 外部データを教師データとする • Large-scale Video Classification with Convolutional Neural Networks Karpathy+ http://cs.stanford.edu/people/karpathy/deepvideo/ CVPR 2014 • Youtubeの映像とタグを教師データとして,任意のスポー ツを分類 • But… • この研究結果はヒドく当たり前でツマラナイ.
  18. 18. 最後に… • NVIDIAのTITAN Xが年度末までに4枚欲しいの ですが,どうにも手に入りません…. • もしも入手可能な情報をお持ちでしたら,是 非お教えください.
  19. 19. Resources
  20. 20. Resources • "Show and Tell: A Neural Image Caption Generator” Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan http://arxiv.org/abs/1411.4555 • 上記講演: http://techtalks.tv/talks/show-and-tell-a-neural-image-caption- generator/61592/ • "Image caption generation by CNN and LSTM” Satoshi Tsutsui http://t- satoshi.blogspot.jp/2015/12/image-caption-generation-by-cnn-and-lstm.html • "Show, Attend and Tell: Neural Image Caption Generation with Visual Attention” Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard Zemel, Yoshua Bengio http://arxiv.org/abs/1502.03044 • 上記実装: http://kelvinxu.github.io/projects/capgen.html https://github.com/ kelvinxu/arctic-captions • NeuralTalk / NueralTalk2 https://github.com/karpathy/neuraltalk2 20
  21. 21. Comments & Questions kashino@bakfoo.com 21 @yutakashino

×