Successfully reported this slideshow.
Your SlideShare is downloading. ×

マシンパーセプション研究におけるChainer活用事例

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Lab introduction 2014
Lab introduction 2014
Loading in …3
×

Check these out next

1 of 21 Ad

More Related Content

Slideshows for you (20)

Viewers also liked (20)

Advertisement

Similar to マシンパーセプション研究におけるChainer活用事例 (20)

Advertisement

Recently uploaded (20)

マシンパーセプション研究におけるChainer活用事例

  1. 1. 東京大学情報理工学系研究科 / 産総研AIセンター 中山 英樹 1 2016年7月2日 Chainer Meetup #03
  2. 2. 2 多様なマルチメディアセンサデータを 柔軟に理解・活用する知能システム 実世界 認知理解 Web マイニング ライフログ インタフェース 詳細画像識別 マルチメディア 情報処理 深層学習 機械学習 マルチモーダル 表現学習 大規模画像 認識・検索 多様なマルチメディア 動画像、自然言語、音楽音声、… マルチメディア マイニング 画像知識獲得 マシン パーセプション
  3. 3.  Chainer  Torch  Tensorflow  Theano  (Caffe…)  そろそろ一本化したい。。  今日はChainerを使って実装した事例をいくつか紹介します ◦ (私自身はそんなにChainerに詳しくないです…) 3
  4. 4.  動画像からの物体追跡・識別タスク ◦ 動画像数: 3862 (train), 555 (val), 937 (test) ◦ 物体種類数: 30 4
  5. 5. 5 フレーム 双方向RNN 物体領域 (矩形) の座標 http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/ilsvrc2015poster.pdf  概要図 ◦ RNNで時間方向のダイナミクスをモデル化 → 物体座標位置を回帰
  6. 6. 6  詳細図 ◦ RNNがネストされた構造 http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/ilsvrc2015poster.pdf
  7. 7. 7
  8. 8.  Microsoft Video to Language Challenge 2016 ◦ 動画の内容説明文生成のコンペティション ◦ http://ms-multimedia-challenge.com/challenge  NII+AIRC チーム ◦ 産総研AIセンター Perception and Language Understanding Project (の言語&ビジョンサブグループ) 8 Sang Phan (NII) Natsuda Laokulrat (AIRC) Noriki Nishida (Univ. Tokyo) Zhongyuan Zhu (Univ. Tokyo) Yo Ehara (AIRC) Hideki Nakayama (Univ. Tokyo, AIRC) Naoaki Okazaki (Univ. Tohoku, AIRC) Yusuke Miyao (NII, AIRC) Shin'ichi Satoh (NII, AIRC)
  9. 9. 9 a woman is slicing some vegetables a cat is trying to eat the food a dog is swimming in the pool  手法詳細は割愛…(未発表) この成果は、国立研究開発法人新エネル ギー・産業技術総合開発機構(NEDO)の 委託業務の結果得られたものです
  10. 10.  マルチモーダル映像認識 [Nishida, PSIVT’15] 10
  11. 11. 11
  12. 12. 12 モダリティA (RGB画像) モダリティB (オプティカルフロー) モダリティC (デプス画像)
  13. 13. 13 Late fusion model Early fusion model
  14. 14. 14
  15. 15. 15
  16. 16.  現状のさまざまな分野における個別タスクは、 結局どうエンコーダ・デコーダを作るかという話  これが当たり前になったとして、何ができるようになるか? 16 英語 日本語 画像 音声
  17. 17.  画像を媒介にした異言語テキストの関連性学習 [Funaki, EMNLP’15] ◦ 各ドキュメントはそれぞれの言語に閉じているが、他のマルチメディア 情報で修飾されていることを期待 ◦ Zero resourceで検索システムを学習
  18. 18. English Image Japanese Training English Japanese 二言語で対になった訓練データ (関連する内容についてのペア) テスト(検索) 関連性学習 (共通する潜在的表現の導出)
  19. 19. ◦ 多変量正準相関分析を用いた間接的な関連性学習 ◦ 画像を軸にして、似た者同士が近くに集まる分散表現を得る 19 言語1 (View 2) 画像 (View 1) 言語2 (View 3) 3 V W V U
  20. 20.  媒介データを増加させると精度が向上する ◦ チャンスレートは1% [Train-E/I] [Train-I/J] [Train-E/J] [Test-E/J] [100,200, 300,400] [100,200, 300,400] 0-100で Random Sampling 100 English Image Japanese [Train-E/I] E1 I1 - [Train-I/J] - I2 J2 [Train-E/J] E3 - J3 [Test-E/J] E4 - J4 加えてデータはすべてランダムで取った 50回の実験の平均を取ってグラフにした Zero-shot (本命)
  21. 21.  Chainer派 ◦ デバッグしやすい。中のコードも比較的読みやすい ◦ 新しい研究アイデアをすぐに試せる。トライアル & エラー がしやすい、 グラフ構造のコンパイルが必要ない ◦ データによって構造が変わるモデルを実装しやすい (recursive net など) ◦ CuPyは素晴らしい (ただindexingがNumpyより弱い?)  非Chainer派 ◦ 用意されている関数が他のライブラリに比べるとまだ乏しい ◦ マルチGPU環境はTensorflow等のほうが扱いやすい ◦ もう少しimmutableな設計にしてほしい ◦ 研究者コミュニティ(特に海外)では他のフレームワークが中心。ドキュ メント、コードなどの情報量の面で不利 21

×