SlideShare a Scribd company logo
1 of 14
Multi-Task Video Captioning with
Video and Entailment Generation
Ramakanth Pasunuru and Mohit Bansal
紹介する人:萩行 正嗣
(ウェザーニューズ)
ACL読み会2017@東工大
Video Captioning
• 動画(画像の系列)のキャプション(単語の系列)を生成するタスク
• 動画の長さは数秒から数十秒
• キャプションの長さは1文だが、正解は1つの動画に複数付いている
ACL読み会2017@東工大
Multi-Task Learning
• 複数のタスクでニューラルネットのパラメータを共有する
• メインのタスクの精度向上が前提で、サブタスクでも同精度か向上
することが多い
• Sequence-to-SequenceでEncoderやDecoderのパラメータを共有
[Luong+ 2016]
• 最近少しブーム?
• ACL、EMNLPともにMulti-taskとタイトルに入っている論文が4本
• 今回の論文では3つのタスクでパラメータを共有
• Caption generation
• Unsupervised video prediction
• Entailment generation
ACL読み会2017@東工大
Baseline 1: Sequence-to-Sequence Model
ACL読み会2017@東工大
Pre-trainedな画像認識モデルの
隠れ層の出力をLSTMに入れる
Baseline 2: Attention Model
ACL読み会2017@東工大
画像(動画)からの入力
Proposed Model
ACL読み会2017@東工大
3つのタスク
One-to-Many Many-to-One
Unsupervised Video Prediction
ACL読み会2017@東工大
実際は画像のFeature
(隠れ層の出力)を吐いている
本当のVideoから獲得される
Featureとの差分を最小化する
前半80%をEncoderに入れて、残りの20%を予測する
Unsupervisedとは言っているが…
Entailment Generation
• Attention付きのSequence-to-Sequenceとして、Premise(前提)から
Hypothesis(仮説)を予測
• Stanford Natural Language Inference(SNLI)から
”Entailment”のラベルが付いた190,113文対を使用
ACL読み会2017@東工大
Results: Caption Generation (Youtube2Text)
ACL読み会2017@東工大
括弧内のアルファベットは、画像処理のモデル(e.g., V = VGGNet)。
(E)はそのモデル内でのEnsembleの意味。
Examples of Generated Video Caption (1)
• Baselineよりよくなった例
ACL読み会2017@東工大
Examples of Generated Video Caption (2)
• 正解に曖昧性があるが、提案手法がそのうちの1つを当てた例
ACL読み会2017@東工大
Examples of Generated Video Caption (3)
• 提案手法もBaselineもいまいちな例
ACL読み会2017@東工大
Results & Examples: Entailment Generation
ACL読み会2017@東工大
まとめと感想
• Multi-Task LearningでVideo Caption Generationがよくなった
• Video caption generation
• Unsupervised video prediction
• Entailment generation
• 時間の方向性(temporally-directed)と推論の方向性(logically-
directed)の関連性に注目した点が面白い
• 個々のモデル自体はbaseline的なものなので、複雑にした時にうまく
Multi-taskとして組めるかは気になる
ACL読み会2017@東工大

More Related Content

Similar to Hangyo acl paperreading2017(Multi-Task Video Captioning with Video and Entailment Generation)

【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and BeyondTakashi YAMAMURA
 
Android ReactNative UITesting
Android ReactNative UITestingAndroid ReactNative UITesting
Android ReactNative UITestingVishal Banthia
 
Software Development with Symfony
Software Development with SymfonySoftware Development with Symfony
Software Development with SymfonyAtsuhiro Kubo
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Ohsawa Goodfellow
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
コード最適化と機械学習. DSIRNLP5 2014/1/11
コード最適化と機械学習. DSIRNLP5 2014/1/11コード最適化と機械学習. DSIRNLP5 2014/1/11
コード最適化と機械学習. DSIRNLP5 2014/1/11Yasunobu Sumikawa
 
xDB Replication ブローシャー
xDB Replication ブローシャーxDB Replication ブローシャー
xDB Replication ブローシャーYuji Fujita
 
Amazon ec2とは何か?
Amazon ec2とは何か?Amazon ec2とは何か?
Amazon ec2とは何か?Shinya_131
 
オブジェクト・関数型プログラミングからオブジェクト・関数型分析設計へ クラウド時代のモデリングを考える
オブジェクト・関数型プログラミングからオブジェクト・関数型分析設計へ  クラウド時代のモデリングを考えるオブジェクト・関数型プログラミングからオブジェクト・関数型分析設計へ  クラウド時代のモデリングを考える
オブジェクト・関数型プログラミングからオブジェクト・関数型分析設計へ クラウド時代のモデリングを考えるTomoharu ASAMI
 
[db tech showcase Tokyo 2018] #dbts2018 #D15 『5年連続!第三者機関の評価で(圧倒的)最強のピュアストレージが...
[db tech showcase Tokyo 2018] #dbts2018 #D15 『5年連続!第三者機関の評価で(圧倒的)最強のピュアストレージが...[db tech showcase Tokyo 2018] #dbts2018 #D15 『5年連続!第三者機関の評価で(圧倒的)最強のピュアストレージが...
[db tech showcase Tokyo 2018] #dbts2018 #D15 『5年連続!第三者機関の評価で(圧倒的)最強のピュアストレージが...Insight Technology, Inc.
 
サーバサイドの並行プログラミング〜かんたんマルチスレッドプログラミング〜
サーバサイドの並行プログラミング〜かんたんマルチスレッドプログラミング〜サーバサイドの並行プログラミング〜かんたんマルチスレッドプログラミング〜
サーバサイドの並行プログラミング〜かんたんマルチスレッドプログラミング〜gree_tech
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要Miho Yamamoto
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!guestc06e54
 
Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 応用編 -
Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 応用編 -Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 応用編 -
Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 応用編 -Yoichi Kawasaki
 
Elasticsearch勉強会_NLPQA.pptx
Elasticsearch勉強会_NLPQA.pptxElasticsearch勉強会_NLPQA.pptx
Elasticsearch勉強会_NLPQA.pptxshinhiguchi
 
Apache Mesosってなに
Apache MesosってなにApache Mesosってなに
Apache MesosってなにShingo Kitayama
 
「宣言的プログラミング」とSDNのひとつの形態
「宣言的プログラミング」とSDNのひとつの形態「宣言的プログラミング」とSDNのひとつの形態
「宣言的プログラミング」とSDNのひとつの形態npsg
 
『 イドラ ファンタシースターサーガ 』を支える GCP | Google Cloud INSIDE Games & Apps
『 イドラ ファンタシースターサーガ 』を支える GCP | Google Cloud INSIDE Games & Apps 『 イドラ ファンタシースターサーガ 』を支える GCP | Google Cloud INSIDE Games & Apps
『 イドラ ファンタシースターサーガ 』を支える GCP | Google Cloud INSIDE Games & Apps Google Cloud Platform - Japan
 
Mk network programmability-03
Mk network programmability-03Mk network programmability-03
Mk network programmability-03Miya Kohno
 

Similar to Hangyo acl paperreading2017(Multi-Task Video Captioning with Video and Entailment Generation) (20)

【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
【文献紹介】Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond
 
Android ReactNative UITesting
Android ReactNative UITestingAndroid ReactNative UITesting
Android ReactNative UITesting
 
Software Development with Symfony
Software Development with SymfonySoftware Development with Symfony
Software Development with Symfony
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
コード最適化と機械学習. DSIRNLP5 2014/1/11
コード最適化と機械学習. DSIRNLP5 2014/1/11コード最適化と機械学習. DSIRNLP5 2014/1/11
コード最適化と機械学習. DSIRNLP5 2014/1/11
 
xDB Replication ブローシャー
xDB Replication ブローシャーxDB Replication ブローシャー
xDB Replication ブローシャー
 
Amazon ec2とは何か?
Amazon ec2とは何か?Amazon ec2とは何か?
Amazon ec2とは何か?
 
[Japan Tech summit 2017] DAL 005
[Japan Tech summit 2017] DAL 005[Japan Tech summit 2017] DAL 005
[Japan Tech summit 2017] DAL 005
 
オブジェクト・関数型プログラミングからオブジェクト・関数型分析設計へ クラウド時代のモデリングを考える
オブジェクト・関数型プログラミングからオブジェクト・関数型分析設計へ  クラウド時代のモデリングを考えるオブジェクト・関数型プログラミングからオブジェクト・関数型分析設計へ  クラウド時代のモデリングを考える
オブジェクト・関数型プログラミングからオブジェクト・関数型分析設計へ クラウド時代のモデリングを考える
 
[db tech showcase Tokyo 2018] #dbts2018 #D15 『5年連続!第三者機関の評価で(圧倒的)最強のピュアストレージが...
[db tech showcase Tokyo 2018] #dbts2018 #D15 『5年連続!第三者機関の評価で(圧倒的)最強のピュアストレージが...[db tech showcase Tokyo 2018] #dbts2018 #D15 『5年連続!第三者機関の評価で(圧倒的)最強のピュアストレージが...
[db tech showcase Tokyo 2018] #dbts2018 #D15 『5年連続!第三者機関の評価で(圧倒的)最強のピュアストレージが...
 
サーバサイドの並行プログラミング〜かんたんマルチスレッドプログラミング〜
サーバサイドの並行プログラミング〜かんたんマルチスレッドプログラミング〜サーバサイドの並行プログラミング〜かんたんマルチスレッドプログラミング〜
サーバサイドの並行プログラミング〜かんたんマルチスレッドプログラミング〜
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!
 
Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 応用編 -
Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 応用編 -Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 応用編 -
Azure Functions&Logic Appではじめるサーバレスアプリケーション開発 - 応用編 -
 
Elasticsearch勉強会_NLPQA.pptx
Elasticsearch勉強会_NLPQA.pptxElasticsearch勉強会_NLPQA.pptx
Elasticsearch勉強会_NLPQA.pptx
 
Apache Mesosってなに
Apache MesosってなにApache Mesosってなに
Apache Mesosってなに
 
「宣言的プログラミング」とSDNのひとつの形態
「宣言的プログラミング」とSDNのひとつの形態「宣言的プログラミング」とSDNのひとつの形態
「宣言的プログラミング」とSDNのひとつの形態
 
『 イドラ ファンタシースターサーガ 』を支える GCP | Google Cloud INSIDE Games & Apps
『 イドラ ファンタシースターサーガ 』を支える GCP | Google Cloud INSIDE Games & Apps 『 イドラ ファンタシースターサーガ 』を支える GCP | Google Cloud INSIDE Games & Apps
『 イドラ ファンタシースターサーガ 』を支える GCP | Google Cloud INSIDE Games & Apps
 
Mk network programmability-03
Mk network programmability-03Mk network programmability-03
Mk network programmability-03
 

Hangyo acl paperreading2017(Multi-Task Video Captioning with Video and Entailment Generation)