SlideShare a Scribd company logo
1 of 54
ICCV 2017 読み会
Learning Cooperative Visual Dialog
with Deep Reinforcement Learning
牛久 祥孝
losnuevetoros
自己紹介
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3 NTT コミュニケーション科学基礎研究所
2016.4~ 東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 (原田・牛久研究室)
その他 関東CV勉強会幹事・PRMU研究会専門委員
最近のイベント
結婚式を挙げました
どれが12/10の様子の写真でしょう?
・質問2回までok
・左側の画像?みたいな聞き方は×
この遊びをエージェントがやる論文を読みます
本日の論文
視覚データに基づく協調的な対話を実現する強化学習手法
目標は画像あてっこゲームをやるエージェントの実現
研究背景~手法の説明
ゲームのルール
10 Round のQA後Questionerが画像を当てる
当たれば2エージェント共に勝利(協調)
10
Rounds
背景:Vision & Language の発展
Image Captioning (for Visual Questioning)
2014: ちょっとだけ深層学習使ってみる
2015: CNN+(attention+)RNN
2016: Attribute
2017: 強化学習/敵対的学習←いまここ
Visual Question Answering
[Fukui+, EMNLP 2016]
なぜ言語か
• 一番トリビアルな解:
「Questionerを無視してAnswererが画像や
画像特徴量を送付」
自然言語(シンボル列)はボトルネックとして
作用→トリビアルな解を回避できる
• 人間に理解可能:学習後、どちらかのエー
ジェントと人間が交替して対話できる
Questioner Answerer大人が写っていますか?
(無視)
関連研究
• Visual Dialog [Das+, CVPR 2017]
– 今日読む論文の著者らの仕事
– データセット公開(口述)
– 自動対話手法のベースライン
• GuessWhat?! Visual object discovery through
multi-modal dialogue [de Vries+, CVPR 2017]
同様のモチベーションの研究は実はすでにある!…が
関連研究の問題点
いずれも対話生成の教師あり学習
• Answererを例にとると、𝑡番目のQAでは…
– Round 𝑡 − 1迄の質問𝑞1, … , 𝑞𝑡−1と応答𝑎1, … , 𝑎 𝑡−1
– Round 𝑡 の質問𝑞𝑡
→𝑎 𝑡を出力できるように学習
• Answererが推定した 𝑎 𝑡が𝑎 𝑡とは違っても、
対話としては正しい可能性がある
– が、学習時には単純に無視される
– 𝑎 𝑡に対応した質問𝑞𝑡+1はデータセットに無い
– 学習中にエージェント自身が対話を制御できる
機会は与えられない
本研究の方針
• 強化学習の活用
– AlphaGo [Silver+, Nature 2016]からの着想
– 画像あてゲームの成功/失敗を報酬として最適化
• Fine-tuneとして採用
– 事前学習はこれまで同様教師あり学習
– フルスクラッチでの強化学習だと…
• 画像と言語の関係やコミュニケーションプロトコルの
学習が困難
• 学習できたとしても、結果としてエージェントが人間
の言葉を喋る可能性は低い
提案手法による対話と学習
• 質問𝑞𝑡と応答𝑎 𝑡の生成・理解:
Hierarchical Recurrent Encoder-Decoder
• 画像(特徴量)𝑦の推定値 𝑦の出力:
単層全結合ネットワークによる回帰
Hierarchical Recurrent Encoder-Decoder
基本的に名前の通りのニューラルネット
• Encoder-Decoder
– 質問𝑞𝑡や応答𝑎 𝑡の処理(Encode)と生成(Decode)
• Recurrent
– 系列をRecurrent Neural Network (LSTM
[Hochreiter+Schmidhuber, 1997])で処理
• Hierarchical
– 何が階層的…?
入力
出力
[Sutskever+, NIPS 2014]より
Hierarchical Recurrent Encoder-Decoder
何が階層的なのか
→一層目は質問𝑞𝑡と応答𝑎 𝑡をFact 𝐹𝑡に埋め込む
Fact Embedding
are
𝑞𝑡
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
there
any
animals
are
there
yes
elephants
two
𝑎 𝑡
Fact 𝐹𝑡
Hierarchical Recurrent Encoder-Decoder
何が階層的なのか
→一層目は質問𝑞𝑡と応答𝑎 𝑡をFact 𝐹𝑡に埋め込む
→二層目はFact 𝐹𝑡の系列をState 𝑆𝑡に埋め込む
History Encoder
𝐹1
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
𝐹𝑡−2 𝐹𝑡𝐹𝑡−1
State 𝑆𝑡
𝐹2 𝐹3
Questionerのふるまいを理解する
Questionerのふるまいを理解する
今説明した 一層目 と 二層目
Questionerのふるまいを理解する
直前のState 𝑆𝑡−1
𝑄
から質問𝑞𝑡を生成
Questionerのふるまいを理解する
更新されたState 𝑆𝑡
𝑄
から推定される画像特徴 𝑦𝑡を生成
→round 𝑡 の損失の源
Answererのふるまいを理解する
Answererのふるまいを理解する
今説明した 一層目 と 二層目
Answererのふるまいを理解する
質問𝑞𝑡の解釈と応答𝑎 𝑡の生成
Round 𝑡 − 1における
推定のズレ
Round 𝑡における
推定のズレ
損失の計算
• Roundごとに損失𝑟𝑡が発生
→パラメータ𝜃 𝑄、𝜃 𝐴、𝜃𝑓を更新
– 𝜃 𝑄:QuestionerのHierarchical Recurrent Encoder-Decoder
– 𝜃 𝐴:AnswererのHierarchical Recurrent Encoder-Decoder
– 𝜃𝑓:単層全結合ネットワークによる回帰のパラメータ
• 雰囲気としては、round 𝑡 のQAを踏まえて
より正解画像に近づければOK!
勾配の計算
• 𝜃 𝑄、𝜃 𝐴の勾配は直接計算できない
– REINFORCE [Williams, 1992] で計算
– REINFORCEは画像キャプション生成
でも利用され始めている
Cf. CVPR 2017読み会で読んだ論文
– 𝜃𝑓の勾配は通常の偏微分
Round 𝑡 − 1における
推定のズレ
Round 𝑡における
推定のズレ
実験結果~まとめ
予備実験の概要
• 英語ではなく記号の世界
– Shape, Color, Style各4通り
– つまり画像は全64種類
• 3つの属性の任意の2種類を当てるタスク
– Questioner の語彙: X, Y, Z の3単語
– Answerer の語彙: 1, 2, 3, 4 の4単語
– 各単語の定義は全く与えていない
Questioner Answerer(Square, Purple, Filled)
予備実験の結果
• 語彙の役割が自動的に学習された
– X, Y, Zがそれぞれいずれかの属性を指し
– 1, 2, 3, 4がそれぞれの属性の特定のラベルを指す
• なお、Answerer の語彙を64以上にすると…
– Questioner の質問を無視して答えを教え出す
予備実験の結果
• 前スライド以外の例
今回の試行では…
– Xがcolor
– Yがshape
– Zがstyle
• 割とすぐに収束
著者ら
「言語接地と
コミュニケーションを
自動で獲得した!」
本実験:VisDial データセット[Das+, CVPR 2017]
• MS COCOが基本
– 12万枚の画像
– 5キャプション/画像
• 1対話/画像を収集
– Amazon Mechanical Turk
– QA形式で10ラウンド
• 本論文はv0.5を利用
– 画像約7万枚の対話
– 2017年12月現在はv0.9(画像約12万枚の対話)
学習方法
1. Supervised Pretraining
– 15エポック
– 通常の教師あり学習
2. Curriculum Learning
– 10エポック
– Kエポック目は…
• 10-Kラウンドまで教師あり学習
• その後のKラウンドが強化学習
– エポックが進むと自由度が増す
→ Curriculum Learning [Bengio+, ICML 2009]
(どこかに良い資料があればなあ…)
比較手法
• SL-pretrained
– 教師あり学習
• Frozen-Q
• Frozen-A
• Frozen-f
– 𝜃 𝑄、𝜃 𝐴、𝜃𝑓のどれかをSL-pretrainのまま固定
– そのほかの2つのパラメータ群を強化学習
• RL-full-Qaf
– 𝜃 𝑄、𝜃 𝐴、𝜃𝑓すべてのパラメータ群を強化学習
定性的な対話結果例①
Questioner Answerer
A couple of people
in the snow on skis.
人間同士だと…
Questioner Answerer
A couple of people
in the snow on skis.
What are their genders?
Are they both adults?
Do they wear goggles?
Do they have hats on?
Are there any other people?
What color is man’s hat?
Is it snowing now?
What is woman wearing?
Are they smiling?
Do you see trees?
1 man 1 woman
Yes
Looks like sunglasses
Man does
No
Black
No
Blue jacket and black pants
Yes
Yes
SL-Pretrained(教師あり事前学習のみ)
Questioner Answerer
A couple of people
in the snow on skis.
2
I can’t tell
I can’t tell, they are far away
I can’t tell
Yes
Yes
Yes
Yes
Yes
Yes
How many people?
Male or female?
What are they wearing?
What color are skis?
Are they wearing goggles?
Are they wearing goggles?
Are they wearing goggles?
Are they wearing goggles?
Are they wearing hats?
Are they wearing goggles?
RL-full-QAf(提案手法)
Questioner Answerer
A couple of people
in the snow on skis.
Are people male or female or both?
What are they wearing?
Is it snowing?
Can you see any trees?
Can you see any buildings in background?
Can you see any trees?
Can you see any buildings in background?
Can you see any trees?
Can you see any buildings in background?
Does it look like they are in park?
I think 1 is male, can’t see other 1 ...
They are all wearing snow pants and jackets
It does not appear to be snowing at moment
Yes, there are lot of trees in background
No, I can not
Yes, there are lot of trees in background
No, I do not see any buildings
Yes, there are lot of trees in background
No , I do not see any buildings
It does not appear to be
定性的な対話結果例②
Questioner Answerer
A man riding a skateboard
down the side of a ramp.
人間同士だと…
Questioner Answerer
A man riding a skateboard
down the side of a ramp.
How old is man?
Is he wearing helmet?
Is he wearing any protective gear?
What color is his hair?
What color is his shirt?
Is he wearing shorts?
What color are his shorts?
Are there other people visible?
What color are his shoes?
Is this at skate park?
In his teens
No
No
Dirty blonde or dark brown
Black with red letters
Yes
Denim
No
I can’t see them
Yes
SL-Pretrained(教師あり事前学習のみ)
Questioner Answerer
A man riding a skateboard
down the side of a ramp.
How old is man?
What is he wearing?
What color is his shirt?
what color are his pants?
what color is his shirt?
What color are his shoes?
What color are his shoes?
What color are his shoes?
What color are his shoes?
What color are his shoes?
I can’t see his face, I don’t know
shorts and t shirt
white
black
blue
Black
Black
Black
Black
Black
RL-full-QAf(提案手法)
Questioner Answerer
A man riding a skateboard
down the side of a ramp.
What color is skateboard?
Is he wearing helmet?
Is he wearing knee pads?
Is it day or night?
Is it sunny?
Can you see any other people?
Is it day or night?
Is it sunny?
What color is skateboard?
Is he wearing helmet?
It is hard to tell but I think it’s black
Yes
No, no knee pads
It is daytime
It is bright out, but I see no shadows, so I can not
There are 2 other people in background
It is daytime
Yes, it is sunny
It is hard to tell but I think it’s black
Yes, he is wearing helmet
定性的な対話生成結果から
SL-Pretrainedは…
• 無限ループにはまりがち
– 提案手法にもある
– が、その数はずっと少ない
• 無難な表現を頻出させがち
– QuestionもAnswerも
– キャプション生成「あるある」
– テキスト対話[Li+, EMNLP 2016]でも発生
– 提案手法はより詳細で多様な表現
What color is his shirt? white
What color are his pants? black
what color is his shirt? blue
What color are his shoes? Black
What color are his shoes? Black
What color are his shoes? Black
What color are his shoes? Black
What color are his shoes? Black
Questioner Answerer
定性的な画像あて結果例
• 第1,3,6Roundのやり取り
• 赤枠:Questionerが1枚目にランクした画像
• 他の画像:正解画像との距離が赤枠の画像
のそれと同じような画像
正解画像+キャプション
評価:画像あてゲーム
• 正解画像を1枚目にランクできれば一番よい
テスト画像は約9500枚
• Percentile=正解のランク(下からみて)
「Percentile 90%」=「正解は上から950枚目」
評価:画像あてゲーム
• (もちろん)提案手法が一番良い
Frozen-*の中ではFrozen-fが一番マシ
• 提案手法以外はRound進むと画像を忘れる
とは著者らの主張だが、提案手法も同じような…?
評価:人間の対話の再現精度
• Answererの応答候補を100個用意
– 各手法が各応答候補を出力する事後確率を計算
– 事後確率でソート→正解応答のランクで評価
• R@K: 上位K件のみ抽出した際の再現率
• MRR: Mean Reciprocal Rank
– ランクの逆数の平均、1.0に近づくほど良い
評価:人間の対話の再現精度
• Frozen-Q-multi: Frozen-Qでマルチタスク
– Frozen-Q: 強化学習のみでfine-tune
– Frozen-Q-multi: 教師あり+強化学習でfine-tune
• 正直な感想「差がない」
– 一番推したいはずのRL-full-QAfがしょっぱい
– 著者ら「正解以外でも正しい応答がある」
まとめ
• Image Guessing ゲームをする2エージェン
トの強化学習
– 視覚に基づく対話の機械学習に取り組んだ
– 教師あり学習→強化学習の効果を示した
• 研究のプランニングがうまい
同一グループの研究が矢継ぎ早に出ている
– VisDialデータセットとベースライン[Das+, CVPR 2017]
– QuestionerとAnswererの強化学習[Das+, ICCV 2017]
– 人間とAIの協調作業[Chattopadhyay+, HCOMP 2017]
• 視覚に基づいた対話研究は増える兆し
• 精度としてはまだまだ改善の余地あり
最後に
寒すぎて味噌ラーメンが食べたい?
ぜひご参加ご検討ください!特に若手プログラムへ
https://sites.google.com/view/miru2018sapporo/
来年の夏ですが

More Related Content

What's hot

Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組みYoshitaka Ushiku
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...Yoshitaka Ushiku
 
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)Yoshitaka Ushiku
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた株式会社メタップスホールディングス
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向Koichiro Mori
 
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...Yuya Unno
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN Chiba Institute of Technology
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...Yoshitaka Ushiku
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131Hangyo Masatsugu
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018佑 甲野
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得Yuya Unno
 

What's hot (20)

Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
 
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN
 
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
 
NLP2017 NMT Tutorial
NLP2017 NMT TutorialNLP2017 NMT Tutorial
NLP2017 NMT Tutorial
 
全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
 
Emnlp読み会資料
Emnlp読み会資料Emnlp読み会資料
Emnlp読み会資料
 

Similar to Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 ICCV 2017 読み会)

Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理Preferred Networks
 
北海学園英語教育研究会第4回研究会特別セミナースライド
北海学園英語教育研究会第4回研究会特別セミナースライド北海学園英語教育研究会第4回研究会特別セミナースライド
北海学園英語教育研究会第4回研究会特別セミナースライドKazuhito Yamato
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
DDDハンズオン
DDDハンズオンDDDハンズオン
DDDハンズオンSoudai Sone
 
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目schoowebcampus
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用NVIDIA Japan
 
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...KIT Cognitive Interaction Design
 
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹KIT Cognitive Interaction Design
 
研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011Preferred Networks
 
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Hisao Soyama
 
No018-01-suc3rum-20100929
No018-01-suc3rum-20100929No018-01-suc3rum-20100929
No018-01-suc3rum-20100929Sukusuku Scrum
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目Atsushi Hashimoto
 
まじめに!できる!LT
まじめに!できる!LT まじめに!できる!LT
まじめに!できる!LT Akabane Hiroyuki
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalitiescvpaper. challenge
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用Kazuki Fujikawa
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15Yoichi Ochiai
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門Hiroyoshi Komatsu
 

Similar to Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 ICCV 2017 読み会) (20)

Jacet2014ykondo_final
Jacet2014ykondo_finalJacet2014ykondo_final
Jacet2014ykondo_final
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
北海学園英語教育研究会第4回研究会特別セミナースライド
北海学園英語教育研究会第4回研究会特別セミナースライド北海学園英語教育研究会第4回研究会特別セミナースライド
北海学園英語教育研究会第4回研究会特別セミナースライド
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
DDDハンズオン
DDDハンズオンDDDハンズオン
DDDハンズオン
 
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
【Schoo web campus】「相手に伝わる」文章を書く技術 2限目
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用
 
Argmax Operations in NLP
Argmax Operations in NLPArgmax Operations in NLP
Argmax Operations in NLP
 
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
(第3版)「知能の構成的解明の研究動向と今後の展望」についての個人的見解:Chain of thought promptingやpostdictionを中...
 
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
人工知能技術の現状-今後の見通し-社会へのインパクト-岡夏樹
 
研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011
 
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
 
No018-01-suc3rum-20100929
No018-01-suc3rum-20100929No018-01-suc3rum-20100929
No018-01-suc3rum-20100929
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目
 
デザイン思考入門クラス 2016年5月27日
デザイン思考入門クラス 2016年5月27日 デザイン思考入門クラス 2016年5月27日
デザイン思考入門クラス 2016年5月27日
 
まじめに!できる!LT
まじめに!できる!LT まじめに!できる!LT
まじめに!できる!LT
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 
先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15先端技術とメディア表現1 #FTMA15
先端技術とメディア表現1 #FTMA15
 
質問応答システム入門
質問応答システム入門質問応答システム入門
質問応答システム入門
 

More from Yoshitaka Ushiku

ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningYoshitaka Ushiku
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考えるYoshitaka Ushiku
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationYoshitaka Ushiku
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILYoshitaka Ushiku
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...Yoshitaka Ushiku
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)Yoshitaka Ushiku
 

More from Yoshitaka Ushiku (7)

ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
Asymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain Adaptation
 
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
 
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
 
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 ICCV 2017 読み会)