Deep Learning による視覚×言語融合の最前線

Yoshitaka Ushiku
Yoshitaka UshikuPI and CRO at OMRON SINIC X / Ridge-i
Deep Learningによる
視覚・言語融合の最前線
東京大学 大学院情報理工学系研究科
牛久 祥孝
losnuevetoros
自己紹介
~2014.3 博士(情報理工学)、東京大学
• 画像説明文の自動生成
• 大規模画像分類
2014.4~2016.3 NTT コミュニケーション科学基礎研究所
2016.4~ 東京大学 大学院情報理工学系研究科
知能機械情報学専攻 講師 (原田・牛久研究室)
2012年:一般物体認識における激震
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年の画像
認識タスクで
ディープ勢が
2位以下に圧勝!
2012年:一般物体認識における激震
ところで公式サイトをみると…
1位 SuperVision
エラー率15%
2位 ISI
エラー率26%
我々というツマ
深層学習という特上ネタ
[http://image-net.org/challenges/LSVRC/2012/results.html]
ユーザー生成コンテンツの爆発的増加
特にコンテンツ投稿・共有サービスでは…
• Facebookに画像が2500億枚 (2013年9月時点)
• YouTubeにアップロードされる動画
1分間で計400時間分 (2015年7月時点)
Pōhutukawa blooms this
time of the year in New
Zealand. As the flowers
fall, the ground
underneath the trees look
spectacular.
画像/動画と
関連する文章の対
→大量に収集可能
入力
出力
Deep Learning の恩恵
• 深層学習による画像認識の精緻化 [Krizhevsky+, NIPS 2012]
• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]
– RNNで問題になっていた勾配の消失をLSTM
[Hochreiter+Schmidhuber, 1997] で解決
→文中の離れた単語間での関係を扱えるように
– LSTMを4層つなぎ、end-to-endで機械学習
→state-of-the-art並み(英仏翻訳)
CNN/RNNなどの共通技術が台頭
画像認識や機械翻訳の参入障壁が低下
画像キャプション生成
Group of people sitting
at a table with a dinner.
Tourists are standing on
the middle of a flat desert.
[Ushiku+, ICCV 2015]
動画キャプション生成
A man is holding a box of doughnuts.
Then he and a woman are standing next each other.
Then she is holding a plate of food.
[Shin+, ICIP 2016]
他言語化・キャプション翻訳
Ein Masten mit zwei Ampeln
fur Autofahrer. (独語)
A pole with two lights
for drivers. (英語)
[Hitschler+, ACL 2016]
キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, 2016]
ビジュアル質問応答
[Fukui+, EMNLP 2016]
本講演の目的
視覚×言語の融合研究を俯瞰
• 各領域の歴史的な流れ
• Deep Learning 登場以前と以後の変化を説明
× Deep Learning で初めてこれらの研究が誕生
✓ Deep Learning でこれらの研究が精緻化
1. 画像キャプション生成
2. 動画キャプション生成
3. 言語横断
4. 画像に関する質問への応答
5. キャプションからの画像生成
視覚・言語融合の最前線1
画像キャプション生成
Every picture tells a story [Farhadi+, ECCV 2010]
データセット:
画像+<object, action, scene>+キャプション
1. 画像の<object, action, scene>をMRFで推定
2. <object, action, scene>が同じキャプションを検
索して利用
<Horse, Ride, Field>
Every picture tells a story [Farhadi+, ECCV 2010]
再利用?新規生成?
• 再利用
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
主語+動詞の文を生成しよう
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
再利用?新規生成?
• 再利用
– A small gray dog on a leash.
• 新規生成
– テンプレート
dog+stand ⇒ A dog stands.
– 非テンプレート
A small white dog standing on a leash.
A small gray dog
on a leash.
A black dog
standing in
grassy area.
A small white dog
wearing a flannel
warmer.
入力 データセット
マルチキーフレーズ推定アプローチ
当時の問題=使用候補であるフレーズの精度が悪い
キーフレーズを独立なラベルとして扱うと…
マルチキーフレーズの推定=一般画像認識
文生成は[Ushiku+, ACM MM 2011]と同じ
[Ushiku+, ACM MM 2012]
文の終わり
入力
出力
Deep Learning の恩恵 (再掲)
• 深層学習による画像認識の精緻化 [Krizhevsky+, NIPS 2012]
• 機械翻訳でも深層学習が登場 [Sutskever+, NIPS 2014]
– RNNで問題になっていた勾配の消失をLSTM
[Hochreiter+Schmidhuber, 1997] で解決
→文中の離れた単語間での関係を扱えるように
– LSTMを4層つなぎ、end-to-endで機械学習
→state-of-the-art並み(英仏翻訳)
CNN/RNNなどの共通技術が台頭
画像認識や機械翻訳の参入障壁が低下
Google NIC [Vinyals+, CVPR 2015]
Googleで開発された
• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM [Sutskever+, NIPS 2014]
を直列させて文生成する。
画像𝐼への文(単語列)𝑆0 … 𝑆 𝑁は
𝑆0: スタートを意味する単語
𝑆1 = LSTM CNN 𝐼
𝑆𝑡 = LSTM St−1 , 𝑡 = 2 … 𝑁 − 1
𝑆 𝑁: ストップを意味する単語
生成された説明文の例
[https://github.com/tensorflow/models/tree/master/im2txt]
[Ushiku+, ACM MM 2012]と比べると
入力画像
[Ushiku+, ACM MM 2012]では:
Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では:
CNN(オンライン学習なのは一緒)
CVPR 2015 の各論文では:
RNNとビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012]では:
キーフレーズと文法モデル、
ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に
• いずれも画像+キャプションのみから学習可能
• 全体の流れは非常に似ている
“キーフレーズ”
一番大きく違うところは…?
• 深層学習以前の新規キャプション生成
何らかの語句に変換してから文生成器へ
• 深層学習による新規キャプション生成
画像特徴量を直接文生成器へ
ところが最近では…
• CNNで事物の認識まで済ませてRNNで文生
成[Wu+, CVPR 2016][You+, CVPR 2016]
→画像特徴量の段階でRNNに渡すより高性能!
• 深層学習以前のアプローチとより類似
[You+, CVPR 2016][Wu+, CVPR 2016]
現在の展開:精度の発展
• 画像認識
InceptionモデルやResNetなど、より高精度なCNN
• 自然言語処理
画像認識側が完璧になったと仮定した文生成
[Gupta+Mannem, ICONIP 2012][Elliott+Keller, EMNLP 2013][Yatskar+,
*Sem 2014][Yao+, ICLR workshop 2016]
• 機械学習
変分自己符号化器の利用 [Pu+, NIPS 2017]
現在の展開:精度の発展
• 2分野が融合して新たに生まれたものの例:
– アテンションモデルの利用 [Xu+, ICML 2015]
– 画像+キャプションから注視モデルも学習!
現在の展開:問題の発展
より細かいキャプション生成
[Lin+, BMVC 2015] [Johnson+, CVPR 2016]
現在の展開:問題の発展
アルバムのような系列画像にキャプション生成
[Park+Kim, NIPS 2015][Huang+, NAACL 2016]
The family
got
together for
a cookout.
They had a
lot of
delicious
food.
The dog
was happy
to be there.
They had a
great time
on the
beach.
They even
had a swim
in the water.
現在の展開:問題の発展
感性語Sentiment Termを重視したキャプション生成
[Mathews+, AAAI 2016][Shin+, BMVC 2016]←Ours!
ニュートラルな文
ポジティブな文
(生成した例)
視覚・言語融合の最前線2
動画キャプション生成
深層学習登場以前
• 言語と動画内の物体とのグラウンディング
[Yu+Siskind, ACL 2013]
– 動画とその動画を説明する文のみから学習
– 対象物体が少なく、コントロールされた小規模デー
タセットでの実験
• 深層学習との親和性は高いはず
– 画像キャプション生成:静止画→単語列
– 動画キャプション生成:静止画列→単語列
深層学習によるend-to-endな学習
• LRCN
[Donahue+, CVPR 2015]
– CNN+RNN
• 動作認識
• 画像/動画
キャプション生成
• Video to Text
[Venugopalan+, ICCV 2015]
– CNN+RNN
• RGB画像で物体を
• オプティカルフローで
動作を
認識→キャプション生成
動画キャプション生成
A man is holding a box of doughnuts.
Then he and a woman are standing next each other.
Then she is holding a plate of food.
[Shin+, ICIP 2016]
動画キャプション生成
A boat is floating on the water near a mountain.
And a man riding a wave on top of a surfboard.
Then he on the surfboard in the water.
[Shin+, ICIP 2016]
MS COCO Captioning Challenge
• CVPR 2015で行われた競争型ワークショッ
プ
– 1位:Google
• 基本的にはGoogle NIC
• 後の[Bengio+, NIPS2015]において…
RNNの学習にCurriculum Learning [Bengio+, ICML
2009] を導入していたことが判明
– 2位:MSR
• CVPR2015で発表された論文の通り、
CNN+RNN以外の工夫もしている
• のちにRNNによる文生成も検討
[Devlin+, IJCNLP 2015]
キャプション生成そのものは終わった?
• 深層学習のおかげで画像認識は人間並み…?
– ILSVRC 2015 における1000クラス画像認識では…
誤識別率:人(5%)よりResNet(4%弱)が正確
– MS COCO Captioning Challenge では…
M1:人間並みかそれ以上のキャプションの割合
M2:チューリングテストをパスしたキャプションの割合
M3:正確さの5段階評価(5が最良)
M4:詳細さの5段階評価(5が最良)
M5:既存キャプションによく似たキャプションの割合
アンケート
評価
キャプション生成の2大アプローチ
• 既存キャプションの再利用
× 全く同じ内容のキャプションがあるか不明
✔ 文法的に正しい
• 新規キャプション生成
✔ 画像の内容を過不足なく表現できるはず
× 文法的に正しいか分からない
Deep Learning によって
• 既存キャプションの再利用
× 全く同じ内容のキャプションがあるか不明
✔ 文法的に正しい
✔ 詳細な記述をあてられる
• 新規キャプション生成
✔ 画像の内容を過不足なく表現できるはず
✔ 文法的に正しいか分からない正しい
× 曖昧な、最大公約数的な記述になる
視覚・言語融合の最前線3
他言語化・キャプション翻訳
他言語への展開
データセット
• IAPR TC12 [Grubinger+, 2006] 20,000画像+英独
• Multi30K [Elliot+, 2016] 30,000画像+英独
• STAIR Captions [吉川ら、 2017]
MS COCO (10万超画像+英語キャプション)
→すべてに日本語キャプションを付与
タスクとしての展開
• 英語でない画像キャプション生成
• マルチモーダル機械翻訳/言語間文書検索
1. 入力:言語Aでのキャプション+画像
2. 入力:言語Aでのキャプション
→ 出力:言語Bでのキャプション(1.と2.で同じ)
英語でない画像キャプション生成
英語でない画像キャプション生成
多くは英語のキャプションを生成するが…
• 日本語 [Miyazaki+Shimizu, ACL 2016]
• 中国語 [Li+, ICMR 2016]
• トルコ語 [Unal+, SIU 2016]
Çimlerde ko¸ san bir köpek
金色头发的小女孩
柵の中にキリンが一頭
立っています
単にデータ集めを頑張るだけ?
他言語での知識を流用 [Miyazaki+Shimizu, ACL 2016]
• 他言語の視覚-言語グラウンディングの転移
• 少数のキャプション付き画像でも効率よく学習
an elephant is
an elephant
一匹の 象が 土の
一匹の 象が
マルチモーダル機械翻訳
言語横断型の研究
画像は機械翻訳の精度に寄与[Calixto+,2012]
• 英語でsealとあるけど、
・stampに近いsealなのか?
・sea animalのsealなのか?
がわからず誤ったポルトガル語に翻訳
• (実験してないけど)画像があれば防げるはず!
入力:言語Aのキャプション+画像
• 画像を介した言語横断キャプション翻訳
[Elliott+, 2015] [Hitschler+, ACL 2016]
– 最初に候補翻訳を複数生成(画像には非依存)
– 類似画像に付随する言語Bのキャプションを
利用して翻訳候補から出力を選択
Eine Person in
einem Anzug
und Krawatte
und einem Rock.
(独語)
画像を見ない場合の翻訳
A person in a suit and tie
and a rock.
画像を利用した場合の翻訳
A person in a suit and tie
and a skirt.
入力:言語Aのキャプション
• 画像を介した言語横断関連文書検索
[Funaki+Nakayama, EMNLP 2015]
• ゼロ対訳コーパスでのマルチモーダル翻訳
[Nakayama+Nishida, 2017]
視覚・言語融合の最前線4
画像に関する質問への応答
Visual Question Answering (VQA)
最初はユーザインタフェース分野で注目
• VizWiz [Bigham+, UIST 2010]
AMTで人力解決
• 初の自動化(ディープラーニング不使用)
[Malinowski+Fritz, NIPS 2014]
• 類似用語:Visual Turing Test [Malinowski+Fritz, 2014]
VQA: Visual Question Answering
• ビジュアル質問応答を分野として確立
– ベンチマークデータセットの提供
– ベースとなるパイプラインでの実験
• ポータルサイトも運営
– http://www.visualqa.org/
– 国際コンペティションも開催
[Antol+, ICCV 2015]
What color are her eyes?
What is the mustache made of?
VQA Dataset
AMT で質問と回答を収集
• 10万超の実画像、3万超のアニメ調画像
• 計70万弱の質問+それぞれ10の模範回答
VQA=多クラス分類問題
表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別
質問文𝑄
What objects are
found on the bed?
応答𝐴
bed sheets, pillow
画像𝐼
画像特徴量
𝑥𝐼
質問特徴量
𝑥 𝑄
統合された
表現ベクトル
𝑧𝐼+𝑄
その後の展開
「統合された表現ベクトル 𝑧𝐼+𝑄」の工夫
• VQA [Antol+, ICCV 2015]:そのまま直列に並べる
• 「和」グループ
例 Attentionで重みづけ和をとった画像特徴と
質問特徴を単純に足す [Xu+Saenko, ECCV 2016]
• 「積」グループ
例 双線形積とフーリエ変換を組み合わせる
[Fukui+, EMNLP 2016]
• 「和」と「積」のハイブリッド
例 要素毎の積と要素毎の和を直列に並べる
[Saito+, ICME 2017]
𝑧𝐼+𝑄 =
𝑥𝐼
𝑥 𝑄
𝑥𝐼 𝑥 𝑄
𝑥𝐼 𝑥 𝑄𝑧𝐼+𝑄 =
𝑧𝐼+𝑄 =
𝑧𝐼+𝑄 =
𝑥𝐼 𝑥 𝑄
𝑥𝐼 𝑥 𝑄
VQA Challenge
コンペティション参加チームの解答例から
Q: What is the woman holding?
GT A: laptop
Machine A: laptop
Q: Is it going to rain soon?
GT A: yes
Machine A: yes
VQA Challenge
コンペティション参加チームの解答例から
Q: Why is there snow on one
side of the stream and clear
grass on the other?
GT A: shade
Machine A: yes
Q: Is the hydrant painted a new
color?
GT A: yes
Machine A: no
視覚・言語融合の最前線5
キャプションからの画像生成
キャプションを入力して画像を生成
文から鮮明な画像の生成を実現
↑難しいタスク (下は[Mansimov+, ICLR 2016]の例)
※ 画像の切り貼りは以前から [Hays+Efros, SIGGRAPH 2007]
文からの画像生成=条件つき生成
まずは…Generative Adversarial Networks (GAN)
[Goodfellow+, NIPS 2014]
• 条件を持たない生成学習手法
• Generator と Discriminator の敵対的学習
• 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016]
Generator
乱数から画像を生成
Discriminator
実画像と生成画像を見分ける
は
お前が生成したな!
文からの画像生成=条件つき生成
まずは…Generative Adversarial Networks (GAN)
[Goodfellow+, NIPS 2014]
• 条件を持たない生成学習手法
• Generator と Discriminator の敵対的学習
• 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016]
Generator
乱数から画像を生成
Discriminator
実画像と生成画像を見分ける
は
お前が生成したな!
文からの画像生成=条件つき生成
まずは…Generative Adversarial Networks (GAN)
[Goodfellow+, NIPS 2014]
• 条件を持たない生成学習手法
• Generator と Discriminator の敵対的学習
• 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016]
Generator
乱数から画像を生成
Discriminator
実画像と生成画像を見分ける
は
お前が生成したな!
文からの画像生成=条件つき生成
まずは…Generative Adversarial Networks (GAN)
[Goodfellow+, NIPS 2014]
• 条件を持たない生成学習手法
• Generator と Discriminator の敵対的学習
• 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016]
Generator
乱数から画像を生成
Discriminator
実画像と生成画像を見分ける
は
お前が生成したな!
文からの画像生成=条件つき生成
まずは…Generative Adversarial Networks (GAN)
[Goodfellow+, NIPS 2014]
• 条件を持たない生成学習手法
• Generator と Discriminator の敵対的学習
学習が進むと:
• 畳込み層をもつ場合…DCGAN [Radford+, ICLR 2016]
Generator
乱数から画像を生成
Discriminator
実画像と生成画像を見分ける
むむむ…
文で生成結果を変えるには
Generator と Discriminator に文を加える
・自然な画像
・文に沿った画像
を生成しようとする
・不自然な画像
・文に合わない画像
を識別しようとする
生成できた画像の例
• 鳥(CUB)/花(Oxford-102)データセット
– 約1万の鳥/花画像と5キャプション/画像
– 200種類の鳥/102種類の花
A tiny bird, with a tiny beak,
tarsus and feet, a blue crown,
blue coverts, and black
cheek patch
Bright droopy yellow petals
with burgundy streaks, and a
yellow stigma
その後の展開
StackGAN [Zhang+, 2016]
• 2段階のGANからなるモデル
• 1段目でぼやっとした画像を生成、2段目で高解像+詳細化
キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, 2016]
キャプションからの画像生成
This bird is blue with white
and has a very short beak.
(この鳥は白の入った青色
で、とても短いくちばし
をもっています。)
This flower is white and
yellow in color, with petals
that are wavy and smooth.
(この花は白と黄色で、波
打った滑らかな花びらを
もっています。)
[Zhang+, 2016]
鳥/花に特化したデータセットでの結果
→一般的な画像を生成するにはより一層のブレイクスルーが必要
まとめ
• Deep Learning による視覚・言語融合を俯瞰
1. 画像キャプション生成
2. 動画キャプション生成
3. 言語横断
4. 画像に関する質問への応答
5. キャプションからの画像生成
• Deep Learning の貢献
– 上記研究課題自体は Deep Learning 以前も存在
– 画像、動画、自然言語処理技術の共通化
– 認識と生成の精緻化
視覚×言語の新たなステージへ
1 of 71

Recommended

これからの Vision & Language ~ Acadexit した4つの理由 by
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
6.6K views78 slides
Domain Adaptation 発展と動向まとめ(サーベイ資料) by
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
8.5K views22 slides
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​ by
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
3.2K views39 slides
CV分野におけるサーベイ方法 by
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
23.9K views29 slides
画像生成・生成モデル メタサーベイ by
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
8.3K views118 slides
画像キャプションの自動生成 by
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
58K views101 slides

More Related Content

What's hot

【メタサーベイ】数式ドリブン教師あり学習 by
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
5.9K views33 slides
【メタサーベイ】基盤モデル / Foundation Models by
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
16.5K views63 slides
[DL輪読会]Dense Captioning分野のまとめ by
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
2K views39 slides
機械学習モデルの判断根拠の説明(Ver.2) by
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
48K views81 slides
近年のHierarchical Vision Transformer by
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
13.9K views46 slides
Layer Normalization@NIPS+読み会・関西 by
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
23.5K views44 slides

What's hot(20)

【メタサーベイ】数式ドリブン教師あり学習 by cvpaper. challenge
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge5.9K views
【メタサーベイ】基盤モデル / Foundation Models by cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge16.5K views
[DL輪読会]Dense Captioning分野のまとめ by Deep Learning JP
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP2K views
機械学習モデルの判断根拠の説明(Ver.2) by Satoshi Hara
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara48K views
近年のHierarchical Vision Transformer by Yusuke Uchida
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida13.9K views
Layer Normalization@NIPS+読み会・関西 by Keigo Nishida
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida23.5K views
ドメイン適応の原理と応用 by Yoshitaka Ushiku
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku5.5K views
最近のDeep Learning (NLP) 界隈におけるAttention事情 by Yuta Kikuchi
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi72.3K views
Curriculum Learning (関東CV勉強会) by Yoshitaka Ushiku
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku64.1K views
【メタサーベイ】Vision and Language のトップ研究室/研究者 by cvpaper. challenge
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge1.8K views
モデル高速化百選 by Yusuke Uchida
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida24.8K views
メタスタディ (Vision and Language) by Shintaro Yamamoto
メタスタディ (Vision and Language)メタスタディ (Vision and Language)
メタスタディ (Vision and Language)
Shintaro Yamamoto1.4K views
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling by Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP2.9K views
自己教師学習(Self-Supervised Learning) by cvpaper. challenge
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge12.8K views
マルチモーダル深層学習の研究動向 by Koichiro Mori
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori45.5K views
動作認識の最前線:手法,タスク,データセット by Toru Tamaki
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki3.3K views
backbone としての timm 入門 by Takuji Tahara
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara7.4K views
Active Learning 入門 by Shuyo Nakatani
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani51.8K views
三次元表現まとめ(深層学習を中心に) by Tomohiro Motoda
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda1.5K views
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習 by SSII
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII4.2K views

Viewers also liked

Asymmetric Tri-training for Unsupervised Domain Adaptation by
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain AdaptationYoshitaka Ushiku
3.1K views22 slides
ネットコミュニケーションにおけるリスク分析 by
ネットコミュニケーションにおけるリスク分析ネットコミュニケーションにおけるリスク分析
ネットコミュニケーションにおけるリスク分析Fujio Toriumi
10.8K views38 slides
SNS とゲーム理論 ~人はなぜ投稿するのか?~ by
SNS とゲーム理論~人はなぜ投稿するのか?~SNS とゲーム理論~人はなぜ投稿するのか?~
SNS とゲーム理論 ~人はなぜ投稿するのか?~Fujio Toriumi
21K views42 slides
Deep Learning Framework Comparison on CPU by
Deep Learning Framework Comparison on CPUDeep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPUFujimoto Keisuke
5.5K views32 slides
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017... by
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...Yusuke Iwasawa
5.3K views38 slides
交渉力について by
交渉力について交渉力について
交渉力についてnishio
2.9K views12 slides

Viewers also liked(8)

Asymmetric Tri-training for Unsupervised Domain Adaptation by Yoshitaka Ushiku
Asymmetric Tri-training for Unsupervised Domain AdaptationAsymmetric Tri-training for Unsupervised Domain Adaptation
Asymmetric Tri-training for Unsupervised Domain Adaptation
Yoshitaka Ushiku3.1K views
ネットコミュニケーションにおけるリスク分析 by Fujio Toriumi
ネットコミュニケーションにおけるリスク分析ネットコミュニケーションにおけるリスク分析
ネットコミュニケーションにおけるリスク分析
Fujio Toriumi10.8K views
SNS とゲーム理論 ~人はなぜ投稿するのか?~ by Fujio Toriumi
SNS とゲーム理論~人はなぜ投稿するのか?~SNS とゲーム理論~人はなぜ投稿するのか?~
SNS とゲーム理論 ~人はなぜ投稿するのか?~
Fujio Toriumi21K views
Deep Learning Framework Comparison on CPU by Fujimoto Keisuke
Deep Learning Framework Comparison on CPUDeep Learning Framework Comparison on CPU
Deep Learning Framework Comparison on CPU
Fujimoto Keisuke5.5K views
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017... by Yusuke Iwasawa
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
Yusuke Iwasawa5.3K views
交渉力について by nishio
交渉力について交渉力について
交渉力について
nishio2.9K views
生成モデルの Deep Learning by Seiya Tokui
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui47.8K views
機械学習のためのベイズ最適化入門 by hoxo_m
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m185.7K views

Similar to Deep Learning による視覚×言語融合の最前線

Unsupervised Object Discovery and Localization in the Wild: Part-Based Match... by
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...Yoshitaka Ushiku
3.9K views39 slides
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー) by
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)
画像キャプションの自動生成(第3回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
2.1K views89 slides
動画からの意図理解のこれまでとこれから by
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれからMayuOtani
478 views24 slides
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ... by
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Yoshitaka Ushiku
1.4K views49 slides
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins... by
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
2.5K views51 slides
大規模言語モデルとChatGPT by
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
4.2K views53 slides

Similar to Deep Learning による視覚×言語融合の最前線(20)

Unsupervised Object Discovery and Localization in the Wild: Part-Based Match... by Yoshitaka Ushiku
Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...Unsupervised Object Discovery and Localization in the Wild:Part-Based Match...
Unsupervised Object Discovery and Localization in the Wild: Part-Based Match...
Yoshitaka Ushiku3.9K views
動画からの意図理解のこれまでとこれから by MayuOtani
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから
MayuOtani478 views
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ... by Yoshitaka Ushiku
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Women Also Snowboard: Overcoming Bias in Captioning Models(関東CV勉強会 ECCV 2018 ...
Yoshitaka Ushiku1.4K views
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins... by Yoshitaka Ushiku
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Yoshitaka Ushiku2.5K views
大規模言語モデルとChatGPT by nlab_utokyo
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
nlab_utokyo4.2K views
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I... by Yoshitaka Ushiku
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Learning Cooperative Visual Dialog with Deep Reinforcement Learning(関東CV勉強会 I...
Yoshitaka Ushiku1.8K views
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation by Deep Learning JP
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP2.9K views
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会) by Yoshitaka Ushiku
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Sequence Level Training with Recurrent Neural Networks (関東CV勉強会 強化学習論文読み会)
Yoshitaka Ushiku3.4K views
[DL輪読会]Memory-Augmented Attribute Manipulation Networks for Interactive Fashi... by Deep Learning JP
[DL輪読会]Memory-Augmented Attribute Manipulation Networks for Interactive Fashi...[DL輪読会]Memory-Augmented Attribute Manipulation Networks for Interactive Fashi...
[DL輪読会]Memory-Augmented Attribute Manipulation Networks for Interactive Fashi...
Deep Learning JP542 views
オブジェクト指向講座 by Kaito Sato
オブジェクト指向講座オブジェクト指向講座
オブジェクト指向講座
Kaito Sato173 views
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo... by Yuya Unno
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
NIPS2013読み会: Distributed Representations of Words and Phrases and their Compo...
Yuya Unno26.7K views
Interop2017 by tak9029
Interop2017Interop2017
Interop2017
tak90291.2K views
nlp_cv.paper.challenge合同勉強会(公開用) by Hangyo Masatsugu
nlp_cv.paper.challenge合同勉強会(公開用) nlp_cv.paper.challenge合同勉強会(公開用)
nlp_cv.paper.challenge合同勉強会(公開用)
Hangyo Masatsugu89 views
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model by Seiya Tokui
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding ModelNIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
NIPS2013読み会 DeViSE: A Deep Visual-Semantic Embedding Model
Seiya Tokui18.4K views
20141119 eLC Disruptive Innovation in Education. by Hiroki Inoue
20141119 eLC Disruptive Innovation in Education.20141119 eLC Disruptive Innovation in Education.
20141119 eLC Disruptive Innovation in Education.
Hiroki Inoue1.3K views

More from Yoshitaka Ushiku

機械学習を民主化する取り組み by
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組みYoshitaka Ushiku
9.2K views72 slides
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi... by
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
3.1K views85 slides
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning by
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningYoshitaka Ushiku
19.7K views68 slides
今後のPRMU研究会を考える by
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考えるYoshitaka Ushiku
2.3K views12 slides
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会) by
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Yoshitaka Ushiku
4.9K views37 slides
Recognize, Describe, and Generate: Introduction of Recent Work at MIL by
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MILYoshitaka Ushiku
4.4K views39 slides

More from Yoshitaka Ushiku(11)

機械学習を民主化する取り組み by Yoshitaka Ushiku
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
Yoshitaka Ushiku9.2K views
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi... by Yoshitaka Ushiku
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Yoshitaka Ushiku3.1K views
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning by Yoshitaka Ushiku
Frontiers of Vision and Language: Bridging Images and Texts by Deep LearningFrontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Frontiers of Vision and Language: Bridging Images and Texts by Deep Learning
Yoshitaka Ushiku19.7K views
今後のPRMU研究会を考える by Yoshitaka Ushiku
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
Yoshitaka Ushiku2.3K views
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会) by Yoshitaka Ushiku
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Yoshitaka Ushiku4.9K views
Recognize, Describe, and Generate: Introduction of Recent Work at MIL by Yoshitaka Ushiku
Recognize, Describe, and Generate: Introduction of Recent Work at MILRecognize, Describe, and Generate: Introduction of Recent Work at MIL
Recognize, Describe, and Generate: Introduction of Recent Work at MIL
Yoshitaka Ushiku4.4K views
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ... by Yoshitaka Ushiku
Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...Leveraging Visual Question Answeringfor Image-Caption Ranking (関東CV勉強会 ECCV ...
Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV ...
Yoshitaka Ushiku2K views
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ... by Yoshitaka Ushiku
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
We Are Humor Beings: Understanding and Predicting Visual Humor (関東CV勉強会 CVPR ...
Yoshitaka Ushiku2K views
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会) by Yoshitaka Ushiku
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
Yoshitaka Ushiku3.7K views
Generating Notifications for Missing Actions: Don’t forget to turn the lights... by Yoshitaka Ushiku
Generating Notifications for Missing Actions:Don’t forget to turn the lights...Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions: Don’t forget to turn the lights...
Yoshitaka Ushiku2.6K views
CVPR 2015 論文紹介(NTT研究所内勉強会用資料) by Yoshitaka Ushiku
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
Yoshitaka Ushiku7K views

Recently uploaded

PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PC Cluster Consortium
66 views12 slides
光コラボは契約してはいけない by
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけないTakuya Matsunaga
28 views17 slides
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 by
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
109 views26 slides
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可 by
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可Hitachi, Ltd. OSS Solution Center.
10 views22 slides
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 by
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PC Cluster Consortium
28 views36 slides

Recently uploaded(7)

PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
光コラボは契約してはいけない by Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga28 views
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 by PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」

Deep Learning による視覚×言語融合の最前線

Editor's Notes

  1. https://www.captionbot.ai/