Vision and Languageの
トップ研究室/研究者
のメタサーベイ
Yue Qiu (AIST), 品川政太郎 (NAIST), 孫延君 (慶応大)
2022.07.08
1
はじめに:
2
● cvpaper.challengeのVision and Languageグループにより作成
● Vision and Languageのトップ研究グループ/者をサーベイ対象:
○ トップの研究グループ/者がどのように研究を進めている
○ Vision and Languageの網羅的なサーベイ
● この資料の構成:
○ 研究グループ/者ごとにまとめている:
- 研究室の構成, 選定の理由
- 研究テーマの変遷
- 論文まとめ(1論文1ページ*)
- 研究の方法、重要視している課題のまとめ
*各論文の概要レベルしか触れていない
今回調査対象とする研究グループ/研究者:
url 大学/研究機関 研究室 代表研究者 スライド番号
1 Georgia Tech Visual Intelligence Lab Devi Parikh 4-22
2 Stanford vision and learning lab Fei fei Li, Juan Carlos Niebles, Silvio
Savarese, Jiajun Wu
23-54
3 UT-Austin Computer Vision Kristen Grauman 55-77
4 Stanford vision and learning lab Jiajun Wu 78-90
5 University of Michigan Justin Johnson 91-100
6 University of Michigan Honglak Lee 101-140
7 Google Peter Anderson 141-149
8 University of Adelaide V3Alab Qi Wu 150-154
3
Georgia Tech: Visual Intelligence Lab
4
研究室の構成 扱っている研究分野:
選定理由:
● Vision and Languageの様々なタスク:
○ Visual Question Answering
○ Visual Dialog
○ Embodied Question Answering
○ Audio-Visual Scene-Aware Dialog
○ Text VQA
○ Image Captioning
○ Vision Language Representation
○ Text-to-Image Generation
● Vision and Languageをリードする研究室
● 数々の重要なタスク/データセットを提案し
てきた:
○ Visual Question Answering
○ Visual Dialog
○ Embodied Question Answering
○ Text VQA
○ …
写真URL:
https://faculty.cc.gatech.edu/~parikh/vil.html
5
Georgia Tech: Visual Intelligence Lab
研究テーマの変遷
2015 2017 2018 2019
VQA, VQAv1 Dataset
VQAv2 Dataset
Visual Dialogタスク
Neural Baby Talk
Embodied Question
Answering
Audio-Visual Dialog
Text VQA
Novel captioning
Others:
● AI Habitat
VandL
Representation:
● ViLBERT
● 12-in-1
6
● 同じ色で同じライン上の研究を示す
● それぞれの詳細を後ろの論文まとめに紹介
Georgia Tech: Visual Intelligence Lab
Topic 1: VQA
7
Georgia Tech: Visual Intelligence Lab
Title: VQA: Visual Question Answering (ICCV, 2015)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:1枚の画像と画像内容に関する質問から、回答するタスクVQAとデータセットを提案。
VQAが、Vision and Languageの研究の始まりと代表的なタスクに位置付けている印象。
新規性:
● 新しい、Vision and Languageの系研究を打開したタスクとデータセットを提案した。VQAv1提案後、様々のVision and
Languageモデルやタスクの研究が続出するようになった。
● VQAv1タスク・データセット(現在はbiasが比較的にコントロールされたVQAv2の方がメインで使われている)で様々
なVisual Reasoning能力がカバーされており、現在でもChallenge的であり、VisionとLanguage認識以上のReasoning能力
のモデル構築において今でも意味がある。
VQAv1データセットの例
当時提案されたVQAのモデル構造
8
Georgia Tech: Visual Intelligence Lab
Title: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering
(CVPR, 2017)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
VQAv1(上段) vs. VQAv2データセット(下段):
概要:
● VQAv1データセットに含まれる強いデー
タセットバイアス(例:Yes or No問題の
回答が70%Yesなど)を発見。
● データセットの拡張・バランス調整を行い、
比較的にデータセットバイアスが少ないデ
ータセットVQAv2を提案。
感想:
● VQAデータセットは根本的にバイアスにな
ってくるかもしれません。いかにバイアス
なデータセットから、バイアスしない回答
を学習できるかがデータセットのバイアス
のコントロールより重要であるように思う。
● 分布が異なるデータセット間で対応可能な
モデルが良い。
9
Georgia Tech: Visual Intelligence Lab
Title: Embodied Question Answering (CVPR, 2018)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:
● VQAタスクをEmbodied環境に拡張した。
● 具体的に、Embodied環境でAgentが環境
中の物体に連する質問の入力から、その
質問を回答するために、環境の中に自己
ナビゲーションし、環境の観測を行う。
新規性:
● VQAタスクを3次元空間・しかもかなり挑戦的な
Embodied環境に導入。
Embodied Question Answeringタスクの
Illustration:
質問が与えられた時に、Embodied Agentが3次元
環境で自己ナビゲーションしながら、質問を回答
していく
感想:
● Vision-Language Navigationと比べ、EQAタスク
があまり関連論文が出ない。問題が難しいかつ
タスクがあまりGroundedではないところが原因
と想定。
● EQAタスク自体はかなり実用性高そう。もっと
Groundedにした方が良いかも。
10
Georgia Tech: Visual Intelligence Lab
Title: Towards VQA Models That Can Read (CVPR, 2019)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:
● 日常生活の中に、物体のラベルやパソコンの
画面、時計、交通シーンのパネルなど色々テ
キスト情報が含まれる。
● 上記の情報の理解のために、画像中のテキス
トに関する質問の理解のためのText VQAタ
スクとデータセットを提案。
感想:
● 画像中のText情報が他の視覚要素と比べて特殊で
かなり重要な場合がある(例:時間;値段;ウ
ェブページ)。
● 技術な面では、Textも物体検出と類似したように、
画像から様々な検出モデルを着装することによ
りReasoning能力が向上できる。
TextVQAデータセットの例
11
Georgia Tech: Visual Intelligence Lab
Title: Habitat: A Platform for Embodied AI Research (ICCV, 2019)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:
● Embodied AI系のデー
タセット、シミュレー
ター、タスクを整合し
たAPIーAI Habitatを提
案。Embodied AI系を
より容易に扱うように
した。また、タスク間
の連携も可能に。
感想:
● AI Habitatがハードルが高いEmbodied AI系の研究のバリアをだいぶ
緩やかにしてくれた。Embodied AI系の研究の加速に大きく貢献。
● AI HabitatによりEmbodied AI系のタスク間の遷移学習もよりしやす
くなった。
● 2022年現在では、2019で想像したほどEmbodied AI系がAI Habitatを
活用できていない感がある。
● 論文のroadmapに書いているところは今確実に進んで切る。
AI Habitat Platform(右図):
様々な3次元環境
(Replica,Matterport3Dなど)、
Simulators(AI2-THORなど)お
よび複数のEmbodied AIタスクを
行える(EQA, VLN, ...)
12
Georgia Tech: Visual Intelligence Lab
Topic 2: Visual Dialog
13
Georgia Tech: Visual Intelligence Lab
Title: Visual Dialog (CVPR, 2017)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:
• 人間が会話して、見ている視覚情報のやり取
りを行っている。
• 上記を可能にするために、VQAタスクをDialog
に拡張した、Visual Dialogタスクとデータセッ
トを提案。
感想:
● Visual Dialogの設定は、過去の会話履歴と直近の
質問から、回答をするになっている.このよう
な設定によりAIとHumanの対話性が保たれるの
で、なかなか良い設定だったと思う。
● 従来Language-onlyのDialogではGoal-drivenと
Goal-freeの2つあり、今回のVisual Dialogの設定
ではGoal-drivenでそのGoalが画像内容を理解す
ることで、かなりBenchmarkとして賢い設定だ
った。
Visual Dialogの例(左図)
(画像、Caption、会話履歴、質問から回答をする) 14
Georgia Tech: Visual Intelligence Lab
Title: Audio-Visual Scene-Aware Dialog (CVPR, 2019)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:
● 1枚の画像から行うVisual Dialogタスクを更に、
音声付きビデオ入力に拡張した。
新規性:
● タスクの提案(VQA+Video+Audio+Dialog)
● データセットの提案
感想:
● こちらもVQA/Visual Dialogの拡張になる。あ
る程度複数のSensorsの観測からDialogできる
かどうかをテスト可能だが、実環境ではタス
クによりモダリティをどのように活用してい
くのかがかなり興味深い。AVSDだけではまだ
まだ実応用から遠い。
提案のAVSDデータセットのイメージ図
15
Georgia Tech: Visual Intelligence Lab
Topic 3: Image Captioning
16
Georgia Tech: Visual Intelligence Lab
Title: Neural Baby Talk (CVPR, 2018)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:
● 既存のImage Captioningタスクは画像から物体の
説明文のみ生成。説明文に含まれる物体の位置
を明示的に示さないため、解釈性が低い。
● ここで、Captioningと物体検出を同時に行うタス
クを提案。
新規性:
● 手法的にはencoder-decoderで直接画像と
Captionを結びつくではなく、Detectorを導入す
ることで、もっとGroundedなImage Captioning
を実現.
● Detectorを用意することで、Unknown物体に対し
てのCaption生成もできる.
提案のNeural Baby Talkと既存検出の比較:
(a)baby talk
(b) 提案のNeural Baby Talk
(c) 一般的なImage Captioning手法
感想:
● 今でも同じようにCaptioning生成しながら
Bounding Boxなどの形式で解釈性を向上する検
討があちこちのタスクである.
17
Georgia Tech: Visual Intelligence Lab
Title: nocaps: novel object captioning at scale (ICCV, 2019)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:
● 人間がUnknown物体に対しても説明できる能力
がある。
● ここで、物体認識と物体説明文生成を分けられ
るような設計を持ち、データセットに含まれな
い物体の説明文生成も可能にした。
感想:
● Nocapsの設定がかなり興味深い。実環境での視
覚概念は無限にあって、画像からCaptionを生成
するのは比較的に限られたデータで学習すべき
である。
● 更に、Interativeで知らない視覚概念をImage
Captionに導入する仕組みが望ましい。
提案のタスクnocapsの設定:
学習(左)はCOCOのCaptionsと物体検出だけアノ
テーションされているOpen Images;テスト(右)
では①COCOだけ;②COCO+Open Imageの
Captions;③Open ImageのCaptions
18
Georgia Tech: Visual Intelligence Lab
Topic 4: Vision-Language Representation
19
Georgia Tech: Visual Intelligence Lab
Title: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
(NeurIPS, 2019)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:
● Vision and Language系の研究で特にデータ
セットの作成のコストが高い問題がある。
● Vision and anguage タスクにおいて大規模
事前学習、タスク間の遷移学習を可能にす
るため、統一したモデルで複数のVision and
Languageタスクを学習可能なフレームワー
クを提案(ViLBERT)。
感想:
● BERTの成功をVandLに適応する試み。考えるだけ
ではなく、他の人より早い段階でRoadmapを構想
し、いち早く最新で使えそうな技術を導入すること
が重要。
● ViLBERTで提案する時点ですでにPaperid11の
12in1のマルチタスク同時学習を想定していたそう。
ViLBERTで行っている2種類のMulti-modal learning:左(ラベル推定まで);右(一致性の評価のみ)
20
Georgia Tech: Visual Intelligence Lab
Title: 12-in-1: Multi-Task Vision and Language Representation Learning (NeurIPS, 2019)
Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab
概要:
● ViLBERTをベースに、更に複数のVision and
Languageタスク間の遷移学習の効果を検証。
感想:
● ViLBERTをベースに、マルチタスク・データセ
ットにおいて分析を行た感じ。Communityに対
して貢献度が高いが、新規性がすこし薄れる部
分もある。
● VandL研究の理由:”promise of language as a
universal and natural interface for visual
reasoning”;なかなかうまくまとめている。
提案のマルチVandLタスク共同で学習する仕組み
21
Georgia Tech: Visual Intelligence Lab
重要視されているところ
● 様々なSensingの情報を融合しながら理解する能力:
○ 視覚:1枚の画像(VQA)⇒ 実環境、複数センサー(EQA)、Unknown、Active環境、…
○ 言語:物体ラベル⇒1センテンス(Image Captioning)⇒画像中のテキスト理解(Text VQA)
● 更に、言語対話能力と上記の融合:
○ Visual Dialog、Audio-Visual Dialog
● 手法の解釈性
○ VQAv2でデータセットのバイアス解消、Neural Baby Talkで物体説明文生成に物体検出も行う
気付き
● 問題を解決するより、新しい問題を設定する研究が多い;
● 早い段階で研究の目標を決めて、それを実現するため最も重要なタスクとデータセットを構築;
● 手法論文に関しては、最新の研究の組み合わせの物も多い:
○ 例:ViLBERT/12-in-1ではBERT/Transformerを導入
22
Georgia Tech: Visual Intelligence Lab
Stanford: Vision and learning lab
23
研究室の構成 扱っている研究分野:
選定理由:
● Computer Visionがメインで、Natural
Language ProcessingやRoboticsなど多様な
テーマを扱っている(例を下記):
○ Image Recognition
○ Dense Captioning
○ Video Recognition
○ Visual Question Answering
○ Sight and Sound
○ 3D Vision
○ …
● Fei fei Li
● ImageNet
● Vision and Languageに関してもかなり数多
く重要な論文、データセットを提案:
○ Dense Captioning/ Captioning Event
○ Visual Genome
○ ...
● 近年、特にEmbodied AIや関連したRobotics
も扱っている
24
写真URL:
http://svl.stanford.edu/
Stanford : Vision and learning lab
研究テーマの変遷 (Vision and Languageに関する研究のみ)
2009
25
2015 2017 2018 2019 2020 2021
● 同じ色で同じライン上の研究を示す
● それぞれの詳細を後ろの論文まとめに紹介
ImageNet
ActivityNet
VisualGenome
GibsonENV
3D Scene
Graph
ActionGenome
Home
ActionGenome
iGibson 1.0
iGibson 2.0
Stanford : Vision and learning lab
Topic 1: Semantic Structure
26
Stanford : Vision and learning lab
Title: ImageNet: A Large-Scale Hierarchical Image Database (CVPR, 2009)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:※以下の数値等は本論文発表時(2009)のもの
・階層構造語彙データベースWordNetがバックボーンの画像データセット
・スタンフォード大学のFei-Fei Li氏を中心とした研究グループが管理
・世界中の研究者や教育/学びに役立ててもらうためのリソースとして公開中
・WordNet:8万synset(同義語セット)
・インターネット全体から画像をクロールして収集
・12のサブツリー(最上位カテゴリ)
哺乳類、鳥類、魚類、爬虫類、両生類、乗り物、家具、楽器、地層、道具、花、果物
・5247のsynset(WordNetの一割以下)、全320万枚のフル解像度画像
・synsetごとに平均500~1000枚の画像
・Amazon Mechanical Turkを利用して人力でラベル付け(有償)。
・目標:5000万枚。※2020年時点で2万synset/1400万枚と停滞中
感想:
・1つの画像に1つのラベルしか付与しない仕様となっているが、画像内に複数の対象が
映り込んでいる場合のラベル付けの正当性に疑問
・公平性、プライバシー保護、不適切/不快なラベル(※解消に努⼒している模様)
・ラベル付けに莫⼤な費⽤がかかる(教師データのアノテーションコスト問題)
27
Stanford : Vision and learning lab
概要:1画像1ラベルの物体認
識用大規模データセット
ImageNetを提案。
Title: Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations (IJCV,
2017)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● ImageNetでは主に1画像1物体ラベルから構成。
ここで、1画像とその画像の意味的構造
(Scene Graph:物体、物体間の関係ラベ
ル)をアノテーション付けたデータセット
Visual Genomeを提案。
感想:
● Visual Genomeが大量な作成コストが必要となり、
分野の成長に大きく貢献できている。
● Visual Genomeデータセットがかなり大規模であ
り、現時点でもChallenge的で、様々なDown
streamタスクで活用できそう。
VisualGenome
データセット例
28
Stanford : Vision and learning lab
Title: Learning Physical Graph Representations from Visual Scenes (NeurIPS, 2020)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Sceneに含まれる物体の階層構造(物体と物
体のパーツなど)および物理属性(Surface
Shape, Texture)も考慮したPhysical Scene
Graph構造を提案。
感想:
● 室内環境データセットにまで適応できていると
ころがすごい。物理に従っても大規模データセ
ットに活用できるところなので、物理ベース手
法のPromisingなところを示せた。
提案のPhysical Scene Graph
(PSG) representation
(左図)
29
Stanford : Vision and learning lab
Title: ActivityNet: A Large-scale Video Benchmark For Human Activity Understanding (CVPR, 2015)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● これまでに動画像データセットでは1動画1
動画ラベルのような設定が多い。
● ここで、階層化された動作ラベルを付けた大
規模データセットActivityNetを提案。
感想:
● 論文で”Semantic Ontology”という言葉を使って
いる。Classic AIのOntologyとDeepLearningをい
かにうまく組み合わせられるかに関してかなり
工夫していそう。
ActivityNetに含まれる2つ
の例(右図):
動作がTree状のSemantic
Levelsに従ってアノテーシ
ョンされている
30
Stanford : Vision and learning lab
Title: 3D Scene Graph: a Structure for Unified Semantics, 3D Space, and Camera (ICCV, 2019)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Scene Graph/Visual Genomeを3次元に拡張し、
3D Scene Graphとデータセットを提案。
● 具体的に、4-layers(左図)から構成される3D
Scene Graph構造を提案(Building, Rooms,
Objects,Cameras)。
感想:
● 2D Scene Graphがあるから、3D Scene Graphを
定義しようとする人は他にもあるはず。ここで
かなりReasonableで詳細な3D Scene Graphを定
義していて、大きな研究室ならではの感じがす
る。
● 3D Scene GraphにCameraを考慮されていると
ころが面白い。Cameraまで認識できるすること
が今でもChallenging。
3D
Scene
GraphのIllustation(4-layer構造)
31
Stanford : Vision and learning lab
Title: Action Genome: Actions as Composition of Spatio-temporal Scene Graphs (CVPR, 2020)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Scene Graph / Visual Genomeを動画に拡張し、
Video Scene GraphとデータセットAction
Genomeを提案。
感想:
● 論文を書く時にNeuroscience的な視点から論文
のSupport Factsを出すのは強く見せられそう。
● この論文でDynamic Scene Graphsが
Downstreamタスクへの有用性を示した。新しい
Representationやデータセットの提案する際に、
他のタスクとの関連性や遷移学習する際の有用
性を示すことが文章の質を大幅に向上できる。
Spatio-temporal Scene Graph Generationタスクの
Illustration:
ビデオからDynamic Scene Graphsを推定
32
Stanford : Vision and learning lab
Title: Home Action Genome: Contrastive Compositional Action Understanding (CVPR, 2021)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Action Genomeデータセット(3人称視点動画
のみ)を更に、Multi-view、Multi-sensoryに拡
張した。
感想:
● Video Scene Graphの密度がFrame-by-frameレベ
ルではない方が良さそうな気がする。Frameレベ
ルではアノテーションのambiguityが生じうる。
● 設備さえあれば、HOMAGEデータセットの作成
コストがそこまで高くない?HOMAGEでは2つ
の家環境しか使っていなさそう。
HOMAGEデー
タセットの
アノテーション
パイプライン
提案手法:マルチモーダルContrastive Learning
33
Stanford : Vision and learning lab
Topic 2: Simulation Environments for
Embodied AI
34
Stanford : Vision and learning lab
Title: Gibson ENV: Real-world Perception for Embodied Agents (CVPR, 2018)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Embodied AIのための大規模室内環境データ
セットとシミュレーターの提案。
● 特徴1:実環境のBuildingsをベースに作成。
● 特徴2:Embodimentの精度/レベルが高い。
感想:
● Introductionの部分で経済学・生物・脳科学の話
しもふれていて広い範囲内で知識を積極的に得
るべき?!
● Physics、Robotics、実環境などと強く関連し、
研究のUltimate Goalがわかりやすい。
2つのAgentsが
Gibson環境の観測の
例(右図)
35
Stanford : Vision and learning lab
Title: Learning to Navigate Using Mid-level Visual Priors (CoRL, 2019)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● GibsonEnVをベースに大規模な実験行った。
● Embodied AIの強化学習で従来E2Eでpixel-to-
torqueが提案されていた。この文章で強化学習の
Policyを学習する際に直接Pixelからではなく3次
元情報が入っているタスクで得られるMid-level
特徴を使うことを提案。
● 実験により、Mid-level特徴が収束速い、汎化性
能強い、精度高いなどの利点があった。
感想:
● 同じ研究室同時期のTaskonomyと概念的に類似
する。
● Mid-level特徴を使った方が良いと研究せずに何
となく想像できる。この論文でそれを的確に示
してくれたところが良いが、Whyに関しての説
明があるとなおさら良い。
● 特にこの研究では強化学習タスクをターゲット
しているため、かなり膨大な計算量が必要。
提案のMid-level特徴量を用いて
Embodied AI タスクを行う概念図
(下図)
36
Stanford : Vision and learning lab
Title: IGIBSON 1.0: A Simulation Environment for Interactive Tasks in Large Realistic Scenes (IROS, 2021)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Robotic Simulation用の大規模Interaction可能な
室内環境Simulatorの提案。15Rooms合計108部
屋から構成され、物体の材質・Shape、Robotic
Manipulationなどが行える。また、実環境の部屋
のReplicasになるため、Sim2Realも今後可能に
なる。
感想:
● IGIBSONがReal HousesのReplicas(Simulation
の同じリアル家もある)になるので、Sim2Real
の研究も色々活用できそう。今後はおそらくそ
のような研究が出てくるはず。
● Fei Fei Liらの研究室は近年かなりRoboticsや、
物理系に着手している。大規模の環境構築や、
Robotic Manipulation、Replicasなどで今後実環
境への応用が期待される。
● IGIBSON 1.0はとくにRoboticsへ応用したい場合
において有用である。
IGIBSON 1.0: 物体とInteract可能な環境になり、環境
中の物体の材質・Shapesがアノテーションされてい
る。また、Real環境と対応づけている。
37
Stanford : Vision and learning lab
Title: IGIBSON 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks (CoRL, 2021)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● IGIBSON 1.0と比べて、更に物体に物理シミュレ
ーションの粒度(物体の様々な状態変更が
Simulationできる)やデータ収集の利便性(VR
を用いてHuman Dataを学習できる)を向上。
感想:
● IGIBSON 1.0のExtenabilityのおかげで、
IGIBSON 2.0では更に詳細的な物理Manipulation
や物体状態のコントロールが追加可能。
● 将来、Humanの行動をマネにしながら、上手に
様々なタスクを更に人間を超えるレベルで実現
してくるRobotが期待可能。
● 今人がInternetから常に色々勉強をしているため、
RobotもいかにInternet知識をデモで行えるとこ
ろが重要?
IGIBSON 2.0: ①物体に対してのManipulationや
Manipulationに沿ってSimulation環境での物体状態変
更などが可能になった。②VR環境も同時に提案し、
HumanがVR環境における行動がSimulation上の
Agentの学習データにすることができる。
38
Stanford : Vision and learning lab
Title: BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological
ENvironments (CoRL, 2021)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● 前作のiGibson2.0を用いて、データセットを
作成した。
● Embodied AIのための100日常Activitiesから
構成されるSimulationBenchmarkデータセッ
トを提案。また、HumanのVR上により集め
られたDemostrationも同時に作成。
感想:
● やはりBEHAVIORがIGIBSON 2.0をベースに作
成されている!
● 事前から収集したデータの有用性が分かってい
て、それをベースにデータを集めていくことが
かなりわくわく。
BEHAVIORのIllustration:
IGIBSON 2.0をベースに
100種類の日常活動を導入
し、同時にVRにより
Human Demostrationも
500個集めた。
39
Stanford : Vision and learning lab
Topic 3: Image Captioning
40
Stanford : Vision and learning lab
Title: Deep Visual-Semantic Alignments For Generating Image Descriptions (CVPR, 2015)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● 1枚の画像から1画像Captioningではなく、1枚
の画像から複数の領域とその領域の物体
Captioningを生成する提案。
● 同時期のDenseCaptioningとかなり類似し、
DenseCaptioningの方が影響が大きい。
感想:
● かなり早い段階でImage Captioningタスク(左図)
を構成し、かつ相当Reasonableなモデルを提案
(右図)。Dense Captioningはこの研究の進化バ
ージョンに見える。
● 今の最新手法のそこまで下記のモデルから離れ
ていない感。
提案のImage
Captioningタ
スク(右図)
提案手法
41
Stanford : Vision and learning lab
Title: Dense-Captioning Events In Videos (ICCV, 2017)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● 画像ベースのDense Captioningタスクをビデ
オに拡張した。
● 動画から、複数のEventsの開始・終わる時間、
そして、各々のEventのCaptioningを推定する
Dense Captioning Eventsタスクを提案。
感想:
● 画像からVideoタスクへのかなりReasonableな
Dense-captioningの拡張。EventsごとのPeriodも
予測するためタスクが難しいが応用性が高い。
Dense-Captioning Eventsタスクの例
提案手法:Stage-1ではProposalsを生成し、
Stage-2ではProposalsからCaptioning
42
Stanford : Vision and learning lab
Topic 4: Visual Question Answering
43
Stanford : Vision and learning lab
Title: Visual7W: Grounded Question Answering in Images (CVPR, 2016)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● 7Wの質問(what, where, when, who, why,
how, which)から構成する新たなVQAデー
タセットの提案。
● VQAv1およびVQAv2と異なり、画像全体で
はなく、画像Regionと関連付ける質問も含
まれている。
● 同時期のVQAv2の方が流行っている。
感想:
● Paper13までにはデータセットない問題があった
が、ここでデータセットの提案、スピード感!
● VQAデータセットはほぼ同時期なので、VQAデ
ータセットと比べて優位性が足りていない?
(選択肢が必要な設定)データセットの規模も
VQAの1/4程度(画像)。しかし、VQAデータセ
ットよりも早くAttentionに手を出した。
提案手法(左図)
(Attentionを導入
している)
Visual7Wデータセット例
44
Stanford : Vision and learning lab
Title: AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning (CVPR, 2021)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Action Genome(Video Scene Graph)データセ
ットをベースにVideo Question Answeringのため
のデータセットを提案。
● 他のVideo QAのデータセットと比較して、ここ
でよりデンスな意味構造がアノテーションされ
ているため、データセットのバイアスがコント
ロール可能。
感想:
● Action Genomeデータセットの拡張になる。これ
によりVideo QAタスクがかなりGroundedにでき
る。
● Neuro-symbolic的な手法がいつにAGQAの規模の
データセットに優位性を示せるか期待している。
AGQA(Action Genome Question Answering)データ
セットの例。Scene GraphからGroundedなQA生成に
より作成されている。
45
Stanford : Vision and learning lab
Others
46
Stanford : Vision and learning lab
Title: Shape and Material from Sound (NeurIPS, 2017)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● 音と物体の物理特徴を関連させる研究であり、
音から物体のShapeを復元するタスク・
Auto-encoderベースな手法を提案。
感想:
● この研究が相当賢い!音声からShapeを復元する
ところがかなりChallenging。
● 物理+AIはまだまだいろんな面で検討する余地が
あり、大きな将来性があるように感じる。
物体がテーブル面上に落
とす時の音から、物体の
Shapeを復元する提案の
Illustration(右図)
47
Stanford : Vision and learning lab
Title: Deep Affordance Foresight: Planning Through What Can be Done in The Future (ICRA, 2021)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● 物体のAffordanceをShort-termではなく(例:こ
の瞬間では持てる、押せるなど)、Long-termで
物体のAffordanceを扱う提案(例:物体の周囲の
物体を移動したら、この物体が押せるようにな
るなど)。
感想:
● 物体のAffordanceの定義がかなり難しく感じる。
通常の使い方や、非常的な使い方、タスクごと
の使いかたなど色々ある。
提案のAffordance Foresightのモチベーション:
同じ物体で異なるタスクでAffordanceが変化してくる(上段と下段のL型棒を参照)
48
Stanford : Vision and learning lab
Title: OBJECTFOLDER: A Dataset of Objects with Implicit Visual, Auditory, and Tacticle Representations
(CoRL, 2021)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● 100 Simulation物体(視覚・音声・触感)を
含まれたデータセットOBJECTFOLDERを提
案。
● 3つのSubnetで(NeRFベース)で同時に上
記の3つをRenderingできる手法も提案。
感想:
● Touch(触感)がようやく入ってきました!(今
までは視覚・言語・音声だった)
● NeRFですべてを統一できる?
● Smellはまた入っていない。
OBJECTFOLDER:
物体のImplicit neural
representatitions(視覚・音
声・触感をRenderingできる)
49
Stanford : Vision and learning lab
Title: Taskonomy: Disentangling Task Transfer Learning (CVPR, 2018)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Visual Tasks(例:Depth推定、
Segmentation,…)関の関連性を調べた。
● 具体的に、異なるタスク間の転移学習を行
い、それをベースにタスク間の関連性を計
算している。
感想:
● TaskonomyはCNNの時代だったが、Transformer
で行ってみるとどうなるのはかなり気になる。
● 人間でもTransformer学習するときに近いタスクs
遠いタスクsが存在するはず。その背後の原因分
析もかなり興味深い。
● Unified構造、複数のタスクは現在Transformer系
の手法でかなり検討されている。
Taskonomyの計算
(左図)
50
Stanford : Vision and learning lab
Title: Which Tasks Should be Learned Together in Multi-task Learning (ICML, 2020)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Multi-task学習の際に、限られた計算リソース
の場合でどのように同じネットワークで学習
するタスクのSubsetと別々のネットワークで
学習するSubsetを決めるための
Computational Frameworkを提案。
● Multi-task学習に関してすこし詳細なところま
で調べて、Multi-task学習の性能向上に貢献。
感想:
● 実際に人間も同様に学習するタスク関に相性が
良いのと良くないのがありそうで、そのあたり
の研究も興味深い。
● Transformerが提案されて以来、類似した研究が
多い感じ。そのため、こちらの研究もっと面白
い知見が得られるかも。
提案のComputational Frameworkを
用いた結果例:
Semantic Segmentation, Depth
Estimation, Keypoint Detection, Edge
Detection, Surface Normal Predictionの
5つ共同学習する際の性能が良い学習
ネットワークの構成
51
Stanford : Vision and learning lab
Title: Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration (CVPR, 2019)
Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● Single Demonstration VideoからVideoに含ま
れるタスク(例:組み立て作業)を実行でき
る新たなOne-short Learning手法を提案。
● 既存研究と異なり、提案手法では
Compositionalな構造ーTask graphを中間表現
としている。
感想:
● 解決しようとする問題が重要だが、いまだにか
なり難しいような気がする。
● 論文中にUnseen complexタスクを解くために、
Compositional Structureが重要と宣言していて、
そこがどうなのかなり興味深い。
● One-short Learning面白そう。
提案手法のIllustation:Task graphを介し
てSingle VideoからTaskをExecuteする
(左図)
52
Stanford : Vision and learning lab
Title: Neural Event Semantics for Grounded Language Understanding (TACL, 2021)
Research Team / Researcher: Stanford_Vision-and-learning-lab
概要:
● 理屈を理解するVisual Reasoningの新たな手法の
提案。
● 既存のVisual Reasoningでは人工設計なModule
が必要となる場合が多い。ここでの提案手法は
比較的その制限を緩やかにして、End-to-endで学
習できる既存のNMNと比べて構造が簡単。
感想:
● Neuro-symbolic的な手法のhuman-designedな
Neural moduleから解放され、まだまだ遠いかも
しれないが、Self-supervisedなNeuro-symbolicに
近づけている?!
● 提案手法のコアな考え方はかなりClassicな手法
ーEvent semantics (Davidson, 1967)、クラシ
ックな研究の関しての理解もなかなか重要な場
合がある。
● Event semanticsに対して知識がないが、もっと
複雑なCompositional(例:多層で否定や比較な
ども含まれる場合)で使えるかどうかは不明。
NMNと提案のNESの比較:
NESが視覚要素をEventとし、テキストをNeural
Logical Form Fにし、単語各々がClassifierになる。
最後にClassfierがEventに操作し、
結果の掛け算で最終出力を得る
53
Stanford : Vision and learning lab
重要視されているところ
● 様々なSensingの情報を融合しながら理解する能力(複雑度、情報量が拡張つつある):
○ ImageNet->Visual Genome->Action Genome, HomeAction Genome
○ Dense Captioning -> Dense-Captioning Events
○ Scene Graph->3D Scene Graph->Video Scene Graph->Physical Scene Graphs
● 様々なモダリティのSemantic Structure表現:
○ 画像グラフ(Visual Genome)
○ 動画グラフ(Action Genome, HomeAction Genome)
○ 3次元データグラフ(3D Scene Graph)
○ Physical Scene Graphs
● Semantic Structure的な表現とともに構造化された知能(例:Neuro-symbolic)
● 膨大で、高質で、合理的で厳格的に設計されるデータセットを作成し続けている。
● 分野において重要で長期的に貢献できそうテーマ設定が多い(Extensibleな研究が多い)。
● Physics+AIや、Roboticsへの応用に近年かなり力をいれてやっている
○ Jiajun Wu(Physics +AIの専門)も研究室に入ってきた
○ 大規模の環境構築(Gibson ENV, iGibson 1.0, iGibson2.0)や、Robotic Manipulation、
Replicasなどで今後実環境への応用が期待される。
54
Stanford : Vision and learning lab
気付き
UT-Austin_Computer_Vision
55
研究室の構成
Kristen Grauman先生
写真URL:https://www.cs.utexas.edu/~grauman/
扱っている研究分野:
選定理由:
● こちらもComputer Visionや、Vision and
Languageにおいて様々なタスクを扱ってきた。
下記例を示す:
○ VizWiz (盲人のためのVQA)
○ 2.5 D Sound (Sight and Sound)
○ Ego-Topo
○ VisualEchoes
○ SoundSpaces
○ Semantic Audio-Visual Navigation
○ Ego4D
● Ego4Dというかなり未来のVision and Languageや
Computer VisionやVideo Recognitionにおいて重要
である研究をリード;
● AudioとComputer Visionの組み合わせに強い;
● 近年Embodied AIに関わる重要な研究成果を出して
いる(特にAudioが入った場合)。
56
UT-Austin_Computer_Vision
研究テーマの変遷
2019
57
2020 2021 2022
Look-around
affordance landscape
Ego-Topo
Ego4D
2.5D Sound
VisualEcho
Sound Space
Audio-Visual Nav.
Move2Hear
● 同じ色で同じライン上の研究を示す
● それぞれの詳細を後ろの論文まとめに紹介
UT-Austin_Computer_Vision
Topic 1: Sight and Sound
58
UT-Austin_Computer_Vision
Title: 2.5D Visual Sound (CVPR, 2019)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● 従来3D音コンテンツ(Binaural Audio)を作成す
るための制作コストが高い。
● ビデオの画像情報(楽器の3次元位置などがわ
かる)を利用して、Monoaudioから、
Binaural的な2.5D Soundを出力するタスク・
手法を提案。
感想:
● Soundに関してまだまだComputer Visionや
Vision and Languageと組み合わせるところあり
そう。
● 人は両耳でSoundの三次元を感知していて、ここ
と視覚のSpatial reasoningとの組み合わせが賢い
2.5D Sound:
Mono audio (音から3次元を再現できない)と
Videoの入力から、Videoから得られる
Scene3次元情報を抽出し、シーンの3次元的
な情報感知できるBinaural Soundを出力
59
UT-Austin_Computer_Vision
Title: VisualEchoes: Spatial Image Representation Learning through Echolocation (ECCV, 2020)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● バットやDolphinsが使っているEcholocationを
Embodied AI Agentに導入した。
感想:
● センサーを増やしていくのは別にElegantではな
いことない。有用なのであれば、3次元環境の理
解のためにどんどんセンサーを追加していって
も良いじゃないかと思う
提案のVisualEchoes:
Eoches情報をFuseすることで、
Embodied 環境でDepth推定、Naviagtion
を行い、高い精度を示した。
60
UT-Austin_Computer_Vision
Title: SoundSpaces: Audio-Visual Navigation in 3D Environments (ECCV, 2020)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● Embodied 環境で音を発信する物体を
Localizationするために、AgentがEmbodied環
境でナビゲーションするタスクSoundSpacesを
提案。
● 入力として、Audio Spectrogramも使う。
感想:
● Echospaceとかなり類似し、音信号が自分から出
すか他の音源があるかの区別だけ。
● どちらでも重要だが(Echo/Sound Space)、デ
ータセット、手法が同じになっている部分も多
い。
提案のSoundSpacesタスク:
Embodied AIが環境中に音源にたどり着
くために自己ナビを行う。
61
UT-Austin_Computer_Vision
Title: Semantic Audio-Visual Navigation (CVPR, 2021)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● 前ページのSoundSpacesの進化版。
● SoundSpacesでは物体が連続音を出す、かつ、
音信号が人口で作成した信号(例:電話音)。
● ここで、不連続で、物体の自然的な音(蛇口の
水の流れの音など)をLocalizationするタスク
とデータセットを提案。
感想:
● 同じ研究室の研究SoundSpacesと類似。しかし、
SoundSpacesでは固定の音声をLocalizationする
ためで自己ナビし、ここでは物体の音と物体の
形状・位置などを関連付けてNavigation。
提案のAudio-Visual Navigationタスク:
環境中の物体(例:蛇口)がその物体の特定な
音(水が落ちる音とか)を自然的に(連続的で
はなく、短く不連続な場合もある)発信し、
Embodied Agentがその物体をLocalizationする
ため環境中に自己ナビをする。
62
UT-Austin_Computer_Vision
Title: Move2Hear: Active Audio-Visual Source Separation (ICCV, 2021)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● Embodied Agentが複数の音声があるEmbodied
環境で音声ソースを分離・Localizationをする
audio-visual source separationタスクを提案。
感想:
● 2.5D Visual Soundのラインの研究で、2.5Dでは
ビデオから音源分離を行い、ここではEmbodied
環境で音源の分離になる。タスク的に更に設定
がリアルで一歩前に進めた感がある。
● 手法的には強化学習を使っていて、新規性が薄
い気もする。
提案のMove2Hearタスク:
Embodied環境で複数の音源があり、
特定な音源をLocalizationをするため、
Embodied Agentが音源分離をしなが
ら自己ナビを行う。
63
UT-Austin_Computer_Vision
Title: Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video (BMVC, 2021)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● VideoのMonoaudioからBiaural Audioを生成する
新たな手法を提案。
● 既存法(2.5D Sound)ではVideoから直接Spatial
を予測したことと比較して、ここではVideoから
DisentangledなSpatial Representationを使用し、
2.5Dより高い精度を得られた。
感想:
● 2.5D Soundの手法的な延長で、Embodied AIと
も少し関連する。
● Vision and Audio(Sight and Sound)のモノポリ
感がある。
メインアイデア: VideoからImpulseや環境のSpatial情報の予測を利用し、Mono AudioからBinaural Audio生成
64
UT-Austin_Computer_Vision
Topic 2: Ego-centric/Embodied AI
65
UT-Austin_Computer_Vision
Title: Emergence of Exploratory Look-around Behaviors through Active Observation Completion (Science
Robotics, 2019)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● 従来、Computer Visionでは指定された入力から
認識するようなタスクが多い。(例:画像認識、
ビデオ認識など)
● ここではAgentが新しい環境に入った場合に、ど
ういった視点から環境を見ることでより
Informativeな情報を得られるかを学習する仕組み
を提案。
感想:
● Science Roboticsも投稿先としてあるか(2021-
2022-IF:23.748)!
● 考え方は特に既存の少ない視点からSceneの3次
元再構成の研究とあまり差がないが、どうして
Science Roboticsに採録されたかわからない。
● 手法的には、Recurrent Model + Reinforcement。
解釈性もそこまで高いない。
提案のLook-around Agentのモデル構造:
66
UT-Austin_Computer_Vision
Title: Ego-Topo: Environment Affordances from Egocentric Video (CVPR, 2020)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● Ego-centric動画から、動作のラベル(例:玉ね
ぎを切る)と動作発生の場所を表すTopological
mapをベースに認識を行う手法を提案。
● 既存のTotal画像認識、SLAMベースな手法の真ん
中に位置付け、Ego-centric動画像認識に高い精
度を実現とともに、SLAMベース手法より使いや
すい。
感想:
● Ego-centricビデオからいかに3次元物理位置とリ
ンクするかに関しての研究で、提案のTOPOマッ
プが計算コストも小さくて、人間の感覚都も良
く類似し、とてもReasonableな提案。
● 提案のTOPOマップの使いやすさも強い。
Affordanceとリンクさせることも可能。
● TOPOマップと経由して、Sim2Realやロボット
のデモにも使えそう。
提案のEgo-Topo:Ego-centricビデオから、
細かいClipの動作およびその動作発生する
場所を表すtopological map。
67
UT-Austin_Computer_Vision
Title: Learning Affordance Landscapes for Interaction Exploration in 3D Environments (NeurIPS, 2020)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● Embodied環境の物体Affordanceをベースとした
遷移学習の提案。
● 3次元環境から環境中の物体とどういった
Interactionができるかを強化学習的なフレーム
ワークで学習し、このような学習や得られる特
徴表現がNovel 環境に対しての汎化性能をしめ
した。
感想:
● Affordanceベースの転移学習やSim2Realが使え
そうで効率も良さそう。
● Ideaを強化学習的にその有用性を示せるところが
かなりエンジニアリングや計算リソースのとこ
ろが大変そう。
研究のメインアイデア:
Affordanceベースの学習
でNovel環境に対しての
表現を向上
68
UT-Austin_Computer_Vision
Title: An Exploration of Embodied Visual Exploration (IJCV, 2021)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● Taskonomyと類似した研究で、Embodied AIタ
スクでどのような特徴表現がどういったタスク
において有用なのかを調べた。
● 限られたBudgetで環境中の物体と位置に関する
情報の学習は複数のEmbodied AIタスクにおい
て有用であることを示した。
感想:
● こちらの論文はScience Robotics論文の拡張版
(入力が多視点画像⇒Embodied AiのEgo-centric
observationsになった)。
● Taskonomyからも一部考え方、やり方を借りて
いる感。
研究のメインアイデア:
Embodied Agentが限定
されたBudgetで環境を探
索し、物体とその3次元
情報を習得。そのような
特徴表現をその他の
Downstream Embodied
Aiタスクに活用
69
UT-Austin_Computer_Vision
Title: Shaping Embodied Agent Behavior with Activity-context Priors from Egocentric Video (NeurIPS, 2021)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● 実環境のビデオデータとEmbodied AIのDomain
Gapを縮めるための研究。
● 具体的に、Ego-centricビデオからActivitiesに関
連する物体情報を学習し、Embodied AIで
Rewardを設定し、Activitiesに関連する物体を多
く集めれば報酬が高い。実験で、このような学
習が学習のスピードを加速できることを示した。
感想:
● Real世界のEgo-Centricビデオでの学習を、
Embodied AiのDomainで活用する研究で、かな
り分野への貢献度が高く、Embodied AIの実環境
での利用を一歩前に進められた。
● Ego4Dや、研究室で今までやってきた研究とか
なりつながりが見やすい感じ。
メインアイデア:
実環境Ego-centricビデ
オからAcitivitiesに関連
する複数の物体という
情報を習得し、
Embodied AIタスクで
強化学習でActivitiesに
関連する物体を集め、
RealとSImのDomain
をつなげる。 70
UT-Austin_Computer_Vision
Title: Ego4D: Around the World in 3,000 Hours of Egocentric Video (arXiv, 2022)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● 大規模で、Denseでアノテーションされ
たEgo-centricビデオデータセットの提案。
感想:
● このプロジェクトが様々なComputer
Vision分野においてかなり使えそう。また、
このプロジェクトがあるから、関連する研
究室は続々と良い研究ができそう。
● 長いVideoの認識の時代がやってきそう。
● 第一人称動画のみではなく、様々な視点が
あるとなおさらよい気がする。
Ego4Dデータセットのイメージ図:
3,670 hours;数百種類のActivities; 複数のSensors(カメ
ラ、Stereo、Gaze、3D Scanners)
71
UT-Austin_Computer_Vision
Topic 3: Visual Question Answering
72
UT-Austin_Computer_Vision
Title: VizWiz Grand Challenge: Answering Visual Questions from Blind People (CVPR, 2018)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● 目の見えないユーザにより集めた画像と質問文
から構成されるVQAデータセットVizWizを提案。
感想:
● 盲人のためのVQAがVQA研究の一つかなり有力
な応用方向。また、画像のみではなく、ビデオ
入力の方向も検討すべき。
● VQA系の研究の究極的な目標にもなるように思
う。未だにかなりChallengingである。
VizWizデータセットで扱っている盲人に
より撮影された画像及び記録した質問
73
UT-Austin_Computer_Vision
Title: Visual Question Answer Diversity (HCOMP, 2018)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● 既存のVQAタスクでは1質問1回答を推定する。
● ここで、1つの回答ではなく、複数の回答およ
びそれぞれのFrequencyを推定するVQA設定を
提案。
感想:
● 一つの質問に対して、異なる回答およびそれぞ
れのFrequencyを予測する問題が、人に対しても
かなり難しい。定義実体もすこしIll-posedな部分
がありそう。
● 無限なHuman Annotationが得られないため、Q
から1つのみの回答を予測するのが確かにIll-
posedになりそう。
● 論文にheではなく(s)heが使われている(笑)
Visual Questionにおいて
AnswerのDiversity分布の例
74
UT-Austin_Computer_Vision
Others
75
UT-Austin_Computer_Vision
Title: Learning Patterns of Tourist Movement and Photography from Geotagged Photos at Archaeological
Heritage Sites in Cuzco, Peru. (Journal of Tourism Management, 2020)
Research Team / Researcher: UT-Austin_Computer_Vision
概要:
● Social Mediaの旅行先の画像(Peruの都市を対
象にした)から、Touristsがそれぞれの観光ス
ポットのTravel patternsを分析。
● Social MediaのデータがどうやってTouristsの
Travel Preferencesに影響を与えているかも分
析
感想:
● こちらの研究室で様々なタイプの研究を扱って
いる。
● Change RecognitionとChange Captioningに関連
が強そうに感じた。
● 今後どうやって、大規模Internetデータから文字
・画像・映像に含まれる情報を分析し、それをAI
に活用するのが重要になってきそう
旅行Patternの分析の例
76
UT-Austin_Computer_Vision
重要視されているところ
● 特に「音声」とVisionの融合が多く研究してきた:
○ 視覚+音声⇒音声信号の強化
○ 視覚+音声⇒Visualナビゲーションの性能向上、音源定位
● 実環境への汎化性能、Embodied AIと実環境ロボットアプリ関のGapの縮小
● 特に早い段階から「音声」+視覚を研究していて、自ら根強い研究分野を創出している。
● 手法の方よりも、「問題の提出」を重要視している。
○ 逆に手法が少し弱い(Multi-modal+Reinforcement)も時々する。
77
気付き
UT-Austin_Computer_Vision
Stanford University
JiaJun Wu
78
研究者 扱っている研究分野:
選定理由:
● Physical Scene Understanding
● Neuro-Symbolic Visual Reasoning
● Multi-Modal Perception
● Dynamic Models
● Generative Visual Models
● Neural-symbolic系においてたくさんの重要
研究を行ってきた。
● Physics +AIに関しても相当数の重要研究を
してきた。
● Neural-SymbolicとPhysics +AIどちらも相当
な未来性を持つ分野に感じた。
● 現在Stanford Vision and Learning Lab(Fei
Fei Li研)に所属。
79
Jiajun Wu先生
写真URL:https://jiajunwu.com/
Stanford: Jiajun Wu
研究テーマの変遷
2017
80
CLEVRER
2018 2019 2020
Visual De-animation
画像のDisentangled
な物理/Semantic表現
Neural Scene De-rendering
Neural-Symbolic的な手法、タスクなど
Neural-Symbolic VQA
Neuro-Symbolic Concept Learner
Scene Programs
● 同じ色で同じライン上の研究を示す
● それぞれの詳細を後ろの論文まとめに紹介
Stanford: Jiajun Wu
Title: Learning to See Physics via Visual De-animation (NeurIPS, 2017)
Research Team / Researcher: Stanford_JiaJunWu
概要:
● 画像からPhysical world特徴表現(Shape, Mass, Friction, 3D
Pose, Position)を復元するVisual de-animation(VDA)を
提案(上図、左)。
● 生成されたPhysical stateを用いてReasoningやFuture予測が
可能。
感想:
● 画像からPhysical worldを復元す
るアイデアがかなりインパクトを
感じる。全般的実現することはか
なり難しいが、局所的な空間での
ロボットアプリケーションで応用
できそう。
Visual de-animationの概念図
Visual de-animation(VDA)モデル
81
Stanford: Jiajun Wu
Title: Neural Scene De-rendering (CVPR, 2017)
Research Team / Researcher: Stanford_JiaJunWu
概要:
● 画像から、明示的にDisentangled
Scene Representation(物体、物体
属性、位置)を推定する手法を提案。
● Auto-encodersなどと異なり、
Decoderの部分でGraphics Engines
を用いる。
感想:
● 2017年当時では、NeRFなども提案されていなか
った。現時点では、NeRF等を代表とした手法が
提案され、この論文で提案されたDe-renderingの
方向では比較的に論文が少ないように感じる.
● De-renderingという提案も良いが、適応できる場
面が限られるような気もする.
De-renderingとRender
提案手法の構造図 82
Stanford: Jiajun Wu
Title: Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding (NeurIPS, 2018)
Research Team / Researcher: Stanford_JiaJunWu
概要:
● De-renderingをVQAタスクに適応した。
(VQAを算数を解くみたいな感じで行ってい
る)
● De-renderingとsymbolic program execution
により、VQAの回答のプロセスが明示的にな
る
感想:
● Neural Symbolic系は、識別とReasoning部分を
わけて処理するイメージ。
● 視覚と言語両方のWeak/Self-supervised学習との
組み合わせが興味深い。
● NeRF+Languageもかなり興味深い。
NS-VQAのモデル構造
(左図)
83
Stanford: Jiajun Wu
Title: The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences from Natural
Supervision (ICLR, 2019)
Research Team / Researcher: Stanford_JiaJunWu
概要:
● 前ページのNeural Symbolic VQA(NS-VQA)手
法をもっとEnd-to-end学習可能にした。
● 質問と画像から、視覚概念・単語・センテンス
のセマンティクスパーシングを自動的に学習す
るフレームワークNeural Symbolic Concept
Learner (NS-CL)を提案。
● Latent Scene Representationをベースとした
Neuro-symbolic learningを行っている.
感想:
● 前作(NS-VQA)と比べ、確実に一歩Self-
supervisedなNeural Symbolicモデルを実現でき
ている。
● Neurual Concept Learnerを様々なタスクに適応
していきたい。
提案のNS-CLの概要:
カリキュラム学習を用いた学習・言語と視覚
概念のParsing及びAlignment
84
Stanford: Jiajun Wu
Title: Learning to Describe Scenes with Programs (ICLR, 2019)
Research Team / Researcher: Stanford_JiaJunWu
概要:
● 画像から、Scene Program(物体、物体の配
置を表すプログラム)を生成するタスクを提
案。
感想:
● Scene Programsという提案が新規で面白いが、
適応できる場面が非常に限られている?
(Simulationかつモノの分布にルール性がある)
● 逆に生成を行えると面白そう。
提案手法のプロセスおよびScene Programsの例 85
Stanford: Jiajun Wu
Title: Reasoning About Physical Interactions with Object-Oriented Prediction and Planning (ICLR, 2019)
Research Team / Researcher: Stanford_JiaJunWu
概要:
● 物体の属性のSupervisionを用いずに、物理シ
ーンの理解のためのObject-centric
representationsモデルの提案。
感想:
● RoboticsのGraspingタスクなどに使えそう。
● 実環境で適応する時にどのようなPhysics
Engineが使えるかが気になる。NeRFはそろそ
ろ近くなる?
3種類のParadigms:(c)提案の
Object Factorization without Object
Property Supervision
86
Stanford: Jiajun Wu
Title: CLEVRER: Collision Events for Video Representation and Reasoning (ICLR, 2020)
Research Team / Researcher: Stanford_JiaJunWu
概要:
● 因果推論のための、ビデオデータセッ
トを提案。
● また、De-renderingとNeuro-symbolic
モデルを組み合わせた手法も提案(人
工設計のModuleが必要)。
感想:
● Videoや3Dを考慮した
Reasoningに関しての研究がこ
れから重要になってきそう。
● 論文の書き方はかなりよかった。
問題を明示化し、既存研究の問
題点もはっきりにした。
提案のCLEVRERデータセット
提案のOracle model: NS-DR
87
Stanford: Jiajun Wu
Title: Grounding Physical Concepts of Objects and Events Through Dynamic Visual Reasoning (ICLR, 2021)
Research Team / Researcher: Stanford_JiaJunWu
概要:
● 前ページのCLEVRERデータセットのための新
たな手法の提案。
● 前ページでは、人工設計のModuleが必要であ
る一方、ここでもっとEnd-to-endでできるよう
にした。
感想:
● 手法的にかなりNS-CLに近い、NS-CLのVideoへ
の拡張になっている。
● 依然として局所的にVisual Reasoningを検討し、
実験として簡単な実環境でも実験。
● もっと一般的なVideoへの応用が期待される。
提案のDCL(Dynamic Concept
Learner)の構造図
88
Stanford: Jiajun Wu
Title: Grammar-Based Grounded Lexicon Learning (NeurIPS, 2021)
Research Team / Researcher: Stanford_JiaJunWu
概要:
● Groundedな視覚と言語のデータから、自動的
にCompositionalかつGroundedな言語表現を
学習する手法G2L2の提案(下図)。G2L2が
NovelなワードのCompositionsに適応可能。
感想:
● この論文では言語側を切口に行われている
Neuro-symbolic手法になる。
● 言語側もまだまだ色々課題がある。最近の
DALLE-2などをVision and Language系に導入で
きると良さそう。
提案のG2L2(Grammar-
Based Grounded Lexicon
Learning)の構造図
89
Stanford: Jiajun Wu
重要視されているところ
● AIで物理法則を理解する
● Neural-Symbolic 的な手法により、人間のように因果推論ができるAIの実現
● 物理+AIの研究者として、物理、Robotics、AIどちらに関しても相当詳しい
○ この3つの分野に対しての知識だけで壁がある
○ AIに関しても、3D Vision、Video Recognition、Vision and Languageなど様々なサ
ブ分野を研究してきた
90
気付き
Stanford: Jiajun Wu
University of Michigan
JustinJohnson
91
研究者 扱っている研究分野:
選定理由:
● Visual Reasoning
● Vision and Language
● Image generation
● 3D Reasoning
● Vision and Languageを含めて、複数の分
野で重要な論文を残した
○ Vision and Language
■ CLEVR
■ Scene Graph
■ Dense Captioning
○ その他
■ Perceptual Loss
92
Justin Johnson先生
写真URL:https://web.eecs.umich.edu/~justincj/
Michigan: Justin Johnson
研究テーマの変遷
2015
93
2016 2017 2021
Scene Graph
Dense Captioning
CLEVR
CLEVRのための
Neural-Symbolic 手法
● 同じ色で同じライン上の研究を示す
● それぞれの詳細を後ろの論文まとめに紹介
VirTex
Michigan: Justin Johnson
Title: Image Retrieval using Scene Graphs (CVPR, 2015)
Research Team / Researcher: Michigan_JustinJohnson
概要:
● 画像の意味的構造Scene Graph(Objects,
Attributes, Object Relationships)を提案。
新規性:
新たなImage Representation、Scene Graphの提案。
当初はSemantic Image Retrievalのためだったが、現在
Scene GraphがあらゆるComputer Visionタスク、
Video、3Dデータにも適応されるようになってきた。
言語ー画像の間に位置付けるかなり効率的なGraph構
造になる。
Scene Graph(下)とGrounding(上)の例
94
Michigan: Justin Johnson
Title: DenseCap: Fully Convolutional Localization Networks for Dense Captioning (CVPR, 2016)
Research Team / Researcher: Michigan_JustinJohnson
概要:
● 従来の画像説明文生成タスクでは1画像1セン
テンスで、説明できる内容が限られる。
● 画像から、複数の物体を検出し、検出された
物体のCaptioning生成を同時に行うDense
Captioningタスクを提案。
感想:
● Dense Captioningタスクの提案はかなりそ
の時点の流れ的な感じがあるが、タスクの
設定はシンプルかつ重要だった。現在も
Videoや3次元データのDense Captioningタ
スクと類似したタスクが続出。
● 同じ研究室(Fei fei Li研)でDense
Captioningタスクに必要なデータセット
Visual Genomeも提案されたので、Dense
Captioningタスクの提案も計画下かなと感
じた。
Dense Captioningタスクと既存タスクの比較
95
Michigan: Justin Johnson
Title: CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning (CVPR,
2017)
Research Team / Researcher: Michigan_JustinJohnson
概要:
● 既存のVQAデータセットVQAv1とVQAv2では手動
で作成しているため、Human-centered biasが含ま
れる。
● VQAの手法をより分析する可能に、CGのVQAデー
タセットCLEVRを提案。
感想:
● データセットの設計は非常に合理的でコードが綺麗。
● CLEVRがVisual Reasoningモデルの研究を開かれた感
じがあり、但しCLEVRから5年立っていたが、シミュ
レーションとリアル環境で同時に解釈性が高いVisual
ReasoningできるモデルはいまだにOpen-question。言
語のみの場合かなり進歩してきたが。
CLEVRデータセットの例
96
Michigan: Justin Johnson
Title: Inferring and Executing Programs for Visual Reasoning (ICCV, 2017)
Research Team / Researcher: Michigan_JustinJohnson
概要:
● 人間のように、Step-by-stepで推理を行う
プロセスを持ったVQAの手法を提案。
● 質問と画像両方のDisentangledな表現、推
理プロセスのモジュール化などにより、
Step-by-step的なVisual Reasoningを行って
いる。
感想:
● 実環境に対応できるモデルにはまだまだ遠
いが、Neural Module Networksの
Compositional Reasoning能力を示せた。
● Neural Module NetworksがWeak
SupervisedもしくはSelf Supervisedで構築
できるかが興味深くて、いまだにOpen-
questionになっている。
提案のIEPモデルの構造:
Program Generator(質問から推理プロセスを推定)
+Execution Engineから構成される(推理プロセスに
対応した画像処理モジュールを組み合わせる)
97
Michigan: Justin Johnson
Title: Image Generation from Scene Graphs (CVPR, 2018)
Research Team / Researcher: Michigan_JustinJohnson
概要:Text-to-Imageの代わりに、Scene Graph-to-
Imageを提案(上図)。
感想:
● テキストから直接画像生成と比べ、Scene Graph
を経由した方が合理的で、解釈性が高く感じる。
● JohnsonがScene Graphの提案から、画像の意味情
報の理解をすこしずつ向上させている感じがある。
また、Black boxよりは、解釈性を重視する傾向に
ある。
提案手法(右図):
● Scene Layoutを中間表現として、
Scene Graphから画像生成を行う.
● Scene Graph⇒Layout: Graph NN
● Layout-> Image: Cascaded RN
98
Michigan: Justin Johnson
Title: VirTex: Learning Visual Representations from Textual Annotations (CVPR, 2021)
Research Team / Researcher: Michigan_JustinJohnson
概要:
Semantic Denseなタスク(例:上図の右側の
Image Captioning)での事前学習で高精度かつ高
データサイズの効率性が得られることを検討。
感想:
Semantic Dense/Sparseなデータで事前学習でそ
れぞれProsとConsがある。ここでDenseの方だと
データの効率が高いことを示せた。両方を結合し
た方が良いかもしれません。
様々なCVタスクの
Semantic Densityの順番:
(右)
提案のVirTex(下):Semantic
DenseなImage Captioningタス
クで事前学習し、Object
Detectionタスクへ遷移学習
99
Michigan: Justin Johnson
重要視されているところ
● 画像/視覚情報に対して意味情報の理解を深まっている。
● Jiajun Wuと類似したように、Computer Visionに関して様々なタスクを扱ってきた。
● 画像の意味的構造に関しての理解が深い、根強く研究し続けている
○ Scene Graph
○ Dense Captioning
● 実装力がとても強い
○ CLEVRとその後のICCV2017で提案したNeural-Symbolic 手法がかなり短い期間で
できた
● アイデアがいつもシンプルで、Communityに対してのContributionがクリアで説明され
ている。
● 提案手法がいつもTrickyではなく、合理的かつStraightforwardなものが多い印象。
● 論文が読みやすい。
100
気付き
Stanford: Jiajun Wu
University of Michigan
Honglak Lee
101
Honglak Lee (ミシガン大学, LG AI Research)
兼務:2016 Google Brain→2020 LG AI Research
スタンフォード大学:(指導教員はAndrew Ng)
● Ph.D. (2010): Computer Science
● M.S. (2006): Computer Science, Applied Physics
ソウル国立大学:
● B.S. (2003): Physics, Computer Science
画像は[1]より引用
[1] https://web.eecs.umich.edu/~honglak/
主戦場の分野:強化学習、CV、V&L、NLP
貢献が多いトピック:
● 教師なし、弱教師ありの表現学習
● (主に弱教師あり)領域分割
● GANを用いた画像生成・画像変換
● GANの正則化手法
選定理由(品川):
研究室の規模は10名弱とそれほど
多くないものの、メンバー全体が
機械学習トップ会議の常連であり、
質の高い論文が多く、学べるもの
が多そうだと考えたため。 102
活躍している分野(採択先別、ジャーナル、workshop含む)
個人サイトにある掲載論文[1] 124件 (2005-2021)の論文を集計した
多い会議
● 表現学習や強化学
習(NeurIPS, ICML,
ICLR)
● CV系(CVPR,
ECCV, ICCV)
NeurIPS (5月投稿締
切)→ICLR (9月) or
CVPR (11月) → ICML
or IJCAI (1月)
という研究サイクル?
103
活躍している分野(研究テーマ別)
個人サイトにある掲載論文[1] 124件 (2005-2021)の論文を集計した
強化学習や表現学習が大
部分だが、関連技術とし
て画像(動画)生成・変
換系の話や、その道具と
して主流であるGANの工
夫の話も多い。
強化学習
表現学習
深層生成
モデル
104
● 2012-2014頃は NIPSworkshop (12月初旬開催)からICML (1月投稿締切)という流れも(今
はやってない?)
● 2015-2018はAdobe Researchとも共同研究していた?(Jimei Yangがキーパーソン?)
博士論文:Unsupervised Feature Learning Via Sparse Hierarchical Representations
深層学習モデルによる教師なしの表現学習(スパースコーディングと、スパースな
Deep Belief Network、畳み込みDeep Belief Network)
2014年頃まで:RBM、DBN、Convolutional DBNによる表現学習
2015年~:画像、テキストによる表現学習、画像生成・変換、強化学習、動画生成
2019年~:GANの正則化手法も加わる
● 表現学習を基礎にしながら、強化学習や画像を中心とした深層生成モデルを攻めている
● 大まかには、表現学習や深層生成モデル(ミシガン大)強化学習のアルゴリズム改善
(Google Brain)で分かれているという印象
● 一見色々なことをしているように見えるが、大きな目で見ると、コアの技術は有機的に
つながっていて、かつテーマが研究室内で引き継がれている印象を受ける。指導方針に
戦略がありそう?
● 研究トピックがその時代の流行りを少し先取りしていたり、面白いと思われているとこ
ろを絶妙についているという印象。研究対象を絞っているゆえに着眼点が良いのかも
105
研究テーマの変遷
2014 2022
RBM、Deep Belief
Networks
による表現学習
画像生成
・変換
強化学習 (2016年以降は主にGoogle Brainでの仕事)
動画生成
画像と言語の共有空間の学習
text-to-image+GAN
2016
博士論文, 2009
CKAによるDNN
の類似性解析
GANによる正則化
表現学習や
表現の分析
106
主要な貢献には主に優秀なPh.D.の学生やポスドクが関わっている
Lajanugen Logeswaran
Sungryull Sohn
Seunghoon Hong
Scott Reed
Yuting Zhang
現Ph.D. student。文の表現学習に関する仕事はだ
いたいこの人が筆頭著者
現Ph.D. student。強化学習の改善に注力
現Amazon。元Visiting Ph.D. student→ポスドク。
深層生成モデルを使った画像タスク色々。画像や
言語の表現学習も手掛ける
現KAIST Assist. Prof.。元Visiting Ph.D. student→
ポスドク。弱教師あり領域分割や条件付き画像生
成・変換がメイン
現DeepMind。元Ph.D. student。GANによるtext-to-
imageの草分け的存在。画像とテキストによるゼロショ
ット画像分類や表現学習、画像生成・変換など 107
対外でも強力な共著がいる
Google Brain Sergey Levine
Jimmei Yang
強化学習の大家
現Adobe。元Visiting Ph.D. student。Adobeのイ
ンターンや共同研究はこの人が関係している?
Geoffrey Hinton 深層学習の大家
次のページからは論文まとめ
108
画像の表現学習
動画・画像の生成・変換
109
Title: Convolutional deep belief networks for scalable unsupervised learning of hierarchical
representations (ICML 2009, Best Paper Award: Best Application Paper)
Research Team / Researcher: Michigan_Honglak_Lee
Deep Learning初期に主流だったDeep
Belief Networkに畳み込み構造を追加し
たConvolutional Deep Belief Networkを
提案した論文。
左図は2層目(上図)と3層目(下図)が反
応する視覚的特徴を示している。階層性が複
雑な特徴を捉えていることを示している図と
してかなり有名な図
Stanford
Andrew Ng
110
Title: Action-Conditional Video Prediction using Deep Networks in Atari Games (NIPS 2015, oral presentation)
Research Team / Researcher: Michigan_Honglak_Lee
actionに条件づけられた動画予測
強化学習でよく用いられるAtariのゲ
ームの動画で実験
Atariの動画は自然画像ほどではない
が、数十オブジェクトやオブジェク
トの増減が起こる
Feed-forwardとRecurrent層を含む
2種類の提案モデルが良いことを示
した。
DNN時代の条件付き動画生成の比較
的早期の研究と思われる
Michigan
111
Title: Deep Visual Analogy-Making (NIPS 2015, oral presentation)
Research Team / Researcher: Michigan_Honglak_Lee
潜在空間上である関係にある画像同
士を引き算し、その関係を適用した
い画像に{足す、掛ける、ニューラ
ルネットワークに通す}と、その関
係が適用された新しい画像が生成で
きることを示した論文。
ニューラルネットワークに通した場
合(deep)が一番良い結果になった
当時、DNNによる画像変換の可能性
に一石を投じた論文の一つ
Michigan
Scott Reed
112
Title: Learning Hierarchical Semantic Image Manipulation through Structured Representations (NeuIPS2018)
Research Team / Researcher: Michigan_Honglak_Lee
前景と背景を考慮しながら領域マスク生成と画像生成の二段階で画像を
編集する手法を提案
筆頭のSeunghoon HongはCVPR2018でも似たようなことをtext-to-imageでやってい
る。text-to-imageの方が先なので、より対象を絞ったのだろうか?
Seunghoon Hong
Michigan
113
テキストの表現学習
Lajanugen Logeswaranとの仕事
114
Title: Sentence Ordering and Coherence Modeling using Recurrent Neural Networks (AAAI 2018)
Research Team / Researcher: Michigan_Honglak_Lee
Lajanugen Logeswaran
Michigan
Dragomir Radev
与えられた文の集合から文を順番に生成するタスクを解くことで、一貫したテキスト
の構造をモデル化し、良い文の表現を得る方法を提案。順序判別タスク、科学論文の
概要を並べるタスクで有用性を示した。文の表現としても有用。
115
Title: Content preserving text generation with attribute controls (NeurIPS 2018)
Research Team / Researcher: Michigan_Honglak_Lee
Lajanugen Logeswaran
Michigan
Google Brain
Samy Benjio
ラベルに条件付けられたテキスト生成で、
再構成損失、逆翻訳損失、敵対的損失を導入
116
Title: An efficient framework for learning sentence representations (ICLR 2018)
Research Team / Researcher: Michigan_Honglak_Lee
Lajanugen Logeswaran
Michigan
入力テキストに対応する文脈を対照学習で予測する
問題を解くことで、良いテキスト表現を学習する
117
Title: Zero-Shot Entity Linking by Reading Entity Descriptions (ACL2019 Best paper award finalist)
Research Team / Researcher: Michigan_Honglak_Lee
ラベルデータなしで与えられたテキスト(メ
ンション)をエンティティに紐づけるタスク
をzero-shotで行う。
ラベル付けされていない大規模データに対し
て事前い学習させたモデルを用いて未知のエ
ンティティに汎化できることを示した。
Lajanugen Logeswaran
Michigan
Google Brain
118
画像と文の表現学習
text-to-image
Yuting Zhang、Scott Reed、Seunghoon Hongとの仕事
119
Title: Evaluation of Output Embeddings for Fine-Grained Image Classification (CVPR 2015)
Research Team / Researcher: Michigan_Honglak_Lee
Michigan
Scott Reed
Max Planck
画像とクラスの埋め込み(もしくはテキストの埋め込み)が一致
するか否かをSVMで予測するタスクを解くことで、zero-shotの
画像分類の性能を向上させた
Scott Reedの、後のvisual
semantic embeddingの研究
につながっている模様
120
Title: Learning Deep Representations of Fine-grained Visual Descriptions (CVPR 2016, spotlight)
Research Team / Researcher: Michigan_Honglak_Lee
画像と言語の共有空間である
visual semantic embeddingを学習
当時主流だったTriplet lossに、ク
ラスラベルの一致をマージンとし
て加えたlossを提案した。
結局流行ることはなかったが、
筆頭著者のScott Reedが自身の
GANによるtext-to-image論文で利
用している
テキストエンコーダにCNN-RNN
を使っていたのも当時珍しかった
印象
Michigan
Scott Reed
121
Title: Generative Adversarial Text to Image Synthesis (ICML2016)
Research Team / Researcher: Michigan_Honglak_Lee
GANをtext-to-imageに応用した最初の論
文。Discriminatorで入力画像が本物か判
定するだけでなく、入力条件にも沿って
いるかを合わせて判定するmatching
aware lossは、条件付きGANの標準的な
方法の一つとして普及したといえる。
Michigan
Scott Reed
122
Title: Learning What and Where to Draw (NIPS 2016, oral presentation)
Research Team / Researcher: Michigan_Honglak_Lee
概要:
text-to-imageの入力に自然言語だけで
なく矩形やkey-pointなど、空間的な情
報を含めて生成する手法を提案した。
テキスト+追加情報でtext-to-imageを
することの先駆けとなった論文
Honglak Leeのラボでは、この手のネ
タがしばらく継承されてきている
Michigan
Scott Reed
123
Title: Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis (CVPR2018)
Research Team / Researcher: Michigan_Honglak_Lee
テキストからの画像生成にbounding boxの
予測タスク、領域マスクの予測タスクを挟
みこんで生成
text-to-imageを段階的なタスクに分割し、
End-to-endで学習。空間的なレイアウトも
モデルから生成できるようにした
Michigan
Seunghoon Hong
124
Title: Text-to-Image Generation Grounded by Fine-Grained User Attention (WACV 2021)
Research Team / Researcher: Michigan_Honglak_Lee
実践的なテキストからの画像
生成の方法として、ユーザが
喋りながらマウスによる軌跡
入力を行えるという問題設定
の下で画像を生成
Google Research
125
Title: Discriminative Bimodal Networks for Visual Localization and Detection with Natural Language
Queries (CVPR2017 spotlight)
Research Team / Researcher: Michigan_Honglak_Lee
概要:
テキストのクエリが示す画像中の領域
を検出するタスク。従来手法がimage-
captioningなどに基づくのに対し、本
手法は画像とテキストのマッチングを
2値分類することで効率的に負例も使
うことができる。
現在のV&L BERTのtext-image
matchingにも通じるアイデアだと思わ
れる
Michigan
Yuting Zhang
126
強化学習
Sungryull Sohn、Google Brainでの仕事
127
Title: Hierarchical Reinforcement Learning for Zero-shot Generalization with Subtask Dependencies
(NeurIPS 2018)
Research Team / Researcher: Michigan_Honglak_Lee Sungryull Sohn
Michigan
既存の階層的なマルチタスク強化学習ではエージェントが何をすべきか明示的に
示していたが、本研究ではサブタスクの性質とサブタスク間の関係性のみの情報
だけで、エージェントがどのサブタスクを実行するか推論させるより実践的な問
題設定になっている
128
Title: Data-Efficient Hierarchical Reinforcement Learning (NeurIPS2018)
Research Team / Researcher: Michigan_Honglak_Lee
上位方策と下位方策により複雑なタスクを解く階層型強化学習において、上位方策
がon-policyで学習する必要があった従来手法に対し、上位方策もoff-policyで学習す
る方法を提案し、サンプル効率を改善した
Google Brain Sergey Levine
129
Title: Evolving Reinforcement Learning Algorithms (ICLR2021 oral)
Research Team / Researcher: Michigan_Honglak_Lee
概要:
モデルフリーの価値ベースRLエージェントを最適化するのに、損失関数を計
算する計算グラフ上をサーチするメタ学習強化学習を提案。
ドメインにによらず新しい環境への汎化が可能で、スクラッチ学習でも既存の
DQNなどと組み合わせることも可能。価値ベースの過大評価に対処するRLア
ルゴリズムと類似した傾向がある
Google Brain Sergey Levine
130
GANの正則化
Michigan大、Google Researchでの仕事
131
Title: Diversity-Sensitive Conditional Generative Adversarial Networks (ICLR 2019)
Research Team / Researcher: Michigan_Honglak_Lee
条件付きGANのモード崩壊を抑えつつ多様性を向上させる方法として、目的関数
に正則化を加える手法を提案。
生成条件xに潜在変数z_1, z_2を加える時、z_1, z_2の距離に対するGeneratorによ
る生成後の距離を上限τのもとで最大化する。
Michigan
132
Title: Consistency Regularization for Generative Adversarial Networks (ICLR 2020)
Research Team / Researcher: Michigan_Honglak_Lee
GANにデータ拡張を適用する際、データ拡張適
用前後の特徴量は近くなることが望ましい。この
正則化をDiscriminatorに適用した
CR-GANを提案。
画像は下記リンクより引用
https://arxiv.org/abs/2002.04724
Google Research
133
Title: Improved Consistency Regularization for GANs (AAAI 2021)
Research Team / Researcher: Michigan_Honglak_Lee
データ拡張を行った入力の予測をDiscriminatorの予測に近づけるconsistency cost
の導入(1)は性能を向上させる一方でartifactを引き起こすことを指摘。
データ拡張の対象を変更することでよりFIDで高性能であることを示した(2)(3)
● (2) bCR-GAN:
Generatorによる生成画
像にデータ拡張を加え
てconistency costを計
算
● (3) zCR-GAN:
zにノイズを加えて、
生成画像にconsistency
costを計算
Google Research
134
CVタスク
(弱教師あり領域分割など)
Seunghoon Hong、Yuting Zhang、
Jimei Yangとの仕事
135
Title: Weakly Supervised Semantic Segmentation using Web-Crawled Videos (CVPR2017 spotlight)
Research Team / Researcher: Michigan_Honglak_Lee
概要: Web上の動画を領域分割できるモデルを学習する。
1. 最初に既知のドメインで画像認識モデルとattention mapを学習
2. Web動画を認識モデルでフィルタリング
3. (既知のドメインで)attention map to segmentation maskを学習
Michigan
Seunghoon Hong
136
Title: Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional Neural
Network (CVPR 2016, spotlight)
Research Team / Researcher: Michigan_Honglak_Lee
弱教師ありの領域分割の性能を上げる方法として、別のドメインの領域分割デ
ータセットからの転移学習を行う研究。クラスの予測と領域分割のマスクの予
測を分けて予測するタスクを解くことで、転移先のデータセットに対しても領
域分割を汎用的に機能させることができる
Michigan
Seunghoon Hong
137
Title: Object Contour Detection with a Fully Convolutional Encoder-Decoder Network (CVPR 2016, spotlight)
Research Team / Researcher: Michigan_Honglak_Lee
シンプルなネットワークで輪郭検
出ができることを示した
Adobeとの共同研究?
Michigan
Jimei
Yang
138
Title: Unsupervised Discovery of Object Landmarks as Structural Representations (CVPR 2018 oral)
Research Team / Researcher: Michigan_Honglak_Lee
教師なしで画像中のランドマークを発見する手法を提案。UNetのようなEncoder-decoderモデル
でチャネルごとにisotropic gaussianを仮定してランドマークを抽出し、このランドマークを基に
画像の再構成を学習することで画像中のオブジェクトに対する良いランドマークを発見する
Michigan
Yuting Zhang
139
Title: Similarity of Neural Network Representations Revisited (ICML2019 + Best Research Paper Award at the
ICLR 2019 Workshop on Debugging Machine Learning Models)
Research Team / Researcher: Michigan_Honglak_Lee
概要:
centered kernel alignment (CKA)に基づい
たニューラルネットワークの表現
(activation)の類似性の比較を提案。線
形のCKAは従来の正準相関分析を固有値で
重みづけした方法に相当することを示し、
CKAの優位性を示した。
補足:
線形CKAによる手法は現在の標準的な類似
度比較手法になっており、昨今のResNet
とVision Transformerの比較にも利用され
ており、大きな影響を与えたと言える
Google Brain Geoffrey Hinton
140
Google:Peter Anderson
141
研究室の構成
写真:
URL:https://panderson.me/
扱っている研究分野:
選定理由:
● Embodied AI
● Image caption
● VQA
● Vision-langauge Navigation
● image captionタスクの評価:SPICE
● Vision-language Naviagationを提案
● REVERIEを提案
142
Title: SPICE: Semantic Propositional Image Caption Evaluation
Research Team / Researcher: Google_Peter-Anderson
概要:
● image captionタスクにおいて,生成した文の意
味内容によって,その文の質を評価する指標を
提案した.
● 生成文と参照文に出た物体,物体の属性,物体
間の関係を基づいて,scene graphに変更す
る.2つのscene graphの類似度によって,生成
文の評価を行う.
新規性:
● 従来の評価指標(BLEU,METEORなど)は文の
意味を無視し,n_gramで生成文と正解を比較で
評価する.SPICEでは文の意味を考慮する上で
品質を評価する.
SPICEによる評価の一例
感想:
● SPICEを提案した以来,image captionの分野で
広めに利用される.従来の指標より,意味を重
視しているけど,文の流暢性という基準がなく
なる.
143
Title: Chasing Ghosts: Instruction Following as Bayesian State Tracking
Research Team / Researcher: Google_Peter-Anderson
概要:
● 観察とモーションモデルを基づいてVLNタスクの
解決策をBayesian State Tracking問題として提案
● 言語指示から観察と動作関連の単語を取り出し,
semantic spatial mapを作る
新規性:
● VLNタスクに向けてメモリ構造を提案した
144
Title: Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
Research Team / Researcher: Google_Peter-Anderson
概要:
● vision langauge navigation(VLN):リアルな環境に
おけるエージェントは言語の指示に従って目的地
に辿り着くというタスクを提案した.
● ベンチマークRoom-to-Room(R2R)を構築した.
新規性:
● 新しくVision and Language系の研究のタスク
(VLN)を提案した.このタスクは,CV,NLP,
Robotics分野の結合で,非構造化かつ未知な実環
境でのreasoning能力を求める.
● 既存のVision and Language系の研究(VQA,
visual dialog etc)より,画像と自然言語両モダリ
ティ間の関係性をより深く理解する必要がある.
感想:
● 論文にはさまざまなベイスラインを提供され,
Seq2seqの手法でR2Rベンチマークを試した
結果,学習際に見なかったシーンに対する効
果が低下であることより,VLNタスクでは汎
用性のあるエージェントを学習させることが
重要である.
145
Title: Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Research Team / Researcher: Google_Peter-Anderson
概要:
● bottom-upで画像中での特徴を利用し,物体情報
を認識した後に,top-downでattention構造で注意
すべき領域を予測し,image captionとVQAのタ
スクを行う.
新規性:
● Faster-RCNNで物体検出することを活用し,
visualとlanguageを連結したことにより,画像に
のコンセプトへの理解を向上した.
● 提案したbottom-upとtop-down形のattention構造
はオブジェクトおよび他の顕著な画像領域のレ
ベルでattentionを計算することができる. top-downでのVQAタスクためのモデル
top-downでのimage captionためのモデル
146
Title: REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments
Research Team / Researcher: Google_Peter-Anderson
概要:
高レベルの自然言語指示で指定された遠隔のターゲッ
ト物体(開始地点では観測できない)を正しくローカ
ライズするタスク
新規性:
● 3D環境でのreasoning
● high levelな指示
論文に提案したモデル
REVERIEデータセットの一例
感想:
● REVERIEタスクでは人間みたいに抽象性が高
い指示を理解し,未観察の環境においても,
ナビとreasoningの能力を求める.
● 既存なSoTA手法でREVERIEを解けてみたけ
ど,効果がよくないにより,挑戦的なタスク
けど,VLNの発展および応用に意味ある.
147
Title: Pathdreamer: A World Model for Indoor Navigation
Research Team / Researcher: Google_Peter-Anderson
概要:
● Pathdreamerは,屋内シーンの1つ以上のパノラ
マに基づいて,リアルで多様なパノラマ画像を
合成することができる確率的階層的視覚世界モ
デルである.
● PathdreamerをVLNタスクに応用する
新規性:
● 高解像度のaction-conditional video prediction
148
Title: Less is More: Generating Grounded Navigation Instructions from Landmarks
Research Team / Researcher: Google_Peter-Anderson
概要:
2-stageのモデルを提案,視覚上に関連性あるの
visual inputのみを選んで,ナビの指示を生成する.
● 1st-stage (landmark detector):
パスで結ばれたpanoramicのシーケンスから,
人がこのパスを説明するために選択する可能性
のあるランドマークのシーケンスを推論する.
● 2nd-stage (instruction generator):
第1ステージに選んだランドマークとナビゲー
ションためのアクションを使って,ナビの指示
生成を行う.
感想:
● image-text pairに似たような手法でパノラムから
既存指示に出た名詞を抽出し,視覚とテキスト
間の対応関係をうまく取ってきた.
おかげで,モデルが生成した指示と人間が書い
た指示の差をほとんどなくすことができる.
149
University of Adelaide:V3ALab
次のページからは論文まとめ 150
研究室の構成
写真:
URL:https://v3alab.github.io/
扱っている研究分野:
選定理由:
● VQA
● Image captioning
● Referring Expression
● Vision-language Navaigation
151
Title: VLN BERT: A Recurrent Vision-and-Language BERT for Navigation
Research Team / Researcher: Adelaide_V3ALab
概要:
● V&L BERTモデルをVLNタスクに応用するため,
recurrent BERTを提案し,エージェントの状態を
依存できるようになった.
● R2RとREVERIEのタスクでSoTAを達成
感想:
● V&L BERTモデルの特徴はマルチモーダル情報へ
の理解力が高い,その特徴を利用し,VLNタスク
においての環境理解が向上した.
● BERTのself-attention構造を利用し,他のVLNモ
デルに提案したメモリ構造と同じように使え
る.モデルがシンプルになる同時に計算コストも
低くなる.
● recurrent機構を導入し,LSTMのセル状態のよう
に状態を再利用することで,BERTの本来の構造
を生かし,時間依存の入力を識別できるようにし
た.(VLN問題はMDPに見える,マルコフ連鎖
における過去の状態への依存を解決することであ
る.)
部分的に観測入力を対応可能なrecurrent Transformer
VLNリカレントBERの全体像 152
Title: Room-and-Object Aware Knowledge Reasoning for Remote Embodied Referring Expression
Research Team / Researcher: Adelaide_V3ALab
概要:
● REVERIEタスクに対して,room-entityのリズニングとobject-entityのリスニングするための
commonsense knowledgeを学習するアプローチCross-modality Knwoledge Reasoning(CKR)を提案し
た
● CKRの中,Knowledge-enabled Entity Relationship Reasoning (KERR)はグラフベースの知識推論を適
用し,部屋や物体間の意味的・共起的な内部と外部の相関をとらえ,そこに常識を取り込む
153
Title: Sub-Instruction Aware Vision-and-Language Navigation
Research Team / Researcher: Adelaide_V3ALab
概要:
● 既存の(Room-to-Room)R2Rデータセットでの指示文が
抽象性があるため,指示文とシーンの間の対応関係がうま
く学習していなかった.そして,本研究は元のアノテーシ
ョンを基いて,sub-instructionを作成し,既存のR2Rデータ
セットを改善し,シーンと指示文を細かくマッチングでき
るようになった.
● 4つのSoTAモデルを使い,改善したFineGrained R2Rの有
効性を検証した.
154
Fine grained 指示文の例

【メタサーベイ】Vision and Language のトップ研究室/研究者

  • 1.
    Vision and Languageの トップ研究室/研究者 のメタサーベイ YueQiu (AIST), 品川政太郎 (NAIST), 孫延君 (慶応大) 2022.07.08 1
  • 2.
    はじめに: 2 ● cvpaper.challengeのVision andLanguageグループにより作成 ● Vision and Languageのトップ研究グループ/者をサーベイ対象: ○ トップの研究グループ/者がどのように研究を進めている ○ Vision and Languageの網羅的なサーベイ ● この資料の構成: ○ 研究グループ/者ごとにまとめている: - 研究室の構成, 選定の理由 - 研究テーマの変遷 - 論文まとめ(1論文1ページ*) - 研究の方法、重要視している課題のまとめ *各論文の概要レベルしか触れていない
  • 3.
    今回調査対象とする研究グループ/研究者: url 大学/研究機関 研究室代表研究者 スライド番号 1 Georgia Tech Visual Intelligence Lab Devi Parikh 4-22 2 Stanford vision and learning lab Fei fei Li, Juan Carlos Niebles, Silvio Savarese, Jiajun Wu 23-54 3 UT-Austin Computer Vision Kristen Grauman 55-77 4 Stanford vision and learning lab Jiajun Wu 78-90 5 University of Michigan Justin Johnson 91-100 6 University of Michigan Honglak Lee 101-140 7 Google Peter Anderson 141-149 8 University of Adelaide V3Alab Qi Wu 150-154 3
  • 4.
    Georgia Tech: VisualIntelligence Lab 4
  • 5.
    研究室の構成 扱っている研究分野: 選定理由: ● Visionand Languageの様々なタスク: ○ Visual Question Answering ○ Visual Dialog ○ Embodied Question Answering ○ Audio-Visual Scene-Aware Dialog ○ Text VQA ○ Image Captioning ○ Vision Language Representation ○ Text-to-Image Generation ● Vision and Languageをリードする研究室 ● 数々の重要なタスク/データセットを提案し てきた: ○ Visual Question Answering ○ Visual Dialog ○ Embodied Question Answering ○ Text VQA ○ … 写真URL: https://faculty.cc.gatech.edu/~parikh/vil.html 5 Georgia Tech: Visual Intelligence Lab
  • 6.
    研究テーマの変遷 2015 2017 20182019 VQA, VQAv1 Dataset VQAv2 Dataset Visual Dialogタスク Neural Baby Talk Embodied Question Answering Audio-Visual Dialog Text VQA Novel captioning Others: ● AI Habitat VandL Representation: ● ViLBERT ● 12-in-1 6 ● 同じ色で同じライン上の研究を示す ● それぞれの詳細を後ろの論文まとめに紹介 Georgia Tech: Visual Intelligence Lab
  • 7.
    Topic 1: VQA 7 GeorgiaTech: Visual Intelligence Lab
  • 8.
    Title: VQA: VisualQuestion Answering (ICCV, 2015) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要:1枚の画像と画像内容に関する質問から、回答するタスクVQAとデータセットを提案。 VQAが、Vision and Languageの研究の始まりと代表的なタスクに位置付けている印象。 新規性: ● 新しい、Vision and Languageの系研究を打開したタスクとデータセットを提案した。VQAv1提案後、様々のVision and Languageモデルやタスクの研究が続出するようになった。 ● VQAv1タスク・データセット(現在はbiasが比較的にコントロールされたVQAv2の方がメインで使われている)で様々 なVisual Reasoning能力がカバーされており、現在でもChallenge的であり、VisionとLanguage認識以上のReasoning能力 のモデル構築において今でも意味がある。 VQAv1データセットの例 当時提案されたVQAのモデル構造 8 Georgia Tech: Visual Intelligence Lab
  • 9.
    Title: Making theV in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering (CVPR, 2017) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab VQAv1(上段) vs. VQAv2データセット(下段): 概要: ● VQAv1データセットに含まれる強いデー タセットバイアス(例:Yes or No問題の 回答が70%Yesなど)を発見。 ● データセットの拡張・バランス調整を行い、 比較的にデータセットバイアスが少ないデ ータセットVQAv2を提案。 感想: ● VQAデータセットは根本的にバイアスにな ってくるかもしれません。いかにバイアス なデータセットから、バイアスしない回答 を学習できるかがデータセットのバイアス のコントロールより重要であるように思う。 ● 分布が異なるデータセット間で対応可能な モデルが良い。 9 Georgia Tech: Visual Intelligence Lab
  • 10.
    Title: Embodied QuestionAnswering (CVPR, 2018) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要: ● VQAタスクをEmbodied環境に拡張した。 ● 具体的に、Embodied環境でAgentが環境 中の物体に連する質問の入力から、その 質問を回答するために、環境の中に自己 ナビゲーションし、環境の観測を行う。 新規性: ● VQAタスクを3次元空間・しかもかなり挑戦的な Embodied環境に導入。 Embodied Question Answeringタスクの Illustration: 質問が与えられた時に、Embodied Agentが3次元 環境で自己ナビゲーションしながら、質問を回答 していく 感想: ● Vision-Language Navigationと比べ、EQAタスク があまり関連論文が出ない。問題が難しいかつ タスクがあまりGroundedではないところが原因 と想定。 ● EQAタスク自体はかなり実用性高そう。もっと Groundedにした方が良いかも。 10 Georgia Tech: Visual Intelligence Lab
  • 11.
    Title: Towards VQAModels That Can Read (CVPR, 2019) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要: ● 日常生活の中に、物体のラベルやパソコンの 画面、時計、交通シーンのパネルなど色々テ キスト情報が含まれる。 ● 上記の情報の理解のために、画像中のテキス トに関する質問の理解のためのText VQAタ スクとデータセットを提案。 感想: ● 画像中のText情報が他の視覚要素と比べて特殊で かなり重要な場合がある(例:時間;値段;ウ ェブページ)。 ● 技術な面では、Textも物体検出と類似したように、 画像から様々な検出モデルを着装することによ りReasoning能力が向上できる。 TextVQAデータセットの例 11 Georgia Tech: Visual Intelligence Lab
  • 12.
    Title: Habitat: APlatform for Embodied AI Research (ICCV, 2019) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要: ● Embodied AI系のデー タセット、シミュレー ター、タスクを整合し たAPIーAI Habitatを提 案。Embodied AI系を より容易に扱うように した。また、タスク間 の連携も可能に。 感想: ● AI Habitatがハードルが高いEmbodied AI系の研究のバリアをだいぶ 緩やかにしてくれた。Embodied AI系の研究の加速に大きく貢献。 ● AI HabitatによりEmbodied AI系のタスク間の遷移学習もよりしやす くなった。 ● 2022年現在では、2019で想像したほどEmbodied AI系がAI Habitatを 活用できていない感がある。 ● 論文のroadmapに書いているところは今確実に進んで切る。 AI Habitat Platform(右図): 様々な3次元環境 (Replica,Matterport3Dなど)、 Simulators(AI2-THORなど)お よび複数のEmbodied AIタスクを 行える(EQA, VLN, ...) 12 Georgia Tech: Visual Intelligence Lab
  • 13.
    Topic 2: VisualDialog 13 Georgia Tech: Visual Intelligence Lab
  • 14.
    Title: Visual Dialog(CVPR, 2017) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要: • 人間が会話して、見ている視覚情報のやり取 りを行っている。 • 上記を可能にするために、VQAタスクをDialog に拡張した、Visual Dialogタスクとデータセッ トを提案。 感想: ● Visual Dialogの設定は、過去の会話履歴と直近の 質問から、回答をするになっている.このよう な設定によりAIとHumanの対話性が保たれるの で、なかなか良い設定だったと思う。 ● 従来Language-onlyのDialogではGoal-drivenと Goal-freeの2つあり、今回のVisual Dialogの設定 ではGoal-drivenでそのGoalが画像内容を理解す ることで、かなりBenchmarkとして賢い設定だ った。 Visual Dialogの例(左図) (画像、Caption、会話履歴、質問から回答をする) 14 Georgia Tech: Visual Intelligence Lab
  • 15.
    Title: Audio-Visual Scene-AwareDialog (CVPR, 2019) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要: ● 1枚の画像から行うVisual Dialogタスクを更に、 音声付きビデオ入力に拡張した。 新規性: ● タスクの提案(VQA+Video+Audio+Dialog) ● データセットの提案 感想: ● こちらもVQA/Visual Dialogの拡張になる。あ る程度複数のSensorsの観測からDialogできる かどうかをテスト可能だが、実環境ではタス クによりモダリティをどのように活用してい くのかがかなり興味深い。AVSDだけではまだ まだ実応用から遠い。 提案のAVSDデータセットのイメージ図 15 Georgia Tech: Visual Intelligence Lab
  • 16.
    Topic 3: ImageCaptioning 16 Georgia Tech: Visual Intelligence Lab
  • 17.
    Title: Neural BabyTalk (CVPR, 2018) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要: ● 既存のImage Captioningタスクは画像から物体の 説明文のみ生成。説明文に含まれる物体の位置 を明示的に示さないため、解釈性が低い。 ● ここで、Captioningと物体検出を同時に行うタス クを提案。 新規性: ● 手法的にはencoder-decoderで直接画像と Captionを結びつくではなく、Detectorを導入す ることで、もっとGroundedなImage Captioning を実現. ● Detectorを用意することで、Unknown物体に対し てのCaption生成もできる. 提案のNeural Baby Talkと既存検出の比較: (a)baby talk (b) 提案のNeural Baby Talk (c) 一般的なImage Captioning手法 感想: ● 今でも同じようにCaptioning生成しながら Bounding Boxなどの形式で解釈性を向上する検 討があちこちのタスクである. 17 Georgia Tech: Visual Intelligence Lab
  • 18.
    Title: nocaps: novelobject captioning at scale (ICCV, 2019) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要: ● 人間がUnknown物体に対しても説明できる能力 がある。 ● ここで、物体認識と物体説明文生成を分けられ るような設計を持ち、データセットに含まれな い物体の説明文生成も可能にした。 感想: ● Nocapsの設定がかなり興味深い。実環境での視 覚概念は無限にあって、画像からCaptionを生成 するのは比較的に限られたデータで学習すべき である。 ● 更に、Interativeで知らない視覚概念をImage Captionに導入する仕組みが望ましい。 提案のタスクnocapsの設定: 学習(左)はCOCOのCaptionsと物体検出だけアノ テーションされているOpen Images;テスト(右) では①COCOだけ;②COCO+Open Imageの Captions;③Open ImageのCaptions 18 Georgia Tech: Visual Intelligence Lab
  • 19.
    Topic 4: Vision-LanguageRepresentation 19 Georgia Tech: Visual Intelligence Lab
  • 20.
    Title: ViLBERT: PretrainingTask-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks (NeurIPS, 2019) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要: ● Vision and Language系の研究で特にデータ セットの作成のコストが高い問題がある。 ● Vision and anguage タスクにおいて大規模 事前学習、タスク間の遷移学習を可能にす るため、統一したモデルで複数のVision and Languageタスクを学習可能なフレームワー クを提案(ViLBERT)。 感想: ● BERTの成功をVandLに適応する試み。考えるだけ ではなく、他の人より早い段階でRoadmapを構想 し、いち早く最新で使えそうな技術を導入すること が重要。 ● ViLBERTで提案する時点ですでにPaperid11の 12in1のマルチタスク同時学習を想定していたそう。 ViLBERTで行っている2種類のMulti-modal learning:左(ラベル推定まで);右(一致性の評価のみ) 20 Georgia Tech: Visual Intelligence Lab
  • 21.
    Title: 12-in-1: Multi-TaskVision and Language Representation Learning (NeurIPS, 2019) Research Team / Researcher: Georgia-Tech_Visual-Intelligence-Lab 概要: ● ViLBERTをベースに、更に複数のVision and Languageタスク間の遷移学習の効果を検証。 感想: ● ViLBERTをベースに、マルチタスク・データセ ットにおいて分析を行た感じ。Communityに対 して貢献度が高いが、新規性がすこし薄れる部 分もある。 ● VandL研究の理由:”promise of language as a universal and natural interface for visual reasoning”;なかなかうまくまとめている。 提案のマルチVandLタスク共同で学習する仕組み 21 Georgia Tech: Visual Intelligence Lab
  • 22.
    重要視されているところ ● 様々なSensingの情報を融合しながら理解する能力: ○ 視覚:1枚の画像(VQA)⇒実環境、複数センサー(EQA)、Unknown、Active環境、… ○ 言語:物体ラベル⇒1センテンス(Image Captioning)⇒画像中のテキスト理解(Text VQA) ● 更に、言語対話能力と上記の融合: ○ Visual Dialog、Audio-Visual Dialog ● 手法の解釈性 ○ VQAv2でデータセットのバイアス解消、Neural Baby Talkで物体説明文生成に物体検出も行う 気付き ● 問題を解決するより、新しい問題を設定する研究が多い; ● 早い段階で研究の目標を決めて、それを実現するため最も重要なタスクとデータセットを構築; ● 手法論文に関しては、最新の研究の組み合わせの物も多い: ○ 例:ViLBERT/12-in-1ではBERT/Transformerを導入 22 Georgia Tech: Visual Intelligence Lab
  • 23.
    Stanford: Vision andlearning lab 23
  • 24.
    研究室の構成 扱っている研究分野: 選定理由: ● ComputerVisionがメインで、Natural Language ProcessingやRoboticsなど多様な テーマを扱っている(例を下記): ○ Image Recognition ○ Dense Captioning ○ Video Recognition ○ Visual Question Answering ○ Sight and Sound ○ 3D Vision ○ … ● Fei fei Li ● ImageNet ● Vision and Languageに関してもかなり数多 く重要な論文、データセットを提案: ○ Dense Captioning/ Captioning Event ○ Visual Genome ○ ... ● 近年、特にEmbodied AIや関連したRobotics も扱っている 24 写真URL: http://svl.stanford.edu/ Stanford : Vision and learning lab
  • 25.
    研究テーマの変遷 (Vision andLanguageに関する研究のみ) 2009 25 2015 2017 2018 2019 2020 2021 ● 同じ色で同じライン上の研究を示す ● それぞれの詳細を後ろの論文まとめに紹介 ImageNet ActivityNet VisualGenome GibsonENV 3D Scene Graph ActionGenome Home ActionGenome iGibson 1.0 iGibson 2.0 Stanford : Vision and learning lab
  • 26.
    Topic 1: SemanticStructure 26 Stanford : Vision and learning lab
  • 27.
    Title: ImageNet: ALarge-Scale Hierarchical Image Database (CVPR, 2009) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要:※以下の数値等は本論文発表時(2009)のもの ・階層構造語彙データベースWordNetがバックボーンの画像データセット ・スタンフォード大学のFei-Fei Li氏を中心とした研究グループが管理 ・世界中の研究者や教育/学びに役立ててもらうためのリソースとして公開中 ・WordNet:8万synset(同義語セット) ・インターネット全体から画像をクロールして収集 ・12のサブツリー(最上位カテゴリ) 哺乳類、鳥類、魚類、爬虫類、両生類、乗り物、家具、楽器、地層、道具、花、果物 ・5247のsynset(WordNetの一割以下)、全320万枚のフル解像度画像 ・synsetごとに平均500~1000枚の画像 ・Amazon Mechanical Turkを利用して人力でラベル付け(有償)。 ・目標:5000万枚。※2020年時点で2万synset/1400万枚と停滞中 感想: ・1つの画像に1つのラベルしか付与しない仕様となっているが、画像内に複数の対象が 映り込んでいる場合のラベル付けの正当性に疑問 ・公平性、プライバシー保護、不適切/不快なラベル(※解消に努⼒している模様) ・ラベル付けに莫⼤な費⽤がかかる(教師データのアノテーションコスト問題) 27 Stanford : Vision and learning lab 概要:1画像1ラベルの物体認 識用大規模データセット ImageNetを提案。
  • 28.
    Title: Visual Genome:Connecting Language and Vision Using Crowdsourced Dense Image Annotations (IJCV, 2017) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● ImageNetでは主に1画像1物体ラベルから構成。 ここで、1画像とその画像の意味的構造 (Scene Graph:物体、物体間の関係ラベ ル)をアノテーション付けたデータセット Visual Genomeを提案。 感想: ● Visual Genomeが大量な作成コストが必要となり、 分野の成長に大きく貢献できている。 ● Visual Genomeデータセットがかなり大規模であ り、現時点でもChallenge的で、様々なDown streamタスクで活用できそう。 VisualGenome データセット例 28 Stanford : Vision and learning lab
  • 29.
    Title: Learning PhysicalGraph Representations from Visual Scenes (NeurIPS, 2020) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Sceneに含まれる物体の階層構造(物体と物 体のパーツなど)および物理属性(Surface Shape, Texture)も考慮したPhysical Scene Graph構造を提案。 感想: ● 室内環境データセットにまで適応できていると ころがすごい。物理に従っても大規模データセ ットに活用できるところなので、物理ベース手 法のPromisingなところを示せた。 提案のPhysical Scene Graph (PSG) representation (左図) 29 Stanford : Vision and learning lab
  • 30.
    Title: ActivityNet: ALarge-scale Video Benchmark For Human Activity Understanding (CVPR, 2015) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● これまでに動画像データセットでは1動画1 動画ラベルのような設定が多い。 ● ここで、階層化された動作ラベルを付けた大 規模データセットActivityNetを提案。 感想: ● 論文で”Semantic Ontology”という言葉を使って いる。Classic AIのOntologyとDeepLearningをい かにうまく組み合わせられるかに関してかなり 工夫していそう。 ActivityNetに含まれる2つ の例(右図): 動作がTree状のSemantic Levelsに従ってアノテーシ ョンされている 30 Stanford : Vision and learning lab
  • 31.
    Title: 3D SceneGraph: a Structure for Unified Semantics, 3D Space, and Camera (ICCV, 2019) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Scene Graph/Visual Genomeを3次元に拡張し、 3D Scene Graphとデータセットを提案。 ● 具体的に、4-layers(左図)から構成される3D Scene Graph構造を提案(Building, Rooms, Objects,Cameras)。 感想: ● 2D Scene Graphがあるから、3D Scene Graphを 定義しようとする人は他にもあるはず。ここで かなりReasonableで詳細な3D Scene Graphを定 義していて、大きな研究室ならではの感じがす る。 ● 3D Scene GraphにCameraを考慮されていると ころが面白い。Cameraまで認識できるすること が今でもChallenging。 3D Scene GraphのIllustation(4-layer構造) 31 Stanford : Vision and learning lab
  • 32.
    Title: Action Genome:Actions as Composition of Spatio-temporal Scene Graphs (CVPR, 2020) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Scene Graph / Visual Genomeを動画に拡張し、 Video Scene GraphとデータセットAction Genomeを提案。 感想: ● 論文を書く時にNeuroscience的な視点から論文 のSupport Factsを出すのは強く見せられそう。 ● この論文でDynamic Scene Graphsが Downstreamタスクへの有用性を示した。新しい Representationやデータセットの提案する際に、 他のタスクとの関連性や遷移学習する際の有用 性を示すことが文章の質を大幅に向上できる。 Spatio-temporal Scene Graph Generationタスクの Illustration: ビデオからDynamic Scene Graphsを推定 32 Stanford : Vision and learning lab
  • 33.
    Title: Home ActionGenome: Contrastive Compositional Action Understanding (CVPR, 2021) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Action Genomeデータセット(3人称視点動画 のみ)を更に、Multi-view、Multi-sensoryに拡 張した。 感想: ● Video Scene Graphの密度がFrame-by-frameレベ ルではない方が良さそうな気がする。Frameレベ ルではアノテーションのambiguityが生じうる。 ● 設備さえあれば、HOMAGEデータセットの作成 コストがそこまで高くない?HOMAGEでは2つ の家環境しか使っていなさそう。 HOMAGEデー タセットの アノテーション パイプライン 提案手法:マルチモーダルContrastive Learning 33 Stanford : Vision and learning lab
  • 34.
    Topic 2: SimulationEnvironments for Embodied AI 34 Stanford : Vision and learning lab
  • 35.
    Title: Gibson ENV:Real-world Perception for Embodied Agents (CVPR, 2018) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Embodied AIのための大規模室内環境データ セットとシミュレーターの提案。 ● 特徴1:実環境のBuildingsをベースに作成。 ● 特徴2:Embodimentの精度/レベルが高い。 感想: ● Introductionの部分で経済学・生物・脳科学の話 しもふれていて広い範囲内で知識を積極的に得 るべき?! ● Physics、Robotics、実環境などと強く関連し、 研究のUltimate Goalがわかりやすい。 2つのAgentsが Gibson環境の観測の 例(右図) 35 Stanford : Vision and learning lab
  • 36.
    Title: Learning toNavigate Using Mid-level Visual Priors (CoRL, 2019) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● GibsonEnVをベースに大規模な実験行った。 ● Embodied AIの強化学習で従来E2Eでpixel-to- torqueが提案されていた。この文章で強化学習の Policyを学習する際に直接Pixelからではなく3次 元情報が入っているタスクで得られるMid-level 特徴を使うことを提案。 ● 実験により、Mid-level特徴が収束速い、汎化性 能強い、精度高いなどの利点があった。 感想: ● 同じ研究室同時期のTaskonomyと概念的に類似 する。 ● Mid-level特徴を使った方が良いと研究せずに何 となく想像できる。この論文でそれを的確に示 してくれたところが良いが、Whyに関しての説 明があるとなおさら良い。 ● 特にこの研究では強化学習タスクをターゲット しているため、かなり膨大な計算量が必要。 提案のMid-level特徴量を用いて Embodied AI タスクを行う概念図 (下図) 36 Stanford : Vision and learning lab
  • 37.
    Title: IGIBSON 1.0:A Simulation Environment for Interactive Tasks in Large Realistic Scenes (IROS, 2021) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Robotic Simulation用の大規模Interaction可能な 室内環境Simulatorの提案。15Rooms合計108部 屋から構成され、物体の材質・Shape、Robotic Manipulationなどが行える。また、実環境の部屋 のReplicasになるため、Sim2Realも今後可能に なる。 感想: ● IGIBSONがReal HousesのReplicas(Simulation の同じリアル家もある)になるので、Sim2Real の研究も色々活用できそう。今後はおそらくそ のような研究が出てくるはず。 ● Fei Fei Liらの研究室は近年かなりRoboticsや、 物理系に着手している。大規模の環境構築や、 Robotic Manipulation、Replicasなどで今後実環 境への応用が期待される。 ● IGIBSON 1.0はとくにRoboticsへ応用したい場合 において有用である。 IGIBSON 1.0: 物体とInteract可能な環境になり、環境 中の物体の材質・Shapesがアノテーションされてい る。また、Real環境と対応づけている。 37 Stanford : Vision and learning lab
  • 38.
    Title: IGIBSON 2.0:Object-Centric Simulation for Robot Learning of Everyday Household Tasks (CoRL, 2021) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● IGIBSON 1.0と比べて、更に物体に物理シミュレ ーションの粒度(物体の様々な状態変更が Simulationできる)やデータ収集の利便性(VR を用いてHuman Dataを学習できる)を向上。 感想: ● IGIBSON 1.0のExtenabilityのおかげで、 IGIBSON 2.0では更に詳細的な物理Manipulation や物体状態のコントロールが追加可能。 ● 将来、Humanの行動をマネにしながら、上手に 様々なタスクを更に人間を超えるレベルで実現 してくるRobotが期待可能。 ● 今人がInternetから常に色々勉強をしているため、 RobotもいかにInternet知識をデモで行えるとこ ろが重要? IGIBSON 2.0: ①物体に対してのManipulationや Manipulationに沿ってSimulation環境での物体状態変 更などが可能になった。②VR環境も同時に提案し、 HumanがVR環境における行動がSimulation上の Agentの学習データにすることができる。 38 Stanford : Vision and learning lab
  • 39.
    Title: BEHAVIOR: Benchmarkfor Everyday Household Activities in Virtual, Interactive, and Ecological ENvironments (CoRL, 2021) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● 前作のiGibson2.0を用いて、データセットを 作成した。 ● Embodied AIのための100日常Activitiesから 構成されるSimulationBenchmarkデータセッ トを提案。また、HumanのVR上により集め られたDemostrationも同時に作成。 感想: ● やはりBEHAVIORがIGIBSON 2.0をベースに作 成されている! ● 事前から収集したデータの有用性が分かってい て、それをベースにデータを集めていくことが かなりわくわく。 BEHAVIORのIllustration: IGIBSON 2.0をベースに 100種類の日常活動を導入 し、同時にVRにより Human Demostrationも 500個集めた。 39 Stanford : Vision and learning lab
  • 40.
    Topic 3: ImageCaptioning 40 Stanford : Vision and learning lab
  • 41.
    Title: Deep Visual-SemanticAlignments For Generating Image Descriptions (CVPR, 2015) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● 1枚の画像から1画像Captioningではなく、1枚 の画像から複数の領域とその領域の物体 Captioningを生成する提案。 ● 同時期のDenseCaptioningとかなり類似し、 DenseCaptioningの方が影響が大きい。 感想: ● かなり早い段階でImage Captioningタスク(左図) を構成し、かつ相当Reasonableなモデルを提案 (右図)。Dense Captioningはこの研究の進化バ ージョンに見える。 ● 今の最新手法のそこまで下記のモデルから離れ ていない感。 提案のImage Captioningタ スク(右図) 提案手法 41 Stanford : Vision and learning lab
  • 42.
    Title: Dense-Captioning EventsIn Videos (ICCV, 2017) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● 画像ベースのDense Captioningタスクをビデ オに拡張した。 ● 動画から、複数のEventsの開始・終わる時間、 そして、各々のEventのCaptioningを推定する Dense Captioning Eventsタスクを提案。 感想: ● 画像からVideoタスクへのかなりReasonableな Dense-captioningの拡張。EventsごとのPeriodも 予測するためタスクが難しいが応用性が高い。 Dense-Captioning Eventsタスクの例 提案手法:Stage-1ではProposalsを生成し、 Stage-2ではProposalsからCaptioning 42 Stanford : Vision and learning lab
  • 43.
    Topic 4: VisualQuestion Answering 43 Stanford : Vision and learning lab
  • 44.
    Title: Visual7W: GroundedQuestion Answering in Images (CVPR, 2016) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● 7Wの質問(what, where, when, who, why, how, which)から構成する新たなVQAデー タセットの提案。 ● VQAv1およびVQAv2と異なり、画像全体で はなく、画像Regionと関連付ける質問も含 まれている。 ● 同時期のVQAv2の方が流行っている。 感想: ● Paper13までにはデータセットない問題があった が、ここでデータセットの提案、スピード感! ● VQAデータセットはほぼ同時期なので、VQAデ ータセットと比べて優位性が足りていない? (選択肢が必要な設定)データセットの規模も VQAの1/4程度(画像)。しかし、VQAデータセ ットよりも早くAttentionに手を出した。 提案手法(左図) (Attentionを導入 している) Visual7Wデータセット例 44 Stanford : Vision and learning lab
  • 45.
    Title: AGQA: ABenchmark for Compositional Spatio-Temporal Reasoning (CVPR, 2021) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Action Genome(Video Scene Graph)データセ ットをベースにVideo Question Answeringのため のデータセットを提案。 ● 他のVideo QAのデータセットと比較して、ここ でよりデンスな意味構造がアノテーションされ ているため、データセットのバイアスがコント ロール可能。 感想: ● Action Genomeデータセットの拡張になる。これ によりVideo QAタスクがかなりGroundedにでき る。 ● Neuro-symbolic的な手法がいつにAGQAの規模の データセットに優位性を示せるか期待している。 AGQA(Action Genome Question Answering)データ セットの例。Scene GraphからGroundedなQA生成に より作成されている。 45 Stanford : Vision and learning lab
  • 46.
  • 47.
    Title: Shape andMaterial from Sound (NeurIPS, 2017) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● 音と物体の物理特徴を関連させる研究であり、 音から物体のShapeを復元するタスク・ Auto-encoderベースな手法を提案。 感想: ● この研究が相当賢い!音声からShapeを復元する ところがかなりChallenging。 ● 物理+AIはまだまだいろんな面で検討する余地が あり、大きな将来性があるように感じる。 物体がテーブル面上に落 とす時の音から、物体の Shapeを復元する提案の Illustration(右図) 47 Stanford : Vision and learning lab
  • 48.
    Title: Deep AffordanceForesight: Planning Through What Can be Done in The Future (ICRA, 2021) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● 物体のAffordanceをShort-termではなく(例:こ の瞬間では持てる、押せるなど)、Long-termで 物体のAffordanceを扱う提案(例:物体の周囲の 物体を移動したら、この物体が押せるようにな るなど)。 感想: ● 物体のAffordanceの定義がかなり難しく感じる。 通常の使い方や、非常的な使い方、タスクごと の使いかたなど色々ある。 提案のAffordance Foresightのモチベーション: 同じ物体で異なるタスクでAffordanceが変化してくる(上段と下段のL型棒を参照) 48 Stanford : Vision and learning lab
  • 49.
    Title: OBJECTFOLDER: ADataset of Objects with Implicit Visual, Auditory, and Tacticle Representations (CoRL, 2021) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● 100 Simulation物体(視覚・音声・触感)を 含まれたデータセットOBJECTFOLDERを提 案。 ● 3つのSubnetで(NeRFベース)で同時に上 記の3つをRenderingできる手法も提案。 感想: ● Touch(触感)がようやく入ってきました!(今 までは視覚・言語・音声だった) ● NeRFですべてを統一できる? ● Smellはまた入っていない。 OBJECTFOLDER: 物体のImplicit neural representatitions(視覚・音 声・触感をRenderingできる) 49 Stanford : Vision and learning lab
  • 50.
    Title: Taskonomy: DisentanglingTask Transfer Learning (CVPR, 2018) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Visual Tasks(例:Depth推定、 Segmentation,…)関の関連性を調べた。 ● 具体的に、異なるタスク間の転移学習を行 い、それをベースにタスク間の関連性を計 算している。 感想: ● TaskonomyはCNNの時代だったが、Transformer で行ってみるとどうなるのはかなり気になる。 ● 人間でもTransformer学習するときに近いタスクs 遠いタスクsが存在するはず。その背後の原因分 析もかなり興味深い。 ● Unified構造、複数のタスクは現在Transformer系 の手法でかなり検討されている。 Taskonomyの計算 (左図) 50 Stanford : Vision and learning lab
  • 51.
    Title: Which TasksShould be Learned Together in Multi-task Learning (ICML, 2020) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Multi-task学習の際に、限られた計算リソース の場合でどのように同じネットワークで学習 するタスクのSubsetと別々のネットワークで 学習するSubsetを決めるための Computational Frameworkを提案。 ● Multi-task学習に関してすこし詳細なところま で調べて、Multi-task学習の性能向上に貢献。 感想: ● 実際に人間も同様に学習するタスク関に相性が 良いのと良くないのがありそうで、そのあたり の研究も興味深い。 ● Transformerが提案されて以来、類似した研究が 多い感じ。そのため、こちらの研究もっと面白 い知見が得られるかも。 提案のComputational Frameworkを 用いた結果例: Semantic Segmentation, Depth Estimation, Keypoint Detection, Edge Detection, Surface Normal Predictionの 5つ共同学習する際の性能が良い学習 ネットワークの構成 51 Stanford : Vision and learning lab
  • 52.
    Title: Neural TaskGraphs: Generalizing to Unseen Tasks from a Single Video Demonstration (CVPR, 2019) Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● Single Demonstration VideoからVideoに含ま れるタスク(例:組み立て作業)を実行でき る新たなOne-short Learning手法を提案。 ● 既存研究と異なり、提案手法では Compositionalな構造ーTask graphを中間表現 としている。 感想: ● 解決しようとする問題が重要だが、いまだにか なり難しいような気がする。 ● 論文中にUnseen complexタスクを解くために、 Compositional Structureが重要と宣言していて、 そこがどうなのかなり興味深い。 ● One-short Learning面白そう。 提案手法のIllustation:Task graphを介し てSingle VideoからTaskをExecuteする (左図) 52 Stanford : Vision and learning lab
  • 53.
    Title: Neural EventSemantics for Grounded Language Understanding (TACL, 2021) Research Team / Researcher: Stanford_Vision-and-learning-lab 概要: ● 理屈を理解するVisual Reasoningの新たな手法の 提案。 ● 既存のVisual Reasoningでは人工設計なModule が必要となる場合が多い。ここでの提案手法は 比較的その制限を緩やかにして、End-to-endで学 習できる既存のNMNと比べて構造が簡単。 感想: ● Neuro-symbolic的な手法のhuman-designedな Neural moduleから解放され、まだまだ遠いかも しれないが、Self-supervisedなNeuro-symbolicに 近づけている?! ● 提案手法のコアな考え方はかなりClassicな手法 ーEvent semantics (Davidson, 1967)、クラシ ックな研究の関しての理解もなかなか重要な場 合がある。 ● Event semanticsに対して知識がないが、もっと 複雑なCompositional(例:多層で否定や比較な ども含まれる場合)で使えるかどうかは不明。 NMNと提案のNESの比較: NESが視覚要素をEventとし、テキストをNeural Logical Form Fにし、単語各々がClassifierになる。 最後にClassfierがEventに操作し、 結果の掛け算で最終出力を得る 53 Stanford : Vision and learning lab
  • 54.
    重要視されているところ ● 様々なSensingの情報を融合しながら理解する能力(複雑度、情報量が拡張つつある): ○ ImageNet->VisualGenome->Action Genome, HomeAction Genome ○ Dense Captioning -> Dense-Captioning Events ○ Scene Graph->3D Scene Graph->Video Scene Graph->Physical Scene Graphs ● 様々なモダリティのSemantic Structure表現: ○ 画像グラフ(Visual Genome) ○ 動画グラフ(Action Genome, HomeAction Genome) ○ 3次元データグラフ(3D Scene Graph) ○ Physical Scene Graphs ● Semantic Structure的な表現とともに構造化された知能(例:Neuro-symbolic) ● 膨大で、高質で、合理的で厳格的に設計されるデータセットを作成し続けている。 ● 分野において重要で長期的に貢献できそうテーマ設定が多い(Extensibleな研究が多い)。 ● Physics+AIや、Roboticsへの応用に近年かなり力をいれてやっている ○ Jiajun Wu(Physics +AIの専門)も研究室に入ってきた ○ 大規模の環境構築(Gibson ENV, iGibson 1.0, iGibson2.0)や、Robotic Manipulation、 Replicasなどで今後実環境への応用が期待される。 54 Stanford : Vision and learning lab 気付き
  • 55.
  • 56.
    研究室の構成 Kristen Grauman先生 写真URL:https://www.cs.utexas.edu/~grauman/ 扱っている研究分野: 選定理由: ● こちらもComputerVisionや、Vision and Languageにおいて様々なタスクを扱ってきた。 下記例を示す: ○ VizWiz (盲人のためのVQA) ○ 2.5 D Sound (Sight and Sound) ○ Ego-Topo ○ VisualEchoes ○ SoundSpaces ○ Semantic Audio-Visual Navigation ○ Ego4D ● Ego4Dというかなり未来のVision and Languageや Computer VisionやVideo Recognitionにおいて重要 である研究をリード; ● AudioとComputer Visionの組み合わせに強い; ● 近年Embodied AIに関わる重要な研究成果を出して いる(特にAudioが入った場合)。 56 UT-Austin_Computer_Vision
  • 57.
    研究テーマの変遷 2019 57 2020 2021 2022 Look-around affordancelandscape Ego-Topo Ego4D 2.5D Sound VisualEcho Sound Space Audio-Visual Nav. Move2Hear ● 同じ色で同じライン上の研究を示す ● それぞれの詳細を後ろの論文まとめに紹介 UT-Austin_Computer_Vision
  • 58.
    Topic 1: Sightand Sound 58 UT-Austin_Computer_Vision
  • 59.
    Title: 2.5D VisualSound (CVPR, 2019) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● 従来3D音コンテンツ(Binaural Audio)を作成す るための制作コストが高い。 ● ビデオの画像情報(楽器の3次元位置などがわ かる)を利用して、Monoaudioから、 Binaural的な2.5D Soundを出力するタスク・ 手法を提案。 感想: ● Soundに関してまだまだComputer Visionや Vision and Languageと組み合わせるところあり そう。 ● 人は両耳でSoundの三次元を感知していて、ここ と視覚のSpatial reasoningとの組み合わせが賢い 2.5D Sound: Mono audio (音から3次元を再現できない)と Videoの入力から、Videoから得られる Scene3次元情報を抽出し、シーンの3次元的 な情報感知できるBinaural Soundを出力 59 UT-Austin_Computer_Vision
  • 60.
    Title: VisualEchoes: SpatialImage Representation Learning through Echolocation (ECCV, 2020) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● バットやDolphinsが使っているEcholocationを Embodied AI Agentに導入した。 感想: ● センサーを増やしていくのは別にElegantではな いことない。有用なのであれば、3次元環境の理 解のためにどんどんセンサーを追加していって も良いじゃないかと思う 提案のVisualEchoes: Eoches情報をFuseすることで、 Embodied 環境でDepth推定、Naviagtion を行い、高い精度を示した。 60 UT-Austin_Computer_Vision
  • 61.
    Title: SoundSpaces: Audio-VisualNavigation in 3D Environments (ECCV, 2020) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● Embodied 環境で音を発信する物体を Localizationするために、AgentがEmbodied環 境でナビゲーションするタスクSoundSpacesを 提案。 ● 入力として、Audio Spectrogramも使う。 感想: ● Echospaceとかなり類似し、音信号が自分から出 すか他の音源があるかの区別だけ。 ● どちらでも重要だが(Echo/Sound Space)、デ ータセット、手法が同じになっている部分も多 い。 提案のSoundSpacesタスク: Embodied AIが環境中に音源にたどり着 くために自己ナビを行う。 61 UT-Austin_Computer_Vision
  • 62.
    Title: Semantic Audio-VisualNavigation (CVPR, 2021) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● 前ページのSoundSpacesの進化版。 ● SoundSpacesでは物体が連続音を出す、かつ、 音信号が人口で作成した信号(例:電話音)。 ● ここで、不連続で、物体の自然的な音(蛇口の 水の流れの音など)をLocalizationするタスク とデータセットを提案。 感想: ● 同じ研究室の研究SoundSpacesと類似。しかし、 SoundSpacesでは固定の音声をLocalizationする ためで自己ナビし、ここでは物体の音と物体の 形状・位置などを関連付けてNavigation。 提案のAudio-Visual Navigationタスク: 環境中の物体(例:蛇口)がその物体の特定な 音(水が落ちる音とか)を自然的に(連続的で はなく、短く不連続な場合もある)発信し、 Embodied Agentがその物体をLocalizationする ため環境中に自己ナビをする。 62 UT-Austin_Computer_Vision
  • 63.
    Title: Move2Hear: ActiveAudio-Visual Source Separation (ICCV, 2021) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● Embodied Agentが複数の音声があるEmbodied 環境で音声ソースを分離・Localizationをする audio-visual source separationタスクを提案。 感想: ● 2.5D Visual Soundのラインの研究で、2.5Dでは ビデオから音源分離を行い、ここではEmbodied 環境で音源の分離になる。タスク的に更に設定 がリアルで一歩前に進めた感がある。 ● 手法的には強化学習を使っていて、新規性が薄 い気もする。 提案のMove2Hearタスク: Embodied環境で複数の音源があり、 特定な音源をLocalizationをするため、 Embodied Agentが音源分離をしなが ら自己ナビを行う。 63 UT-Austin_Computer_Vision
  • 64.
    Title: Geometry-Aware Multi-TaskLearning for Binaural Audio Generation from Video (BMVC, 2021) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● VideoのMonoaudioからBiaural Audioを生成する 新たな手法を提案。 ● 既存法(2.5D Sound)ではVideoから直接Spatial を予測したことと比較して、ここではVideoから DisentangledなSpatial Representationを使用し、 2.5Dより高い精度を得られた。 感想: ● 2.5D Soundの手法的な延長で、Embodied AIと も少し関連する。 ● Vision and Audio(Sight and Sound)のモノポリ 感がある。 メインアイデア: VideoからImpulseや環境のSpatial情報の予測を利用し、Mono AudioからBinaural Audio生成 64 UT-Austin_Computer_Vision
  • 65.
    Topic 2: Ego-centric/EmbodiedAI 65 UT-Austin_Computer_Vision
  • 66.
    Title: Emergence ofExploratory Look-around Behaviors through Active Observation Completion (Science Robotics, 2019) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● 従来、Computer Visionでは指定された入力から 認識するようなタスクが多い。(例:画像認識、 ビデオ認識など) ● ここではAgentが新しい環境に入った場合に、ど ういった視点から環境を見ることでより Informativeな情報を得られるかを学習する仕組み を提案。 感想: ● Science Roboticsも投稿先としてあるか(2021- 2022-IF:23.748)! ● 考え方は特に既存の少ない視点からSceneの3次 元再構成の研究とあまり差がないが、どうして Science Roboticsに採録されたかわからない。 ● 手法的には、Recurrent Model + Reinforcement。 解釈性もそこまで高いない。 提案のLook-around Agentのモデル構造: 66 UT-Austin_Computer_Vision
  • 67.
    Title: Ego-Topo: EnvironmentAffordances from Egocentric Video (CVPR, 2020) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● Ego-centric動画から、動作のラベル(例:玉ね ぎを切る)と動作発生の場所を表すTopological mapをベースに認識を行う手法を提案。 ● 既存のTotal画像認識、SLAMベースな手法の真ん 中に位置付け、Ego-centric動画像認識に高い精 度を実現とともに、SLAMベース手法より使いや すい。 感想: ● Ego-centricビデオからいかに3次元物理位置とリ ンクするかに関しての研究で、提案のTOPOマッ プが計算コストも小さくて、人間の感覚都も良 く類似し、とてもReasonableな提案。 ● 提案のTOPOマップの使いやすさも強い。 Affordanceとリンクさせることも可能。 ● TOPOマップと経由して、Sim2Realやロボット のデモにも使えそう。 提案のEgo-Topo:Ego-centricビデオから、 細かいClipの動作およびその動作発生する 場所を表すtopological map。 67 UT-Austin_Computer_Vision
  • 68.
    Title: Learning AffordanceLandscapes for Interaction Exploration in 3D Environments (NeurIPS, 2020) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● Embodied環境の物体Affordanceをベースとした 遷移学習の提案。 ● 3次元環境から環境中の物体とどういった Interactionができるかを強化学習的なフレーム ワークで学習し、このような学習や得られる特 徴表現がNovel 環境に対しての汎化性能をしめ した。 感想: ● Affordanceベースの転移学習やSim2Realが使え そうで効率も良さそう。 ● Ideaを強化学習的にその有用性を示せるところが かなりエンジニアリングや計算リソースのとこ ろが大変そう。 研究のメインアイデア: Affordanceベースの学習 でNovel環境に対しての 表現を向上 68 UT-Austin_Computer_Vision
  • 69.
    Title: An Explorationof Embodied Visual Exploration (IJCV, 2021) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● Taskonomyと類似した研究で、Embodied AIタ スクでどのような特徴表現がどういったタスク において有用なのかを調べた。 ● 限られたBudgetで環境中の物体と位置に関する 情報の学習は複数のEmbodied AIタスクにおい て有用であることを示した。 感想: ● こちらの論文はScience Robotics論文の拡張版 (入力が多視点画像⇒Embodied AiのEgo-centric observationsになった)。 ● Taskonomyからも一部考え方、やり方を借りて いる感。 研究のメインアイデア: Embodied Agentが限定 されたBudgetで環境を探 索し、物体とその3次元 情報を習得。そのような 特徴表現をその他の Downstream Embodied Aiタスクに活用 69 UT-Austin_Computer_Vision
  • 70.
    Title: Shaping EmbodiedAgent Behavior with Activity-context Priors from Egocentric Video (NeurIPS, 2021) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● 実環境のビデオデータとEmbodied AIのDomain Gapを縮めるための研究。 ● 具体的に、Ego-centricビデオからActivitiesに関 連する物体情報を学習し、Embodied AIで Rewardを設定し、Activitiesに関連する物体を多 く集めれば報酬が高い。実験で、このような学 習が学習のスピードを加速できることを示した。 感想: ● Real世界のEgo-Centricビデオでの学習を、 Embodied AiのDomainで活用する研究で、かな り分野への貢献度が高く、Embodied AIの実環境 での利用を一歩前に進められた。 ● Ego4Dや、研究室で今までやってきた研究とか なりつながりが見やすい感じ。 メインアイデア: 実環境Ego-centricビデ オからAcitivitiesに関連 する複数の物体という 情報を習得し、 Embodied AIタスクで 強化学習でActivitiesに 関連する物体を集め、 RealとSImのDomain をつなげる。 70 UT-Austin_Computer_Vision
  • 71.
    Title: Ego4D: Aroundthe World in 3,000 Hours of Egocentric Video (arXiv, 2022) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● 大規模で、Denseでアノテーションされ たEgo-centricビデオデータセットの提案。 感想: ● このプロジェクトが様々なComputer Vision分野においてかなり使えそう。また、 このプロジェクトがあるから、関連する研 究室は続々と良い研究ができそう。 ● 長いVideoの認識の時代がやってきそう。 ● 第一人称動画のみではなく、様々な視点が あるとなおさらよい気がする。 Ego4Dデータセットのイメージ図: 3,670 hours;数百種類のActivities; 複数のSensors(カメ ラ、Stereo、Gaze、3D Scanners) 71 UT-Austin_Computer_Vision
  • 72.
    Topic 3: VisualQuestion Answering 72 UT-Austin_Computer_Vision
  • 73.
    Title: VizWiz GrandChallenge: Answering Visual Questions from Blind People (CVPR, 2018) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● 目の見えないユーザにより集めた画像と質問文 から構成されるVQAデータセットVizWizを提案。 感想: ● 盲人のためのVQAがVQA研究の一つかなり有力 な応用方向。また、画像のみではなく、ビデオ 入力の方向も検討すべき。 ● VQA系の研究の究極的な目標にもなるように思 う。未だにかなりChallengingである。 VizWizデータセットで扱っている盲人に より撮影された画像及び記録した質問 73 UT-Austin_Computer_Vision
  • 74.
    Title: Visual QuestionAnswer Diversity (HCOMP, 2018) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● 既存のVQAタスクでは1質問1回答を推定する。 ● ここで、1つの回答ではなく、複数の回答およ びそれぞれのFrequencyを推定するVQA設定を 提案。 感想: ● 一つの質問に対して、異なる回答およびそれぞ れのFrequencyを予測する問題が、人に対しても かなり難しい。定義実体もすこしIll-posedな部分 がありそう。 ● 無限なHuman Annotationが得られないため、Q から1つのみの回答を予測するのが確かにIll- posedになりそう。 ● 論文にheではなく(s)heが使われている(笑) Visual Questionにおいて AnswerのDiversity分布の例 74 UT-Austin_Computer_Vision
  • 75.
  • 76.
    Title: Learning Patternsof Tourist Movement and Photography from Geotagged Photos at Archaeological Heritage Sites in Cuzco, Peru. (Journal of Tourism Management, 2020) Research Team / Researcher: UT-Austin_Computer_Vision 概要: ● Social Mediaの旅行先の画像(Peruの都市を対 象にした)から、Touristsがそれぞれの観光ス ポットのTravel patternsを分析。 ● Social MediaのデータがどうやってTouristsの Travel Preferencesに影響を与えているかも分 析 感想: ● こちらの研究室で様々なタイプの研究を扱って いる。 ● Change RecognitionとChange Captioningに関連 が強そうに感じた。 ● 今後どうやって、大規模Internetデータから文字 ・画像・映像に含まれる情報を分析し、それをAI に活用するのが重要になってきそう 旅行Patternの分析の例 76 UT-Austin_Computer_Vision
  • 77.
    重要視されているところ ● 特に「音声」とVisionの融合が多く研究してきた: ○ 視覚+音声⇒音声信号の強化 ○視覚+音声⇒Visualナビゲーションの性能向上、音源定位 ● 実環境への汎化性能、Embodied AIと実環境ロボットアプリ関のGapの縮小 ● 特に早い段階から「音声」+視覚を研究していて、自ら根強い研究分野を創出している。 ● 手法の方よりも、「問題の提出」を重要視している。 ○ 逆に手法が少し弱い(Multi-modal+Reinforcement)も時々する。 77 気付き UT-Austin_Computer_Vision
  • 78.
  • 79.
    研究者 扱っている研究分野: 選定理由: ● PhysicalScene Understanding ● Neuro-Symbolic Visual Reasoning ● Multi-Modal Perception ● Dynamic Models ● Generative Visual Models ● Neural-symbolic系においてたくさんの重要 研究を行ってきた。 ● Physics +AIに関しても相当数の重要研究を してきた。 ● Neural-SymbolicとPhysics +AIどちらも相当 な未来性を持つ分野に感じた。 ● 現在Stanford Vision and Learning Lab(Fei Fei Li研)に所属。 79 Jiajun Wu先生 写真URL:https://jiajunwu.com/ Stanford: Jiajun Wu
  • 80.
    研究テーマの変遷 2017 80 CLEVRER 2018 2019 2020 VisualDe-animation 画像のDisentangled な物理/Semantic表現 Neural Scene De-rendering Neural-Symbolic的な手法、タスクなど Neural-Symbolic VQA Neuro-Symbolic Concept Learner Scene Programs ● 同じ色で同じライン上の研究を示す ● それぞれの詳細を後ろの論文まとめに紹介 Stanford: Jiajun Wu
  • 81.
    Title: Learning toSee Physics via Visual De-animation (NeurIPS, 2017) Research Team / Researcher: Stanford_JiaJunWu 概要: ● 画像からPhysical world特徴表現(Shape, Mass, Friction, 3D Pose, Position)を復元するVisual de-animation(VDA)を 提案(上図、左)。 ● 生成されたPhysical stateを用いてReasoningやFuture予測が 可能。 感想: ● 画像からPhysical worldを復元す るアイデアがかなりインパクトを 感じる。全般的実現することはか なり難しいが、局所的な空間での ロボットアプリケーションで応用 できそう。 Visual de-animationの概念図 Visual de-animation(VDA)モデル 81 Stanford: Jiajun Wu
  • 82.
    Title: Neural SceneDe-rendering (CVPR, 2017) Research Team / Researcher: Stanford_JiaJunWu 概要: ● 画像から、明示的にDisentangled Scene Representation(物体、物体 属性、位置)を推定する手法を提案。 ● Auto-encodersなどと異なり、 Decoderの部分でGraphics Engines を用いる。 感想: ● 2017年当時では、NeRFなども提案されていなか った。現時点では、NeRF等を代表とした手法が 提案され、この論文で提案されたDe-renderingの 方向では比較的に論文が少ないように感じる. ● De-renderingという提案も良いが、適応できる場 面が限られるような気もする. De-renderingとRender 提案手法の構造図 82 Stanford: Jiajun Wu
  • 83.
    Title: Neural-Symbolic VQA:Disentangling Reasoning from Vision and Language Understanding (NeurIPS, 2018) Research Team / Researcher: Stanford_JiaJunWu 概要: ● De-renderingをVQAタスクに適応した。 (VQAを算数を解くみたいな感じで行ってい る) ● De-renderingとsymbolic program execution により、VQAの回答のプロセスが明示的にな る 感想: ● Neural Symbolic系は、識別とReasoning部分を わけて処理するイメージ。 ● 視覚と言語両方のWeak/Self-supervised学習との 組み合わせが興味深い。 ● NeRF+Languageもかなり興味深い。 NS-VQAのモデル構造 (左図) 83 Stanford: Jiajun Wu
  • 84.
    Title: The Neuro-SymbolicConcept Learner: Interpreting Scenes, Words, and Sentences from Natural Supervision (ICLR, 2019) Research Team / Researcher: Stanford_JiaJunWu 概要: ● 前ページのNeural Symbolic VQA(NS-VQA)手 法をもっとEnd-to-end学習可能にした。 ● 質問と画像から、視覚概念・単語・センテンス のセマンティクスパーシングを自動的に学習す るフレームワークNeural Symbolic Concept Learner (NS-CL)を提案。 ● Latent Scene Representationをベースとした Neuro-symbolic learningを行っている. 感想: ● 前作(NS-VQA)と比べ、確実に一歩Self- supervisedなNeural Symbolicモデルを実現でき ている。 ● Neurual Concept Learnerを様々なタスクに適応 していきたい。 提案のNS-CLの概要: カリキュラム学習を用いた学習・言語と視覚 概念のParsing及びAlignment 84 Stanford: Jiajun Wu
  • 85.
    Title: Learning toDescribe Scenes with Programs (ICLR, 2019) Research Team / Researcher: Stanford_JiaJunWu 概要: ● 画像から、Scene Program(物体、物体の配 置を表すプログラム)を生成するタスクを提 案。 感想: ● Scene Programsという提案が新規で面白いが、 適応できる場面が非常に限られている? (Simulationかつモノの分布にルール性がある) ● 逆に生成を行えると面白そう。 提案手法のプロセスおよびScene Programsの例 85 Stanford: Jiajun Wu
  • 86.
    Title: Reasoning AboutPhysical Interactions with Object-Oriented Prediction and Planning (ICLR, 2019) Research Team / Researcher: Stanford_JiaJunWu 概要: ● 物体の属性のSupervisionを用いずに、物理シ ーンの理解のためのObject-centric representationsモデルの提案。 感想: ● RoboticsのGraspingタスクなどに使えそう。 ● 実環境で適応する時にどのようなPhysics Engineが使えるかが気になる。NeRFはそろそ ろ近くなる? 3種類のParadigms:(c)提案の Object Factorization without Object Property Supervision 86 Stanford: Jiajun Wu
  • 87.
    Title: CLEVRER: CollisionEvents for Video Representation and Reasoning (ICLR, 2020) Research Team / Researcher: Stanford_JiaJunWu 概要: ● 因果推論のための、ビデオデータセッ トを提案。 ● また、De-renderingとNeuro-symbolic モデルを組み合わせた手法も提案(人 工設計のModuleが必要)。 感想: ● Videoや3Dを考慮した Reasoningに関しての研究がこ れから重要になってきそう。 ● 論文の書き方はかなりよかった。 問題を明示化し、既存研究の問 題点もはっきりにした。 提案のCLEVRERデータセット 提案のOracle model: NS-DR 87 Stanford: Jiajun Wu
  • 88.
    Title: Grounding PhysicalConcepts of Objects and Events Through Dynamic Visual Reasoning (ICLR, 2021) Research Team / Researcher: Stanford_JiaJunWu 概要: ● 前ページのCLEVRERデータセットのための新 たな手法の提案。 ● 前ページでは、人工設計のModuleが必要であ る一方、ここでもっとEnd-to-endでできるよう にした。 感想: ● 手法的にかなりNS-CLに近い、NS-CLのVideoへ の拡張になっている。 ● 依然として局所的にVisual Reasoningを検討し、 実験として簡単な実環境でも実験。 ● もっと一般的なVideoへの応用が期待される。 提案のDCL(Dynamic Concept Learner)の構造図 88 Stanford: Jiajun Wu
  • 89.
    Title: Grammar-Based GroundedLexicon Learning (NeurIPS, 2021) Research Team / Researcher: Stanford_JiaJunWu 概要: ● Groundedな視覚と言語のデータから、自動的 にCompositionalかつGroundedな言語表現を 学習する手法G2L2の提案(下図)。G2L2が NovelなワードのCompositionsに適応可能。 感想: ● この論文では言語側を切口に行われている Neuro-symbolic手法になる。 ● 言語側もまだまだ色々課題がある。最近の DALLE-2などをVision and Language系に導入で きると良さそう。 提案のG2L2(Grammar- Based Grounded Lexicon Learning)の構造図 89 Stanford: Jiajun Wu
  • 90.
    重要視されているところ ● AIで物理法則を理解する ● Neural-Symbolic的な手法により、人間のように因果推論ができるAIの実現 ● 物理+AIの研究者として、物理、Robotics、AIどちらに関しても相当詳しい ○ この3つの分野に対しての知識だけで壁がある ○ AIに関しても、3D Vision、Video Recognition、Vision and Languageなど様々なサ ブ分野を研究してきた 90 気付き Stanford: Jiajun Wu
  • 91.
  • 92.
    研究者 扱っている研究分野: 選定理由: ● VisualReasoning ● Vision and Language ● Image generation ● 3D Reasoning ● Vision and Languageを含めて、複数の分 野で重要な論文を残した ○ Vision and Language ■ CLEVR ■ Scene Graph ■ Dense Captioning ○ その他 ■ Perceptual Loss 92 Justin Johnson先生 写真URL:https://web.eecs.umich.edu/~justincj/ Michigan: Justin Johnson
  • 93.
    研究テーマの変遷 2015 93 2016 2017 2021 SceneGraph Dense Captioning CLEVR CLEVRのための Neural-Symbolic 手法 ● 同じ色で同じライン上の研究を示す ● それぞれの詳細を後ろの論文まとめに紹介 VirTex Michigan: Justin Johnson
  • 94.
    Title: Image Retrievalusing Scene Graphs (CVPR, 2015) Research Team / Researcher: Michigan_JustinJohnson 概要: ● 画像の意味的構造Scene Graph(Objects, Attributes, Object Relationships)を提案。 新規性: 新たなImage Representation、Scene Graphの提案。 当初はSemantic Image Retrievalのためだったが、現在 Scene GraphがあらゆるComputer Visionタスク、 Video、3Dデータにも適応されるようになってきた。 言語ー画像の間に位置付けるかなり効率的なGraph構 造になる。 Scene Graph(下)とGrounding(上)の例 94 Michigan: Justin Johnson
  • 95.
    Title: DenseCap: FullyConvolutional Localization Networks for Dense Captioning (CVPR, 2016) Research Team / Researcher: Michigan_JustinJohnson 概要: ● 従来の画像説明文生成タスクでは1画像1セン テンスで、説明できる内容が限られる。 ● 画像から、複数の物体を検出し、検出された 物体のCaptioning生成を同時に行うDense Captioningタスクを提案。 感想: ● Dense Captioningタスクの提案はかなりそ の時点の流れ的な感じがあるが、タスクの 設定はシンプルかつ重要だった。現在も Videoや3次元データのDense Captioningタ スクと類似したタスクが続出。 ● 同じ研究室(Fei fei Li研)でDense Captioningタスクに必要なデータセット Visual Genomeも提案されたので、Dense Captioningタスクの提案も計画下かなと感 じた。 Dense Captioningタスクと既存タスクの比較 95 Michigan: Justin Johnson
  • 96.
    Title: CLEVR: ADiagnostic Dataset for Compositional Language and Elementary Visual Reasoning (CVPR, 2017) Research Team / Researcher: Michigan_JustinJohnson 概要: ● 既存のVQAデータセットVQAv1とVQAv2では手動 で作成しているため、Human-centered biasが含ま れる。 ● VQAの手法をより分析する可能に、CGのVQAデー タセットCLEVRを提案。 感想: ● データセットの設計は非常に合理的でコードが綺麗。 ● CLEVRがVisual Reasoningモデルの研究を開かれた感 じがあり、但しCLEVRから5年立っていたが、シミュ レーションとリアル環境で同時に解釈性が高いVisual ReasoningできるモデルはいまだにOpen-question。言 語のみの場合かなり進歩してきたが。 CLEVRデータセットの例 96 Michigan: Justin Johnson
  • 97.
    Title: Inferring andExecuting Programs for Visual Reasoning (ICCV, 2017) Research Team / Researcher: Michigan_JustinJohnson 概要: ● 人間のように、Step-by-stepで推理を行う プロセスを持ったVQAの手法を提案。 ● 質問と画像両方のDisentangledな表現、推 理プロセスのモジュール化などにより、 Step-by-step的なVisual Reasoningを行って いる。 感想: ● 実環境に対応できるモデルにはまだまだ遠 いが、Neural Module Networksの Compositional Reasoning能力を示せた。 ● Neural Module NetworksがWeak SupervisedもしくはSelf Supervisedで構築 できるかが興味深くて、いまだにOpen- questionになっている。 提案のIEPモデルの構造: Program Generator(質問から推理プロセスを推定) +Execution Engineから構成される(推理プロセスに 対応した画像処理モジュールを組み合わせる) 97 Michigan: Justin Johnson
  • 98.
    Title: Image Generationfrom Scene Graphs (CVPR, 2018) Research Team / Researcher: Michigan_JustinJohnson 概要:Text-to-Imageの代わりに、Scene Graph-to- Imageを提案(上図)。 感想: ● テキストから直接画像生成と比べ、Scene Graph を経由した方が合理的で、解釈性が高く感じる。 ● JohnsonがScene Graphの提案から、画像の意味情 報の理解をすこしずつ向上させている感じがある。 また、Black boxよりは、解釈性を重視する傾向に ある。 提案手法(右図): ● Scene Layoutを中間表現として、 Scene Graphから画像生成を行う. ● Scene Graph⇒Layout: Graph NN ● Layout-> Image: Cascaded RN 98 Michigan: Justin Johnson
  • 99.
    Title: VirTex: LearningVisual Representations from Textual Annotations (CVPR, 2021) Research Team / Researcher: Michigan_JustinJohnson 概要: Semantic Denseなタスク(例:上図の右側の Image Captioning)での事前学習で高精度かつ高 データサイズの効率性が得られることを検討。 感想: Semantic Dense/Sparseなデータで事前学習でそ れぞれProsとConsがある。ここでDenseの方だと データの効率が高いことを示せた。両方を結合し た方が良いかもしれません。 様々なCVタスクの Semantic Densityの順番: (右) 提案のVirTex(下):Semantic DenseなImage Captioningタス クで事前学習し、Object Detectionタスクへ遷移学習 99 Michigan: Justin Johnson
  • 100.
    重要視されているところ ● 画像/視覚情報に対して意味情報の理解を深まっている。 ● JiajunWuと類似したように、Computer Visionに関して様々なタスクを扱ってきた。 ● 画像の意味的構造に関しての理解が深い、根強く研究し続けている ○ Scene Graph ○ Dense Captioning ● 実装力がとても強い ○ CLEVRとその後のICCV2017で提案したNeural-Symbolic 手法がかなり短い期間で できた ● アイデアがいつもシンプルで、Communityに対してのContributionがクリアで説明され ている。 ● 提案手法がいつもTrickyではなく、合理的かつStraightforwardなものが多い印象。 ● 論文が読みやすい。 100 気付き Stanford: Jiajun Wu
  • 101.
  • 102.
    Honglak Lee (ミシガン大学,LG AI Research) 兼務:2016 Google Brain→2020 LG AI Research スタンフォード大学:(指導教員はAndrew Ng) ● Ph.D. (2010): Computer Science ● M.S. (2006): Computer Science, Applied Physics ソウル国立大学: ● B.S. (2003): Physics, Computer Science 画像は[1]より引用 [1] https://web.eecs.umich.edu/~honglak/ 主戦場の分野:強化学習、CV、V&L、NLP 貢献が多いトピック: ● 教師なし、弱教師ありの表現学習 ● (主に弱教師あり)領域分割 ● GANを用いた画像生成・画像変換 ● GANの正則化手法 選定理由(品川): 研究室の規模は10名弱とそれほど 多くないものの、メンバー全体が 機械学習トップ会議の常連であり、 質の高い論文が多く、学べるもの が多そうだと考えたため。 102
  • 103.
    活躍している分野(採択先別、ジャーナル、workshop含む) 個人サイトにある掲載論文[1] 124件 (2005-2021)の論文を集計した 多い会議 ●表現学習や強化学 習(NeurIPS, ICML, ICLR) ● CV系(CVPR, ECCV, ICCV) NeurIPS (5月投稿締 切)→ICLR (9月) or CVPR (11月) → ICML or IJCAI (1月) という研究サイクル? 103
  • 104.
  • 105.
    ● 2012-2014頃は NIPSworkshop(12月初旬開催)からICML (1月投稿締切)という流れも(今 はやってない?) ● 2015-2018はAdobe Researchとも共同研究していた?(Jimei Yangがキーパーソン?) 博士論文:Unsupervised Feature Learning Via Sparse Hierarchical Representations 深層学習モデルによる教師なしの表現学習(スパースコーディングと、スパースな Deep Belief Network、畳み込みDeep Belief Network) 2014年頃まで:RBM、DBN、Convolutional DBNによる表現学習 2015年~:画像、テキストによる表現学習、画像生成・変換、強化学習、動画生成 2019年~:GANの正則化手法も加わる ● 表現学習を基礎にしながら、強化学習や画像を中心とした深層生成モデルを攻めている ● 大まかには、表現学習や深層生成モデル(ミシガン大)強化学習のアルゴリズム改善 (Google Brain)で分かれているという印象 ● 一見色々なことをしているように見えるが、大きな目で見ると、コアの技術は有機的に つながっていて、かつテーマが研究室内で引き継がれている印象を受ける。指導方針に 戦略がありそう? ● 研究トピックがその時代の流行りを少し先取りしていたり、面白いと思われているとこ ろを絶妙についているという印象。研究対象を絞っているゆえに着眼点が良いのかも 105
  • 106.
    研究テーマの変遷 2014 2022 RBM、Deep Belief Networks による表現学習 画像生成 ・変換 強化学習(2016年以降は主にGoogle Brainでの仕事) 動画生成 画像と言語の共有空間の学習 text-to-image+GAN 2016 博士論文, 2009 CKAによるDNN の類似性解析 GANによる正則化 表現学習や 表現の分析 106
  • 107.
    主要な貢献には主に優秀なPh.D.の学生やポスドクが関わっている Lajanugen Logeswaran Sungryull Sohn SeunghoonHong Scott Reed Yuting Zhang 現Ph.D. student。文の表現学習に関する仕事はだ いたいこの人が筆頭著者 現Ph.D. student。強化学習の改善に注力 現Amazon。元Visiting Ph.D. student→ポスドク。 深層生成モデルを使った画像タスク色々。画像や 言語の表現学習も手掛ける 現KAIST Assist. Prof.。元Visiting Ph.D. student→ ポスドク。弱教師あり領域分割や条件付き画像生 成・変換がメイン 現DeepMind。元Ph.D. student。GANによるtext-to- imageの草分け的存在。画像とテキストによるゼロショ ット画像分類や表現学習、画像生成・変換など 107
  • 108.
    対外でも強力な共著がいる Google Brain SergeyLevine Jimmei Yang 強化学習の大家 現Adobe。元Visiting Ph.D. student。Adobeのイ ンターンや共同研究はこの人が関係している? Geoffrey Hinton 深層学習の大家 次のページからは論文まとめ 108
  • 109.
  • 110.
    Title: Convolutional deepbelief networks for scalable unsupervised learning of hierarchical representations (ICML 2009, Best Paper Award: Best Application Paper) Research Team / Researcher: Michigan_Honglak_Lee Deep Learning初期に主流だったDeep Belief Networkに畳み込み構造を追加し たConvolutional Deep Belief Networkを 提案した論文。 左図は2層目(上図)と3層目(下図)が反 応する視覚的特徴を示している。階層性が複 雑な特徴を捉えていることを示している図と してかなり有名な図 Stanford Andrew Ng 110
  • 111.
    Title: Action-Conditional VideoPrediction using Deep Networks in Atari Games (NIPS 2015, oral presentation) Research Team / Researcher: Michigan_Honglak_Lee actionに条件づけられた動画予測 強化学習でよく用いられるAtariのゲ ームの動画で実験 Atariの動画は自然画像ほどではない が、数十オブジェクトやオブジェク トの増減が起こる Feed-forwardとRecurrent層を含む 2種類の提案モデルが良いことを示 した。 DNN時代の条件付き動画生成の比較 的早期の研究と思われる Michigan 111
  • 112.
    Title: Deep VisualAnalogy-Making (NIPS 2015, oral presentation) Research Team / Researcher: Michigan_Honglak_Lee 潜在空間上である関係にある画像同 士を引き算し、その関係を適用した い画像に{足す、掛ける、ニューラ ルネットワークに通す}と、その関 係が適用された新しい画像が生成で きることを示した論文。 ニューラルネットワークに通した場 合(deep)が一番良い結果になった 当時、DNNによる画像変換の可能性 に一石を投じた論文の一つ Michigan Scott Reed 112
  • 113.
    Title: Learning HierarchicalSemantic Image Manipulation through Structured Representations (NeuIPS2018) Research Team / Researcher: Michigan_Honglak_Lee 前景と背景を考慮しながら領域マスク生成と画像生成の二段階で画像を 編集する手法を提案 筆頭のSeunghoon HongはCVPR2018でも似たようなことをtext-to-imageでやってい る。text-to-imageの方が先なので、より対象を絞ったのだろうか? Seunghoon Hong Michigan 113
  • 114.
  • 115.
    Title: Sentence Orderingand Coherence Modeling using Recurrent Neural Networks (AAAI 2018) Research Team / Researcher: Michigan_Honglak_Lee Lajanugen Logeswaran Michigan Dragomir Radev 与えられた文の集合から文を順番に生成するタスクを解くことで、一貫したテキスト の構造をモデル化し、良い文の表現を得る方法を提案。順序判別タスク、科学論文の 概要を並べるタスクで有用性を示した。文の表現としても有用。 115
  • 116.
    Title: Content preservingtext generation with attribute controls (NeurIPS 2018) Research Team / Researcher: Michigan_Honglak_Lee Lajanugen Logeswaran Michigan Google Brain Samy Benjio ラベルに条件付けられたテキスト生成で、 再構成損失、逆翻訳損失、敵対的損失を導入 116
  • 117.
    Title: An efficientframework for learning sentence representations (ICLR 2018) Research Team / Researcher: Michigan_Honglak_Lee Lajanugen Logeswaran Michigan 入力テキストに対応する文脈を対照学習で予測する 問題を解くことで、良いテキスト表現を学習する 117
  • 118.
    Title: Zero-Shot EntityLinking by Reading Entity Descriptions (ACL2019 Best paper award finalist) Research Team / Researcher: Michigan_Honglak_Lee ラベルデータなしで与えられたテキスト(メ ンション)をエンティティに紐づけるタスク をzero-shotで行う。 ラベル付けされていない大規模データに対し て事前い学習させたモデルを用いて未知のエ ンティティに汎化できることを示した。 Lajanugen Logeswaran Michigan Google Brain 118
  • 119.
  • 120.
    Title: Evaluation ofOutput Embeddings for Fine-Grained Image Classification (CVPR 2015) Research Team / Researcher: Michigan_Honglak_Lee Michigan Scott Reed Max Planck 画像とクラスの埋め込み(もしくはテキストの埋め込み)が一致 するか否かをSVMで予測するタスクを解くことで、zero-shotの 画像分類の性能を向上させた Scott Reedの、後のvisual semantic embeddingの研究 につながっている模様 120
  • 121.
    Title: Learning DeepRepresentations of Fine-grained Visual Descriptions (CVPR 2016, spotlight) Research Team / Researcher: Michigan_Honglak_Lee 画像と言語の共有空間である visual semantic embeddingを学習 当時主流だったTriplet lossに、ク ラスラベルの一致をマージンとし て加えたlossを提案した。 結局流行ることはなかったが、 筆頭著者のScott Reedが自身の GANによるtext-to-image論文で利 用している テキストエンコーダにCNN-RNN を使っていたのも当時珍しかった 印象 Michigan Scott Reed 121
  • 122.
    Title: Generative AdversarialText to Image Synthesis (ICML2016) Research Team / Researcher: Michigan_Honglak_Lee GANをtext-to-imageに応用した最初の論 文。Discriminatorで入力画像が本物か判 定するだけでなく、入力条件にも沿って いるかを合わせて判定するmatching aware lossは、条件付きGANの標準的な 方法の一つとして普及したといえる。 Michigan Scott Reed 122
  • 123.
    Title: Learning Whatand Where to Draw (NIPS 2016, oral presentation) Research Team / Researcher: Michigan_Honglak_Lee 概要: text-to-imageの入力に自然言語だけで なく矩形やkey-pointなど、空間的な情 報を含めて生成する手法を提案した。 テキスト+追加情報でtext-to-imageを することの先駆けとなった論文 Honglak Leeのラボでは、この手のネ タがしばらく継承されてきている Michigan Scott Reed 123
  • 124.
    Title: Inferring SemanticLayout for Hierarchical Text-to-Image Synthesis (CVPR2018) Research Team / Researcher: Michigan_Honglak_Lee テキストからの画像生成にbounding boxの 予測タスク、領域マスクの予測タスクを挟 みこんで生成 text-to-imageを段階的なタスクに分割し、 End-to-endで学習。空間的なレイアウトも モデルから生成できるようにした Michigan Seunghoon Hong 124
  • 125.
    Title: Text-to-Image GenerationGrounded by Fine-Grained User Attention (WACV 2021) Research Team / Researcher: Michigan_Honglak_Lee 実践的なテキストからの画像 生成の方法として、ユーザが 喋りながらマウスによる軌跡 入力を行えるという問題設定 の下で画像を生成 Google Research 125
  • 126.
    Title: Discriminative BimodalNetworks for Visual Localization and Detection with Natural Language Queries (CVPR2017 spotlight) Research Team / Researcher: Michigan_Honglak_Lee 概要: テキストのクエリが示す画像中の領域 を検出するタスク。従来手法がimage- captioningなどに基づくのに対し、本 手法は画像とテキストのマッチングを 2値分類することで効率的に負例も使 うことができる。 現在のV&L BERTのtext-image matchingにも通じるアイデアだと思わ れる Michigan Yuting Zhang 126
  • 127.
  • 128.
    Title: Hierarchical ReinforcementLearning for Zero-shot Generalization with Subtask Dependencies (NeurIPS 2018) Research Team / Researcher: Michigan_Honglak_Lee Sungryull Sohn Michigan 既存の階層的なマルチタスク強化学習ではエージェントが何をすべきか明示的に 示していたが、本研究ではサブタスクの性質とサブタスク間の関係性のみの情報 だけで、エージェントがどのサブタスクを実行するか推論させるより実践的な問 題設定になっている 128
  • 129.
    Title: Data-Efficient HierarchicalReinforcement Learning (NeurIPS2018) Research Team / Researcher: Michigan_Honglak_Lee 上位方策と下位方策により複雑なタスクを解く階層型強化学習において、上位方策 がon-policyで学習する必要があった従来手法に対し、上位方策もoff-policyで学習す る方法を提案し、サンプル効率を改善した Google Brain Sergey Levine 129
  • 130.
    Title: Evolving ReinforcementLearning Algorithms (ICLR2021 oral) Research Team / Researcher: Michigan_Honglak_Lee 概要: モデルフリーの価値ベースRLエージェントを最適化するのに、損失関数を計 算する計算グラフ上をサーチするメタ学習強化学習を提案。 ドメインにによらず新しい環境への汎化が可能で、スクラッチ学習でも既存の DQNなどと組み合わせることも可能。価値ベースの過大評価に対処するRLア ルゴリズムと類似した傾向がある Google Brain Sergey Levine 130
  • 131.
  • 132.
    Title: Diversity-Sensitive ConditionalGenerative Adversarial Networks (ICLR 2019) Research Team / Researcher: Michigan_Honglak_Lee 条件付きGANのモード崩壊を抑えつつ多様性を向上させる方法として、目的関数 に正則化を加える手法を提案。 生成条件xに潜在変数z_1, z_2を加える時、z_1, z_2の距離に対するGeneratorによ る生成後の距離を上限τのもとで最大化する。 Michigan 132
  • 133.
    Title: Consistency Regularizationfor Generative Adversarial Networks (ICLR 2020) Research Team / Researcher: Michigan_Honglak_Lee GANにデータ拡張を適用する際、データ拡張適 用前後の特徴量は近くなることが望ましい。この 正則化をDiscriminatorに適用した CR-GANを提案。 画像は下記リンクより引用 https://arxiv.org/abs/2002.04724 Google Research 133
  • 134.
    Title: Improved ConsistencyRegularization for GANs (AAAI 2021) Research Team / Researcher: Michigan_Honglak_Lee データ拡張を行った入力の予測をDiscriminatorの予測に近づけるconsistency cost の導入(1)は性能を向上させる一方でartifactを引き起こすことを指摘。 データ拡張の対象を変更することでよりFIDで高性能であることを示した(2)(3) ● (2) bCR-GAN: Generatorによる生成画 像にデータ拡張を加え てconistency costを計 算 ● (3) zCR-GAN: zにノイズを加えて、 生成画像にconsistency costを計算 Google Research 134
  • 135.
  • 136.
    Title: Weakly SupervisedSemantic Segmentation using Web-Crawled Videos (CVPR2017 spotlight) Research Team / Researcher: Michigan_Honglak_Lee 概要: Web上の動画を領域分割できるモデルを学習する。 1. 最初に既知のドメインで画像認識モデルとattention mapを学習 2. Web動画を認識モデルでフィルタリング 3. (既知のドメインで)attention map to segmentation maskを学習 Michigan Seunghoon Hong 136
  • 137.
    Title: Learning TransferrableKnowledge for Semantic Segmentation with Deep Convolutional Neural Network (CVPR 2016, spotlight) Research Team / Researcher: Michigan_Honglak_Lee 弱教師ありの領域分割の性能を上げる方法として、別のドメインの領域分割デ ータセットからの転移学習を行う研究。クラスの予測と領域分割のマスクの予 測を分けて予測するタスクを解くことで、転移先のデータセットに対しても領 域分割を汎用的に機能させることができる Michigan Seunghoon Hong 137
  • 138.
    Title: Object ContourDetection with a Fully Convolutional Encoder-Decoder Network (CVPR 2016, spotlight) Research Team / Researcher: Michigan_Honglak_Lee シンプルなネットワークで輪郭検 出ができることを示した Adobeとの共同研究? Michigan Jimei Yang 138
  • 139.
    Title: Unsupervised Discoveryof Object Landmarks as Structural Representations (CVPR 2018 oral) Research Team / Researcher: Michigan_Honglak_Lee 教師なしで画像中のランドマークを発見する手法を提案。UNetのようなEncoder-decoderモデル でチャネルごとにisotropic gaussianを仮定してランドマークを抽出し、このランドマークを基に 画像の再構成を学習することで画像中のオブジェクトに対する良いランドマークを発見する Michigan Yuting Zhang 139
  • 140.
    Title: Similarity ofNeural Network Representations Revisited (ICML2019 + Best Research Paper Award at the ICLR 2019 Workshop on Debugging Machine Learning Models) Research Team / Researcher: Michigan_Honglak_Lee 概要: centered kernel alignment (CKA)に基づい たニューラルネットワークの表現 (activation)の類似性の比較を提案。線 形のCKAは従来の正準相関分析を固有値で 重みづけした方法に相当することを示し、 CKAの優位性を示した。 補足: 線形CKAによる手法は現在の標準的な類似 度比較手法になっており、昨今のResNet とVision Transformerの比較にも利用され ており、大きな影響を与えたと言える Google Brain Geoffrey Hinton 140
  • 141.
  • 142.
    研究室の構成 写真: URL:https://panderson.me/ 扱っている研究分野: 選定理由: ● Embodied AI ●Image caption ● VQA ● Vision-langauge Navigation ● image captionタスクの評価:SPICE ● Vision-language Naviagationを提案 ● REVERIEを提案 142
  • 143.
    Title: SPICE: SemanticPropositional Image Caption Evaluation Research Team / Researcher: Google_Peter-Anderson 概要: ● image captionタスクにおいて,生成した文の意 味内容によって,その文の質を評価する指標を 提案した. ● 生成文と参照文に出た物体,物体の属性,物体 間の関係を基づいて,scene graphに変更す る.2つのscene graphの類似度によって,生成 文の評価を行う. 新規性: ● 従来の評価指標(BLEU,METEORなど)は文の 意味を無視し,n_gramで生成文と正解を比較で 評価する.SPICEでは文の意味を考慮する上で 品質を評価する. SPICEによる評価の一例 感想: ● SPICEを提案した以来,image captionの分野で 広めに利用される.従来の指標より,意味を重 視しているけど,文の流暢性という基準がなく なる. 143
  • 144.
    Title: Chasing Ghosts:Instruction Following as Bayesian State Tracking Research Team / Researcher: Google_Peter-Anderson 概要: ● 観察とモーションモデルを基づいてVLNタスクの 解決策をBayesian State Tracking問題として提案 ● 言語指示から観察と動作関連の単語を取り出し, semantic spatial mapを作る 新規性: ● VLNタスクに向けてメモリ構造を提案した 144
  • 145.
    Title: Vision-and-Language Navigation:Interpreting visually-grounded navigation instructions in real environments Research Team / Researcher: Google_Peter-Anderson 概要: ● vision langauge navigation(VLN):リアルな環境に おけるエージェントは言語の指示に従って目的地 に辿り着くというタスクを提案した. ● ベンチマークRoom-to-Room(R2R)を構築した. 新規性: ● 新しくVision and Language系の研究のタスク (VLN)を提案した.このタスクは,CV,NLP, Robotics分野の結合で,非構造化かつ未知な実環 境でのreasoning能力を求める. ● 既存のVision and Language系の研究(VQA, visual dialog etc)より,画像と自然言語両モダリ ティ間の関係性をより深く理解する必要がある. 感想: ● 論文にはさまざまなベイスラインを提供され, Seq2seqの手法でR2Rベンチマークを試した 結果,学習際に見なかったシーンに対する効 果が低下であることより,VLNタスクでは汎 用性のあるエージェントを学習させることが 重要である. 145
  • 146.
    Title: Bottom-Up andTop-Down Attention for Image Captioning and Visual Question Answering Research Team / Researcher: Google_Peter-Anderson 概要: ● bottom-upで画像中での特徴を利用し,物体情報 を認識した後に,top-downでattention構造で注意 すべき領域を予測し,image captionとVQAのタ スクを行う. 新規性: ● Faster-RCNNで物体検出することを活用し, visualとlanguageを連結したことにより,画像に のコンセプトへの理解を向上した. ● 提案したbottom-upとtop-down形のattention構造 はオブジェクトおよび他の顕著な画像領域のレ ベルでattentionを計算することができる. top-downでのVQAタスクためのモデル top-downでのimage captionためのモデル 146
  • 147.
    Title: REVERIE: RemoteEmbodied Visual Referring Expression in Real Indoor Environments Research Team / Researcher: Google_Peter-Anderson 概要: 高レベルの自然言語指示で指定された遠隔のターゲッ ト物体(開始地点では観測できない)を正しくローカ ライズするタスク 新規性: ● 3D環境でのreasoning ● high levelな指示 論文に提案したモデル REVERIEデータセットの一例 感想: ● REVERIEタスクでは人間みたいに抽象性が高 い指示を理解し,未観察の環境においても, ナビとreasoningの能力を求める. ● 既存なSoTA手法でREVERIEを解けてみたけ ど,効果がよくないにより,挑戦的なタスク けど,VLNの発展および応用に意味ある. 147
  • 148.
    Title: Pathdreamer: AWorld Model for Indoor Navigation Research Team / Researcher: Google_Peter-Anderson 概要: ● Pathdreamerは,屋内シーンの1つ以上のパノラ マに基づいて,リアルで多様なパノラマ画像を 合成することができる確率的階層的視覚世界モ デルである. ● PathdreamerをVLNタスクに応用する 新規性: ● 高解像度のaction-conditional video prediction 148
  • 149.
    Title: Less isMore: Generating Grounded Navigation Instructions from Landmarks Research Team / Researcher: Google_Peter-Anderson 概要: 2-stageのモデルを提案,視覚上に関連性あるの visual inputのみを選んで,ナビの指示を生成する. ● 1st-stage (landmark detector): パスで結ばれたpanoramicのシーケンスから, 人がこのパスを説明するために選択する可能性 のあるランドマークのシーケンスを推論する. ● 2nd-stage (instruction generator): 第1ステージに選んだランドマークとナビゲー ションためのアクションを使って,ナビの指示 生成を行う. 感想: ● image-text pairに似たような手法でパノラムから 既存指示に出た名詞を抽出し,視覚とテキスト 間の対応関係をうまく取ってきた. おかげで,モデルが生成した指示と人間が書い た指示の差をほとんどなくすことができる. 149
  • 150.
  • 151.
  • 152.
    Title: VLN BERT:A Recurrent Vision-and-Language BERT for Navigation Research Team / Researcher: Adelaide_V3ALab 概要: ● V&L BERTモデルをVLNタスクに応用するため, recurrent BERTを提案し,エージェントの状態を 依存できるようになった. ● R2RとREVERIEのタスクでSoTAを達成 感想: ● V&L BERTモデルの特徴はマルチモーダル情報へ の理解力が高い,その特徴を利用し,VLNタスク においての環境理解が向上した. ● BERTのself-attention構造を利用し,他のVLNモ デルに提案したメモリ構造と同じように使え る.モデルがシンプルになる同時に計算コストも 低くなる. ● recurrent機構を導入し,LSTMのセル状態のよう に状態を再利用することで,BERTの本来の構造 を生かし,時間依存の入力を識別できるようにし た.(VLN問題はMDPに見える,マルコフ連鎖 における過去の状態への依存を解決することであ る.) 部分的に観測入力を対応可能なrecurrent Transformer VLNリカレントBERの全体像 152
  • 153.
    Title: Room-and-Object AwareKnowledge Reasoning for Remote Embodied Referring Expression Research Team / Researcher: Adelaide_V3ALab 概要: ● REVERIEタスクに対して,room-entityのリズニングとobject-entityのリスニングするための commonsense knowledgeを学習するアプローチCross-modality Knwoledge Reasoning(CKR)を提案し た ● CKRの中,Knowledge-enabled Entity Relationship Reasoning (KERR)はグラフベースの知識推論を適 用し,部屋や物体間の意味的・共起的な内部と外部の相関をとらえ,そこに常識を取り込む 153
  • 154.
    Title: Sub-Instruction AwareVision-and-Language Navigation Research Team / Researcher: Adelaide_V3ALab 概要: ● 既存の(Room-to-Room)R2Rデータセットでの指示文が 抽象性があるため,指示文とシーンの間の対応関係がうま く学習していなかった.そして,本研究は元のアノテーシ ョンを基いて,sub-instructionを作成し,既存のR2Rデータ セットを改善し,シーンと指示文を細かくマッチングでき るようになった. ● 4つのSoTAモデルを使い,改善したFineGrained R2Rの有 効性を検証した. 154 Fine grained 指示文の例