SlideShare a Scribd company logo
ConfidentialCopyright © 2019 Future Corporation
紹介する論文
‣ The Neuro-Symbolic Concept Learner:
Interpreting Scenes, Words, and Sentences From Natural Supervision
‣ 画像xNLPのマルチモーダル
‣ 少量のデータでも高い精度を出せる
‣ of Wikipedia: Knowledge-Powered Conversational Agents
‣ QAシステムに関する研究
‣ 絵文字を使ってるので気になった
‣ 大規模なデータセットの公開
Copyright © 2019 Future Corporation Confidential
The Neuro-Symbolic Concept Learner:
Interpreting Scenes, Words, and
Sentences From Natural Supervision
Jiayuan Mao MIT CSAIL and IIIS, Tsinghua University
Chuang Gan MIT-IBM Watson AI Lab
Pushmeet Kohli Deepmind
Joshua B. Tenenbaum MIT BCS, CBMM, CSAIL
Jiajun Wu MIT CSAIL
ConfidentialCopyright © 2019 Future Corporation
ざっくり言うと
‣ Visual QAタスクにおいてend-to-endで学習を行う手法
(Neuro-Symbolic Concept Learner)を提案
‣ オブジェクトに対するラベルなどのデータなしで、
視覚的な概念(形や色)の認識、言語の意味解析を行う
‣ 少量の学習データでも精度が高い
‣ 回答を出力するまでのプロセスが説明可能
ConfidentialCopyright © 2019 Future Corporation
Neuro-Symbolic Concept Learnerの概要図
Q: What is the
shape of the
red object?
Neuro-Symbolic Concept Learner
ConfidentialCopyright © 2019 Future Corporation
Neuro-Symbolic Concept Learnerの概要
Q: What is the
shape of
the red object?
A: Sphere
Program
Query(Shape, Filter(Red))
Neuro-Symbolic Concept Learner
ConfidentialCopyright © 2019 Future Corporation
Neuro-Symbolic Concept Learnerの概要
Q: What is the shape of
the red object?
Object detection(Mask R-CNN)
Feature extraction(ResNet-34)
A: Sphere
Semantic parsing
①
Program
Query(Shape, Filter(Red))
ConfidentialCopyright © 2019 Future Corporation
Neuro-Symbolic Concept Learnerの概要
Q: What is the shape of
the red object?
A: Sphere
Semantic parsing
Program
Query(Shape, Filter(Red))
Object detection(Mask R-CNN)
Feature extraction(ResNet-34)
②
③
ConfidentialCopyright © 2019 Future Corporation
Neuro-Symbolic Concept Learnerの概要
Q: What is the shape of
the red object?
A: Sphere
Semantic parsing
Program
Query(Shape, Filter(Red))
Object detection(Mask R-CNN)
Feature extraction(ResNet-34)
④
ConfidentialCopyright © 2019 Future Corporation
Q: What is the shape of
the red object?
Neuro-Symbolic Reasoningモジュール
Semantic parsing
Program
Query(Shape, Filter(Red))
Object detection(Mask R-CNN)
Feature extraction(ResNet-34)
ConfidentialCopyright © 2019 Future Corporation
Q: What is the shape of
the red object?
色のベクト
ルに変換す
るNN
Color Representation
Semantic parsing
Neuro-Symbolic Reasoningモジュール
Program
Query(Shape, Filter(Red))
Object detection(Mask R-CNN)
Feature extraction(ResNet-34)
ConfidentialCopyright © 2019 Future Corporation
Q: What is the shape of
the red object?
形のベクト
ルに変換す
るNN
Shape Representation
Cube
Sphere
Semantic parsing
Neuro-Symbolic Reasoningモジュール
Program
Query(Shape, Filter(Red))
Object detection(Mask R-CNN)
Feature extraction(ResNet-34)
ConfidentialCopyright © 2019 Future Corporation
Neuro-Symbolic Reasoningの学習
Q: What is the shape of
the red object?
Semantic parsing
Program
Query(Shape, Filter(Red))
Object detection(Mask R-CNN)
Feature extraction(ResNet-34)
A: Cube
Groundtruth: Sphere
✘
Backprop
Reinforce
ConfidentialCopyright © 2019 Future Corporation
Curriculum Learning
ConfidentialCopyright © 2019 Future Corporation
実験
‣ CLEVRデータセットに対して精度評価
‣ 立方体や球などが複数配置された画像と、質問、回答がペアになった
データセット
‣ 訓練データ: 70K,開発データ: 15K,評価データ: 15K
‣ 訓練データの全てを使用した場合、一部(7K)を使用した場合でそれぞれ
精度比較
ConfidentialCopyright © 2019 Future Corporation
実験
比
較
手
法
比
較
手
法
比
較
手
法
提
案
手
法
提
案
手
法
比
較
手
法
比
較
手
法
比
較
手
法
ConfidentialCopyright © 2019 Future Corporation
考察
ConfidentialCopyright © 2019 Future Corporation
まとめ
‣ 視覚的な概念(形や色)、単語や文の意味解析をそれぞれ個々に学習する手法
Neuro-Symbolic Concept Learnerを提案
‣ 必要なのは画像とQとAのみ
‣ 少ない学習データ量でも高い精度を実現
‣ 回答を出力するまでのプロセスを説明できることを示した
Copyright © 2019 Future Corporation Confidential
of Wikipedia:
Knowledge-Powered
Conversational Agents
Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan,
Michael Auli, Jason Weston
(Facebook AI Research)
ConfidentialCopyright © 2019 Future Corporation
ざっくり言うと
‣ Wizard of Wikipediaデータセットの作成、公開
‣ 知識を問うような質問のデータセット、評価指標がない
‣ Wikipediaから知識を検索し、会話を行う作業を実施し作成
‣ 質問応答システムの手法 Transformer Memory Network を提案
‣ オープンドメインな対話において、上手く知識を扱えるようにしたいが、
現状の対話システム(e.g. seq2seq, transformerなど)では、知識や記憶保持に限界
がある
ConfidentialCopyright © 2019 Future Corporation
The Wizard of Wikipedia dataset
‣ 二人の人間がチャットで雑談をする際のデータを収集する
‣ 知識を与える人といろいろ聞く人の対話データ
‣ 約21万発話のデータが収集できた
wizardが参照
した知識
ConfidentialCopyright © 2019 Future Corporation
発話生成の手法で得られた発話例
ConfidentialCopyright © 2019 Future Corporation
データセットのリンク
https://parl.ai/projects/wizard_of_wikipedia/

More Related Content

What's hot

Nakahara_ACRi_panel-discussion_25_march2021
Nakahara_ACRi_panel-discussion_25_march2021Nakahara_ACRi_panel-discussion_25_march2021
Nakahara_ACRi_panel-discussion_25_march2021
直久 住川
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
Tatsuya Shirakawa
 
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
Yamato OKAMOTO
 
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionA Novel Cascade Binary Tagging Framework for Relational Triple Extraction
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
亮宏 藤井
 
2020 0906 acl_2020_reading_shared
2020 0906 acl_2020_reading_shared2020 0906 acl_2020_reading_shared
2020 0906 acl_2020_reading_shared
亮宏 藤井
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
 
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
Tatsuya Shirakawa
 
aiconf2017okanohara
aiconf2017okanoharaaiconf2017okanohara
aiconf2017okanohara
Preferred Networks
 
Rakuten20181027
Rakuten20181027Rakuten20181027
Rakuten20181027
Natsutani Minoru
 

What's hot (9)

Nakahara_ACRi_panel-discussion_25_march2021
Nakahara_ACRi_panel-discussion_25_march2021Nakahara_ACRi_panel-discussion_25_march2021
Nakahara_ACRi_panel-discussion_25_march2021
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
CVPR2019@ロングビーチ参加速報(後編 ~本会議~)
 
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
A Novel Cascade Binary Tagging Framework for Relational Triple ExtractionA Novel Cascade Binary Tagging Framework for Relational Triple Extraction
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
 
2020 0906 acl_2020_reading_shared
2020 0906 acl_2020_reading_shared2020 0906 acl_2020_reading_shared
2020 0906 acl_2020_reading_shared
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
医療ビッグデータの今後を見通すために知っておきたい機械学習の基礎〜最前線 agains COVID-19
 
aiconf2017okanohara
aiconf2017okanoharaaiconf2017okanohara
aiconf2017okanohara
 
Rakuten20181027
Rakuten20181027Rakuten20181027
Rakuten20181027
 

Similar to ICLR2019参加報告後半@テキストアナリティクスシンポジウム

データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?
Kazuyo Mizuno
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
Agile Overview In Ono
Agile Overview In OnoAgile Overview In Ono
Agile Overview In Ono
Kenji Hiranabe
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Recruit Technologies
 
リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
Recruit Technologies
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
Kyoichi Iwasaki
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
Kazuyuki Miyazawa
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
Recruit Technologies
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
Fumihiko Takahashi
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
Recruit Technologies
 
Find Your Ability: IA for a novice Web Creator
Find Your Ability: IA for a novice Web CreatorFind Your Ability: IA for a novice Web Creator
Find Your Ability: IA for a novice Web Creator
Nobuya Sato
 
LLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみたLLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみた
KunihiroSugiyama1
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
Recruit Technologies
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
【Jmrx】mrmw発表会 20140425 final
【Jmrx】mrmw発表会 20140425 final【Jmrx】mrmw発表会 20140425 final
【Jmrx】mrmw発表会 20140425 finalHidekazu Hamano
 
【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems
cvpaper. challenge
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
Recruit Technologies
 

Similar to ICLR2019参加報告後半@テキストアナリティクスシンポジウム (20)

データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?データ可視化の研究って何をしているの?何の役に立つ?
データ可視化の研究って何をしているの?何の役に立つ?
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
Agile Overview In Ono
Agile Overview In OnoAgile Overview In Ono
Agile Overview In Ono
 
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
Struggling with BIGDATA -リクルートおけるデータサイエンス/エンジニアリング-
 
リクルート式AIの活用法
リクルート式AIの活用法リクルート式AIの活用法
リクルート式AIの活用法
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learningドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
 
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
リクルートにおけるマルチモーダル Deep Learning Web API 開発事例
 
Find Your Ability: IA for a novice Web Creator
Find Your Ability: IA for a novice Web CreatorFind Your Ability: IA for a novice Web Creator
Find Your Ability: IA for a novice Web Creator
 
LLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみたLLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみた
 
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【Jmrx】mrmw発表会 20140425 final
【Jmrx】mrmw発表会 20140425 final【Jmrx】mrmw発表会 20140425 final
【Jmrx】mrmw発表会 20140425 final
 
【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems
 
リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介リクルート式 自然言語処理技術の適応事例紹介
リクルート式 自然言語処理技術の適応事例紹介
 

Recently uploaded

YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 

Recently uploaded (15)

YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 

ICLR2019参加報告後半@テキストアナリティクスシンポジウム

  • 1. ConfidentialCopyright © 2019 Future Corporation 紹介する論文 ‣ The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision ‣ 画像xNLPのマルチモーダル ‣ 少量のデータでも高い精度を出せる ‣ of Wikipedia: Knowledge-Powered Conversational Agents ‣ QAシステムに関する研究 ‣ 絵文字を使ってるので気になった ‣ 大規模なデータセットの公開
  • 2. Copyright © 2019 Future Corporation Confidential The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision Jiayuan Mao MIT CSAIL and IIIS, Tsinghua University Chuang Gan MIT-IBM Watson AI Lab Pushmeet Kohli Deepmind Joshua B. Tenenbaum MIT BCS, CBMM, CSAIL Jiajun Wu MIT CSAIL
  • 3. ConfidentialCopyright © 2019 Future Corporation ざっくり言うと ‣ Visual QAタスクにおいてend-to-endで学習を行う手法 (Neuro-Symbolic Concept Learner)を提案 ‣ オブジェクトに対するラベルなどのデータなしで、 視覚的な概念(形や色)の認識、言語の意味解析を行う ‣ 少量の学習データでも精度が高い ‣ 回答を出力するまでのプロセスが説明可能
  • 4. ConfidentialCopyright © 2019 Future Corporation Neuro-Symbolic Concept Learnerの概要図 Q: What is the shape of the red object? Neuro-Symbolic Concept Learner
  • 5. ConfidentialCopyright © 2019 Future Corporation Neuro-Symbolic Concept Learnerの概要 Q: What is the shape of the red object? A: Sphere Program Query(Shape, Filter(Red)) Neuro-Symbolic Concept Learner
  • 6. ConfidentialCopyright © 2019 Future Corporation Neuro-Symbolic Concept Learnerの概要 Q: What is the shape of the red object? Object detection(Mask R-CNN) Feature extraction(ResNet-34) A: Sphere Semantic parsing ① Program Query(Shape, Filter(Red))
  • 7. ConfidentialCopyright © 2019 Future Corporation Neuro-Symbolic Concept Learnerの概要 Q: What is the shape of the red object? A: Sphere Semantic parsing Program Query(Shape, Filter(Red)) Object detection(Mask R-CNN) Feature extraction(ResNet-34) ② ③
  • 8. ConfidentialCopyright © 2019 Future Corporation Neuro-Symbolic Concept Learnerの概要 Q: What is the shape of the red object? A: Sphere Semantic parsing Program Query(Shape, Filter(Red)) Object detection(Mask R-CNN) Feature extraction(ResNet-34) ④
  • 9. ConfidentialCopyright © 2019 Future Corporation Q: What is the shape of the red object? Neuro-Symbolic Reasoningモジュール Semantic parsing Program Query(Shape, Filter(Red)) Object detection(Mask R-CNN) Feature extraction(ResNet-34)
  • 10. ConfidentialCopyright © 2019 Future Corporation Q: What is the shape of the red object? 色のベクト ルに変換す るNN Color Representation Semantic parsing Neuro-Symbolic Reasoningモジュール Program Query(Shape, Filter(Red)) Object detection(Mask R-CNN) Feature extraction(ResNet-34)
  • 11. ConfidentialCopyright © 2019 Future Corporation Q: What is the shape of the red object? 形のベクト ルに変換す るNN Shape Representation Cube Sphere Semantic parsing Neuro-Symbolic Reasoningモジュール Program Query(Shape, Filter(Red)) Object detection(Mask R-CNN) Feature extraction(ResNet-34)
  • 12. ConfidentialCopyright © 2019 Future Corporation Neuro-Symbolic Reasoningの学習 Q: What is the shape of the red object? Semantic parsing Program Query(Shape, Filter(Red)) Object detection(Mask R-CNN) Feature extraction(ResNet-34) A: Cube Groundtruth: Sphere ✘ Backprop Reinforce
  • 13. ConfidentialCopyright © 2019 Future Corporation Curriculum Learning
  • 14. ConfidentialCopyright © 2019 Future Corporation 実験 ‣ CLEVRデータセットに対して精度評価 ‣ 立方体や球などが複数配置された画像と、質問、回答がペアになった データセット ‣ 訓練データ: 70K,開発データ: 15K,評価データ: 15K ‣ 訓練データの全てを使用した場合、一部(7K)を使用した場合でそれぞれ 精度比較
  • 15. ConfidentialCopyright © 2019 Future Corporation 実験 比 較 手 法 比 較 手 法 比 較 手 法 提 案 手 法 提 案 手 法 比 較 手 法 比 較 手 法 比 較 手 法
  • 16. ConfidentialCopyright © 2019 Future Corporation 考察
  • 17. ConfidentialCopyright © 2019 Future Corporation まとめ ‣ 視覚的な概念(形や色)、単語や文の意味解析をそれぞれ個々に学習する手法 Neuro-Symbolic Concept Learnerを提案 ‣ 必要なのは画像とQとAのみ ‣ 少ない学習データ量でも高い精度を実現 ‣ 回答を出力するまでのプロセスを説明できることを示した
  • 18. Copyright © 2019 Future Corporation Confidential of Wikipedia: Knowledge-Powered Conversational Agents Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, Jason Weston (Facebook AI Research)
  • 19. ConfidentialCopyright © 2019 Future Corporation ざっくり言うと ‣ Wizard of Wikipediaデータセットの作成、公開 ‣ 知識を問うような質問のデータセット、評価指標がない ‣ Wikipediaから知識を検索し、会話を行う作業を実施し作成 ‣ 質問応答システムの手法 Transformer Memory Network を提案 ‣ オープンドメインな対話において、上手く知識を扱えるようにしたいが、 現状の対話システム(e.g. seq2seq, transformerなど)では、知識や記憶保持に限界 がある
  • 20. ConfidentialCopyright © 2019 Future Corporation The Wizard of Wikipedia dataset ‣ 二人の人間がチャットで雑談をする際のデータを収集する ‣ 知識を与える人といろいろ聞く人の対話データ ‣ 約21万発話のデータが収集できた wizardが参照 した知識
  • 21. ConfidentialCopyright © 2019 Future Corporation 発話生成の手法で得られた発話例
  • 22. ConfidentialCopyright © 2019 Future Corporation データセットのリンク https://parl.ai/projects/wizard_of_wikipedia/