SlideShare a Scribd company logo
1 of 16
Download to read offline
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Relational Neural Expectation Maximization:
Unsupervised Discovery of Objects and Their Interactions
(ICLR 2018) ”
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• タイトル: “Relational Neural Expectation Maximization:
: Unsupervised Discovery of Objects and Their Interactions
(ICLR 2018) ” https://arxiv.org/abs/1802.10353
• 著者: Sjoerd van Steenkiste, et.al
Swiss AL Lab IDSIA, SUPSI, USI
• 概要:
– 人間の知覚と同様に、機械が実世界の物体集合の複雑な物理現象を学習しその動きを予
測する能力を獲得
– 知覚データを個別物体にグルーピングすることで複雑な物体の集合を個別物体に区分し
将来の動きを予測
– 個別物体を隠れ確率変数、観測データが動画イメージとして生成モデルを構築
– 教師無しデータでRelational Expectation Maximization法を提案
– 例:バウンシングボール
• 選定理由:
– 視覚が複数の物体をグルーピング(クラスタリング)を通して分離するという点 2
適用例
• ビデオクリップ:バウンシングボール
– https://sites.google.com/view/r-nem-gifs
3
アジェンダ
• 背景
• これまでの手法
• Neural Expectation Maximizationの手法
• Relational Expectation Maximization
– 手法
– 実験
• まとめ
4
背景
• 人間は日々の活動で、
– 行動後の結果を予測
– 隠れて見えない物体の状態を予測
することができる。⇒ 人間は常識的物理推論で因果関係を把握できるから。
• 常識的物理推論とは:以下を遂行する能力。
– 複数物体の世界から個別の物体を発見
– 個々の物体を表現し
– 複数間の物体の関係性を記述し、
– 複数の物体のダイナミクスと相互作用の関係を推測する
• 将来のエージェント:
– 実世界の因果関係を理解するために、人間が持つ常識物理推論は必要不可欠な要素
• 常識物理推論の例:
– 弾性衝突に準じたバウンシングボールの動き 5
これまで方法
• 方法1:シンボリックな物理エンジンを作成しそのパラメータを推測
⇒ 本プレゼンの対象外
• 方法2:システム状態を推測するNeural Network(NN)を構築
– 方法2A: 物理シュミレータで教師データを作成、NNのパラメータを教師有り学習
⇒ 教師データの作成が難題 ⇒ 本プレゼンの対象外
– 方法2B: 教師無し学習でNNを学習
• Recurrent Ladder Tagger: (RTAGGER) ⇒ 本プレゼンの対象外
• Neural Expectation Maximization (N-EM)、 派生(RNN-EM)
• Relational Neural Expectation Maximization (R-NEM)
6
Neural Expectation Maximization方法(N-EM/RNN-EM)
• 課題:複数のバウンシングボールの動きをある時間分の連続イメージ画像
で学習して、その後のバウンシングボールの動きを推定する
– イメージ画像:
– 物体k (k=1,..,K)の物体パラメータ:
– 物体パラメータ が与えられた時に、ピクセルiで物体kが占有する確率
:ピクセル毎に独立だが、ピクセル毎に確率値(分布)は異なる
– Non-Linear Neural Network (φで微分可能):
– 隠れ確率変数: ピクセルiにおける物体kの真実の占有状態:
ピクセルiが物体kに占有された場合に それ以外0⇒
– が与えられた時のピクセルiの値xiの条件付き確率 を最大
にする を求める。残念ながら解析的な解はないが逐次近似解あり
7
Neural Expectation Maximization方法 (N-EM/RNN-EM)
• しかし の周辺化があるので を で最大化する方が楽。
• さらに、Expectation Maximization法から の最大化と同等!
• これは、 Expectation Maximization法の二段の逐次最適化Step、
– Expectation-step: θを固定してピクセルiの物体kへの帰属分布を更新:
– Maximization-step: を固定して, θを更新:
で、 とθの最適値を求める。
• Non-Linear Neural Network の係数は下記Lossの最小化からBPTT/Adamsで事前に学習
する
8
RNNは時
間Stepに
渡ってθの
最適化を
もたらす
時間Step
tn
tn+1
Relational Neural Expectation Maximization方法
• N-EM、RNN-EMの弱点:
– 異なる物体パラメータ 間の関係性や相互作用の表現が欠落
• 物体パラメータ二者間(θk、θi、k≠i)関係性・相互作用関数を設定:
:連結、 多層パーセプトロン
– :物体iのダイナミクスに焦点を当てた表現
– :シェアembedding: ペーア の相互作用
– :物体iの物体kに対する影響度
– :物体iと物体kの相互作用が起こることを事前にAttention
• 時間step tの と直前stepの との関係は以下の関係
9
Relational Neural Expectation Maximization方法
• Non-Linear Neural Network の係数と の係数を、Lossの最小化か
ら事前に学習。係数をfixしてから予測
10
ノイズ付
加入力x
オリジナ
ル入力x
再構成x=
各物体ψk
毎の確率
Relational Neural Expectation Maximization(R-NEM)実験
• 実験:バウンシングボール
– 入力シークエンス(sq):イメージ動画、64 x64 binary image x 30 time step
– ボールのタイプは二つ(A,B):重さA:B=1:6、半径1:1.25
– ボールの初期位置と初速:ランダム
– ボールの衝突:ボール間、ボールー壁間、いずれも完全弾性衝突
– 学習データ50000sq、Validationデータ10000sq、テストデータ10000sq
– Network fφの形状 -物体パラメータ間 の形状
11
Relational Neural Expectation Maximization(R-NEM)実験
• 4ボールで学習済のNNに、4ボールでテスト
12
ノイズ付
加入力x
オリジナ
ル入力x
再構成x=
各物体ψk
毎の確率
Relational Neural Expectation Maximization(R-NEM)実験
• 左:学習時ボールの数4個、Test時4個の場合
Total Loss: Binomial Cross Entropy, Relational BCE(相互作用発生物体間)⇒ R-NEMがBest
• 中央:学習時ボールの数4個、Test時に6-8個に増加した場合 ⇒ R-NEMがBest
• 右:Compositionality Measurement:ψが単一物体を表現する割合⇒80%程度と良好
ARI(Adjusted Rand Index) : ピクセル毎に含まれる物体毎の比率
13
Relational Neural Expectation Maximization(R-NEM)実験
• 課題:イメージ画面の特定位置に覆いが有ってボールの動きが見えなく
とも、覆いが無いのと同じ動きの推測が可能。
• 左から5時間step:学習、右から10時間stepが推測
14
R-NEM
再構成
まとめ
• シーンから物体に関する情報を見つけて表現する能力が、常識物理推測
に必要不可欠な要素である。
• 特に物体間の関係性や相互作用を記述する能力は、常識物理推測を向上
させることが分かった。
• 物体間の関係性や相互作用を記述した機能を付加したRelational Neural
Expectation Maximizationが、バウンシングボールで最高性能を達成した。
15
END
16

More Related Content

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Recently uploaded (9)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

[DL輪読会]Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ “Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and Their Interactions (ICLR 2018) ” Hiroshi Sekiguchi, Morikawa Lab
  • 2. 書誌情報 • タイトル: “Relational Neural Expectation Maximization: : Unsupervised Discovery of Objects and Their Interactions (ICLR 2018) ” https://arxiv.org/abs/1802.10353 • 著者: Sjoerd van Steenkiste, et.al Swiss AL Lab IDSIA, SUPSI, USI • 概要: – 人間の知覚と同様に、機械が実世界の物体集合の複雑な物理現象を学習しその動きを予 測する能力を獲得 – 知覚データを個別物体にグルーピングすることで複雑な物体の集合を個別物体に区分し 将来の動きを予測 – 個別物体を隠れ確率変数、観測データが動画イメージとして生成モデルを構築 – 教師無しデータでRelational Expectation Maximization法を提案 – 例:バウンシングボール • 選定理由: – 視覚が複数の物体をグルーピング(クラスタリング)を通して分離するという点 2
  • 4. アジェンダ • 背景 • これまでの手法 • Neural Expectation Maximizationの手法 • Relational Expectation Maximization – 手法 – 実験 • まとめ 4
  • 5. 背景 • 人間は日々の活動で、 – 行動後の結果を予測 – 隠れて見えない物体の状態を予測 することができる。⇒ 人間は常識的物理推論で因果関係を把握できるから。 • 常識的物理推論とは:以下を遂行する能力。 – 複数物体の世界から個別の物体を発見 – 個々の物体を表現し – 複数間の物体の関係性を記述し、 – 複数の物体のダイナミクスと相互作用の関係を推測する • 将来のエージェント: – 実世界の因果関係を理解するために、人間が持つ常識物理推論は必要不可欠な要素 • 常識物理推論の例: – 弾性衝突に準じたバウンシングボールの動き 5
  • 6. これまで方法 • 方法1:シンボリックな物理エンジンを作成しそのパラメータを推測 ⇒ 本プレゼンの対象外 • 方法2:システム状態を推測するNeural Network(NN)を構築 – 方法2A: 物理シュミレータで教師データを作成、NNのパラメータを教師有り学習 ⇒ 教師データの作成が難題 ⇒ 本プレゼンの対象外 – 方法2B: 教師無し学習でNNを学習 • Recurrent Ladder Tagger: (RTAGGER) ⇒ 本プレゼンの対象外 • Neural Expectation Maximization (N-EM)、 派生(RNN-EM) • Relational Neural Expectation Maximization (R-NEM) 6
  • 7. Neural Expectation Maximization方法(N-EM/RNN-EM) • 課題:複数のバウンシングボールの動きをある時間分の連続イメージ画像 で学習して、その後のバウンシングボールの動きを推定する – イメージ画像: – 物体k (k=1,..,K)の物体パラメータ: – 物体パラメータ が与えられた時に、ピクセルiで物体kが占有する確率 :ピクセル毎に独立だが、ピクセル毎に確率値(分布)は異なる – Non-Linear Neural Network (φで微分可能): – 隠れ確率変数: ピクセルiにおける物体kの真実の占有状態: ピクセルiが物体kに占有された場合に それ以外0⇒ – が与えられた時のピクセルiの値xiの条件付き確率 を最大 にする を求める。残念ながら解析的な解はないが逐次近似解あり 7
  • 8. Neural Expectation Maximization方法 (N-EM/RNN-EM) • しかし の周辺化があるので を で最大化する方が楽。 • さらに、Expectation Maximization法から の最大化と同等! • これは、 Expectation Maximization法の二段の逐次最適化Step、 – Expectation-step: θを固定してピクセルiの物体kへの帰属分布を更新: – Maximization-step: を固定して, θを更新: で、 とθの最適値を求める。 • Non-Linear Neural Network の係数は下記Lossの最小化からBPTT/Adamsで事前に学習 する 8 RNNは時 間Stepに 渡ってθの 最適化を もたらす 時間Step tn tn+1
  • 9. Relational Neural Expectation Maximization方法 • N-EM、RNN-EMの弱点: – 異なる物体パラメータ 間の関係性や相互作用の表現が欠落 • 物体パラメータ二者間(θk、θi、k≠i)関係性・相互作用関数を設定: :連結、 多層パーセプトロン – :物体iのダイナミクスに焦点を当てた表現 – :シェアembedding: ペーア の相互作用 – :物体iの物体kに対する影響度 – :物体iと物体kの相互作用が起こることを事前にAttention • 時間step tの と直前stepの との関係は以下の関係 9
  • 10. Relational Neural Expectation Maximization方法 • Non-Linear Neural Network の係数と の係数を、Lossの最小化か ら事前に学習。係数をfixしてから予測 10 ノイズ付 加入力x オリジナ ル入力x 再構成x= 各物体ψk 毎の確率
  • 11. Relational Neural Expectation Maximization(R-NEM)実験 • 実験:バウンシングボール – 入力シークエンス(sq):イメージ動画、64 x64 binary image x 30 time step – ボールのタイプは二つ(A,B):重さA:B=1:6、半径1:1.25 – ボールの初期位置と初速:ランダム – ボールの衝突:ボール間、ボールー壁間、いずれも完全弾性衝突 – 学習データ50000sq、Validationデータ10000sq、テストデータ10000sq – Network fφの形状 -物体パラメータ間 の形状 11
  • 12. Relational Neural Expectation Maximization(R-NEM)実験 • 4ボールで学習済のNNに、4ボールでテスト 12 ノイズ付 加入力x オリジナ ル入力x 再構成x= 各物体ψk 毎の確率
  • 13. Relational Neural Expectation Maximization(R-NEM)実験 • 左:学習時ボールの数4個、Test時4個の場合 Total Loss: Binomial Cross Entropy, Relational BCE(相互作用発生物体間)⇒ R-NEMがBest • 中央:学習時ボールの数4個、Test時に6-8個に増加した場合 ⇒ R-NEMがBest • 右:Compositionality Measurement:ψが単一物体を表現する割合⇒80%程度と良好 ARI(Adjusted Rand Index) : ピクセル毎に含まれる物体毎の比率 13
  • 14. Relational Neural Expectation Maximization(R-NEM)実験 • 課題:イメージ画面の特定位置に覆いが有ってボールの動きが見えなく とも、覆いが無いのと同じ動きの推測が可能。 • 左から5時間step:学習、右から10時間stepが推測 14 R-NEM 再構成