More Related Content Similar to 人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人 (17) More from KIT Cognitive Interaction Design (20) 人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人19. マルチモーダルLDA
• 文書 ⇒ 物体
• 単語 ⇒ マルチモーダル情報 w*
• トピック ⇒ カテゴリ z
• パラメタ推定することで物体の分類
が可能
Nvα θ z wv βv
wa βa
wh βh
Na
Nh
M
視覚
聴覚
触覚
α : ディリクリ事前分布
θ : 多項分布のパラメータ
z : カテゴリ
w* : モーダル情報
β* : 多項分布のパラメータ
物体のマルチモーダルカテゴリゼーション
丸、音無し
やわらかい….
丸、シャカシャカ
鳴る、硬い….
カテゴリ1
(ぬいぐるみ)
カテゴリ2
(マラカス)
LDALDA
LDALDA
21. 分類結果
Category ID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
CategoryID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
人手による分類(正解) 視覚情報のみによる分類
マルチモーダルカテゴリゼーション
Category ID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
マルチモーダル情報を
用いることで人手と同じ
分類が可能
マルチモーダル情報を
用いることで人手と同じ
分類が可能
ObjectID
ObjectID
Category ID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
視覚・聴覚
ObjectID
ObjectID
物体のマルチモーダルカテゴリゼーション
31. こ
こ
は
会
議
室
の
前
で
す
問 題 点
1. 発話中のどこが場所
名かわからない
2. 音声認識誤りが生じる
3.意味(指示対象の分
布)がわからない
ロボットは単語の知識を持たない(音声は音素列として認識)
問 題 設 定
発話と指示対象の共起情報から単語の音素系列とその意味を学習
ここおあ
かいでぃひつのまえ
か
い
で
ぃ
ひ
つ
の
ま
え
33. 学習データ:90組の発話と位置座標
33
1 デル部屋
2 梅崎研秘書室
3 梅崎先生の部屋
4 小竹研究室
5 加藤研究室
6 徳丸研究室
7 インターンシップ推進室
8 専攻会議室
9 夢空間
10 コミュニケーションスペース
1 ここが X です
2 ここの名前は X だよ
3 この場所は X っていうんだ
4 X です
5 X だよ
6 X っていうんだ
7 ここが X
8 ここの名前は X
9 この場所は X
(X は場所名を表す)
キーワード (10 種類) 言いまわし (9 種類)
自己位置推定で得られた位置座標と対応するキーワード
1 2
34
5
6
7
8
9
10
43. 共有信念関数
43
1
,
2
3
4
5
( , ) max log ( | ; , )
log ( | ; ) log ( | ; )
log ( | ; )
log ( , | ; )
log ( , | ; )
l z
T L
M
M
s a p s z L G
p t W L p l W L
p u W L
p t l W R
p t l q H
個別確信度ベクトル
MCE 学習 ML/MAP 学習
信念モジュール
音声言語 HMMs
物体画像
Gaussians
動作 HMMs
動作‐オブジェクト関係
Gaussians
行動のコンテキスト
Multinominal distribution