人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人

人間とのインタラクションにより
言葉と行動を学習するロボット
岡山県立大学
情報工学部情報通信工学科
人工知能学研究室
岩橋直人
1

内容
1. 対話技術の現状
2. 動作と言語によるコミュニケーション学習機構
L‐Core の概要
3. 物体概念の学習
4. 動作の模倣学習
5. 連続音声からの語彙の学習
6. 共有信念に基づく発話理解の学習
7. 共有信念に基づく発話生成
8. 確認発話生成
9. 実世界に関する質問応答の学習
10. まとめ
2

4
言語理解のスペクトラム（Shank 85)
SHRDLU(72)
有意味
固定された構造によって
のみ解釈され他者の理解
を参照しない
認知的理解
経験に基づいて学習したり
変化する，現在の経験を過
去の経験に知的に関連付け
る，などができる
完全な感情移入
互いのすべての動きや動機が
わかる親しい者同士の理解
従来技術
(ELIZA(66))

2. 動作と言語によるコミュニケーション
学習機構 L‐Core の概要
5

ロボット対話
実世界情報をカテゴリ化、予測し、実世界を操作可能
な対話システム
日常生活支援ロボットの対話機能は、現状ではまった
く不十分である
ロボットの対話技術はとても難しい！
どうして？
従来の言語処理では、
記号の意味は記号で記述されている
ユーザーと物理世界に関する共有信念を形成できない
「いつものあれ持ってきて」
「これを引き出しにもどしておいて」
6はじめに

共有信念はコミュニケーションの基盤
7はじめに
翔太: コーヒーを飲むかい
美咲: コーヒーを飲むと目が覚めるわ
美咲は、目を覚ましたいので申し出を受けたい。
美咲は、目を覚ましたくないので申し出を断りたい。
翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。
翔太は、美咲が目を覚ましたくないので申し出を断った、と思った。

共有信念はコミュニケーションの基盤
8はじめに
翔太: コーヒーを飲むかい
美咲: コーヒーを飲むと目が覚めるわ
美咲は、目を覚ましたいので申し出を受けたい。
翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。

実世界
ロボット
信念
拡張性
記号接地
ユーザ
信念
共有
9
ロボット対話の三つの要件

対話処理の記号創発的アプローチ
L‐Core
幼児のようにコミュニケーションを自律的に
学習する手法
10

L‐Coreの信念システム
12

共有信念関数
Ψ(s,a)
個別確信度
ベクトル
動作-オブジェクト
関係
行動
コンテキスト
音声言語動作物体
L‐Coreの信念システム
全体確信度関数 f(d)
発話と行動の生成と理解
13

L‐Core の機能
ロボットに向けられた発話
の検出
状況依存的発話理解
確認発話生成
実世界に関する質問応答
役割反転模倣
自律的オンライン物体学習
音韻学習
物体概念学習
動作模倣学習
語彙学習
文法学習
語用法学習
14

マルチモーダル情報の取得
物体のマルチモーダルカテゴリゼーション

視覚情報・聴覚情報
SIFTSIFT
物体を観察局所的な特徴量
211
ベクトル量子化
500次元
ヒストグラム
wavewave
物体を振り音を取得
フレームを
13次元MFCCに変換
211
50次元
ヒストグラム
視覚情報
聴覚情報
特徴の発生回数
(Bag of features)

触覚情報
物体を掴む
触覚情報
角度変化量
圧力
211
5次元
ヒストグラム
角度変化量
物体がどれだけつぶれたか？
柔らかさ
一定負荷時の圧力
物体からの応力
硬さ
ハンドの構成取得した特徴量
Pressure Sensor × 4
Actuator ×4

マルチモーダルLDA
• 文書 ⇒ 物体
• 単語 ⇒ マルチモーダル情報 w*
• トピック ⇒ カテゴリ z
• パラメタ推定することで物体の分類
が可能
Nvα θ z wv βv
wa βa
wh βh
Na
Nh
M
視覚
聴覚
触覚
α ：ディリクリ事前分布
θ ：多項分布のパラメータ
z ：カテゴリ
w* ：モーダル情報
β* ：多項分布のパラメータ
丸、音無し
やわらかい….
丸、シャカシャカ
鳴る、硬い….
カテゴリ1
（ぬいぐるみ）
カテゴリ2
（マラカス）
LDALDA
LDALDA

物体概念の構築
• 物体を分類することで、物体概念を構築
– 視覚・聴覚・触覚情報を様々な組み合わせで構築
• 人の分類と比較
– 人の分類：８人の被験者共通に現れた分類
• 40個のおもちゃ8カテゴリを使用

分類結果
Category ID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
CategoryID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
人手による分類（正解）視覚情報のみによる分類
マルチモーダルカテゴリゼーション
Category ID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
 マルチモーダル情報を
用いることで人手と同じ
分類が可能
 マルチモーダル情報を
用いることで人手と同じ
分類が可能
ObjectID
ObjectID
Category ID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
視覚・聴覚
ObjectID
ObjectID

未観測情報の推定
未知物体のカテゴリ認識
カテゴリを通したクロスモーダル予測
視覚情報から聴覚情報を予測
視覚情報から触覚情報を予測
聴覚と触覚情報から視覚情報を予測
・・・
視視
聴聴
触触
カ
テ
ゴ
リ
カ
テ
ゴ
リ

24
動作の模倣学習
課題：単語音声と物体操作のペアから動詞とそ
の意味を学習する
難しさ：非観測情報の推測
参照点
座標系
*羽岡, 岩橋, “言語獲得のための参照点に…,” IEICE技研報告 PRMU2000‐105, pp.39‐46, 2000.

ランドマークと座標系の例
25
飛び越えさせる
近づかせる乗せる
持ち上げる

参照点に依存したHMMによる動作の
学習
26
HMM
0
0
動作「のせる」
出力正規分布
HMMは時系列信号の確率モデル
複数軌道を入力して一つのHMMを学習する
「のせる」の学習データ

参照点に依存したHMMによる軌道生成
軌道は、HMMの尤度（確率）が最も高くなる
ように生成する
入力：動作ID, 参照点
出力：最尤軌道
27
0
0
動作「のせる」
参照点
元の位置

参照点に依存したHMMによる動作と
ランドマークの認識
28
飛び越えさせる
近づかせる乗せる
持ち上げる

動作模倣学習デモビデオ
29

5. 連続音声からの語彙の学習
30

こ
こ
は
会
議
室
の
前
で
す
問題点
１．発話中のどこが場所
名かわからない
２．音声認識誤りが生じる
３．意味（指示対象の分
布）がわからない
ロボットは単語の知識を持たない（音声は音素列として認識）
問題設定
発話と指示対象の共起情報から単語の音素系列とその意味を学習
ここおあ
かいでぃひつのまえ
か
い
で
ぃ
ひ
つ
の
ま
え

32
トラッキングの様子
早
送
り
映
像
自律移動ロボットを使用した場所名の学習
地図の生成
愛知万博での鬼ごっこデモ
自律移動ロボットASKA
LRF

学習データ：９０組の発話と位置座標
33
1 デル部屋
2 梅崎研秘書室
3 梅崎先生の部屋
4 小竹研究室
5 加藤研究室
6 徳丸研究室
7 インターンシップ推進室
8 専攻会議室
9 夢空間
10 コミュニケーションスペース
1 ここが X です
2 ここの名前は X だよ
3 この場所は X  っていうんだ
4 X  です
5 X  だよ
6 X  っていうんだ
7 ここが X
8 ここの名前は X
9 この場所は X
(X は場所名を表す)
キーワード（10 種類）言いまわし（9 種類）
自己位置推定で得られた位置座標と対応するキーワード
1 2
34
5
6
7
8
9
10

実験結果：獲得されたキーワード
34
うめだきせえせえのへや
（梅崎先生の部屋）
あめぜきてんせえのへあ
でれべや
（デル部屋）
いんたあしいとぅすいしんしつ
（インターンシップ推進室）
ゆめくうかん
（夢空間）
かとおけんけえしつ
（加藤研究室）
こみにけえしのすぺえす
（コミュニケーションスペース）
めえせきせえせえのへや
めぜけんししょしつ
（梅崎研秘書室）
おだけきんけえしつ
（小竹研究室）
せんこおかいぎしつ
（専攻会議室）
とくまでけんきえしつ
（徳丸研究室）
80% の音素正解精度で単語を獲得

提案手法の概要
36
三種類の確率モデル（音響，文法，語意）を統合
発話
a
対象
o
文法音響語意
単語列
s
HMM
N‐gram
 
 )|(log)(log)|(logmax
)|()()|(log),(log
sPsPsP
sPsPsPP
s
s
oa
oaoa

 

一般の音声認識
音素系列の統計量に基づき初期の単語セットを生成
少ない単語数でモデルの尤度が高くなるように
単語の削除（MDL基準）と連結を繰り返す

語意のモデル
37
発話
a
対象
o
単語列
s
単語列と対象の関係
HMM
N‐gram
単語と対象の関係を2次元正規分布でモデル化


n
i
ii woPr
1
)|( ir : 意味の重み
)|,()|( wyxPwoP 















 








yx
yxxy
y
y
x
x
xyxyyx
yxyx







))((2)()(
)1(2
1
exp
12
1
2
2
2
2
22
: 単語iw)|( soP
xx : の分散 xyxy : の相関係数
yy : の分散
の平均xx :
の平均yy :

語意のモデル
発話
a
対象
o
単語列
s
単語列と対象の関係
HMM
N‐gram
38
P(x,y | w)
x
y
「うめざきけんひしょしつ」
「せんこうかいぎしつ」

学習の様子
39
１：ここのなまえわ／うめざえ／けえひ／しょ／すだよ
２：ここのなまえわ／うめざえけえひしょ／すざよ
４：ここのなまえわ／うめざえけえひしょ／すだよ
５：ここのなまえわ／うめざえけえひしょしつ／だよ
１０：ここのなまえわ／うめざえっけんいひしょあしつ／だよ
モ
デ
ル
選
択
の
回
数
教示内容：「ここの名前は梅崎研秘書室だよ」
音素認識：ここのなまあうわうめざえけんしょおすざよ
９０組の発話と位置座標のデータを用いてバッチ学習
モデル選択前２５８単語 → モデル選択後２０単語

6. 共有信念に基づいた発話理解の
学習
40

共有信念関数
Ψ(s,a)
個別確信度
ベクトル
動作-オブジェクト
関係
行動
コンテキスト
音声言語動作物体
信念システム
全体確信度関数 f(d)
発話と行動の生成と理解
42

共有信念関数
43

 

1
,
2
3
4
5
( , ) max log ( | ; , )
log ( | ; ) log ( | ; )
log ( | ; )
log ( , | ; )
log ( , | ; )
l z
T L
M
M
s a p s z L G
p t W L p l W L
p u W L
p t l W R
p t l q H





 
 



個別確信度ベクトル
MCE 学習 ML/MAP 学習
信念モジュール
音声言語 HMMs
物体画像
Gaussians
動作 HMMs
動作‐オブジェクト関係
Gaussians
行動のコンテキスト
Multinominal distribution

発話理解
44
 arg max ( , ) 
A
a s A
最適動作入力音声
可能な動作

最適化の過程
0
20
40
60
80
100
120
140
1 2
系列5
系列4
系列3
系列2
系列1
音声認識結果：
1st: カーミット青い箱持ち上げて
2nd:カーミット青い箱のせて
発話：“カーミット青い箱のせて”
行動コンテキスト
動作‐オブジェクト
関係
動作
物体
音声言語
Optimal
Second
Ψ(s,a)

実験
96 発話‐シーンサンプルペア
詳細な発話と、曖昧で断片的な発話を含む
語彙
50物体に対して60 単語, 7動作に対して7単語
学習エピソード数の影響を評価
Leave‐one‐out cross validation
46

オンライン MCE 学習
‐0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
0 10 20 30 40 50 60 70 80 90
Local confidence value
系列1
系列2
系列3
系列4
系列5
系列6
Speech
Object
Motion‐object relationship
Motion
Holding
Previously moved
The number of episodes
47
個別確信度ベクトル
エピソード数

理解率の改善
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90
Understanding rate (%)
系列1
The number of episodes
38%
48
エピソード数
音声理解率（％）

共有信念に基づいた発話理解
“飛び越えさせて” “のせて”
49

共有信念に基づいた発話理解
50

１２３
U
概念構造
51
“小さいカーミット茶色い箱乗せて”
トラジェクタ : 1 : 小さいカーミット
ランドマーク : 3 : 茶色い箱
軌道 : U : 乗せて
概念構造 Z
構文構造
[小さいカーミット] [茶色い箱] [乗せて]
意味構造
トラジェクタランドマーク
軌道

格助詞を含む構文の概念構造
52
意味構造
軌道
トラジェクタランドマーク
１２３
U
構文構造
[小さいカーミットを] [茶色い箱に]
[乗せて]
“小さいカーミットを茶色い箱に乗せて”
物体_トラジェクタ : 1 : 小さいカーミット _を
物体_ランドマーク : 3 : 茶色い箱 _に
軌道 : U : 乗せて
概念構造 Z
c
vc
v

54
L‐Coreの技術的位置付け
SHRDLU(72)
有意味
を参照しない
認知的理解
最新技術
言語理解のスペクトラム（Shank 85)
L‐Core(13)

まとめ
L‐Core
ユーザ信念と物理世界状況に依存した信念シ
ステム
認知的言語理解の達成
多機能統合に成功
頑健性、実用性の向上が必要
57

今後の展開
ユーザの行動習慣の学習
時間の概念「きのう見せたペンを持ってき
て」
ペット、フルーツ、道具などの、抽象度の高い
意味を持つ語彙の学習
動作学習と言語学習の統一原理追求
…
58

59
新しいアプローチ
SHRDLU(72)
有意味
を参照しない
認知的理解
最新技術
(ELIZA(66))

人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人

Similar to 人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人 (17)

More from KIT Cognitive Interaction Design

More from KIT Cognitive Interaction Design (20)

人間とのインタラクションにより言葉と行動を学習するロボット, 岩橋直人