人間とのインタラクションにより
言葉と行動を学習するロボット
岡山県立大学
岩橋直人
1
内容
1. 対話技術の現状
2. 動作と言語によるコミュニケーション学習機構
L‐Core の概要
3. 動作の模倣学習
4. 連続音声からの語彙の学習
5. 状況依存的発話理解の学習
6. 確認発話生成
7. 実世界に関する質問応答の学習
8. まとめ
2
ロボット対話
実世界情報をカテゴリ化、予測し、実世界を操作可能
な対話システム
日常生活支援ロボットの対話機能は、現状ではまった
く不十分である
ロボットの対話技術はとても難しい!
どうして?
従来の言語処理では、
記号の意味は記号で記述されている
ユーザーと物理世界に関する共有信念を形成できない
「いつものあれ持ってきて」
「これを引き出しにもどしておいて」
3はじめに
共有信念はコミュニケーションの基盤
4はじめに
翔太: コーヒーを飲むかい
美咲: コーヒーを飲むと目が覚めるわ
美咲は、目を覚ましたいので申し出を受けたい。
美咲は、目を覚ましたくないので申し出を断りたい。
翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。
翔太は、美咲が目を覚ましたくないので申し出を断った、と思った。
共有信念はコミュニケーションの基盤
5はじめに
翔太: コーヒーを飲むかい
美咲: コーヒーを飲むと目が覚めるわ
美咲は、目を覚ましたいので申し出を受けたい。
翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。
実世界
ロボット
信念
拡張性
グラウンディング
ユーザ
信念
共有
6
ロボット対話の三つの要件
対話処理の記号創発的アプローチ
L‐Core
幼児のようにコミュニケーションを自律的に
学習する手法
7
L‐Coreの信念システム
8
共有信念関数
Ψ(s,a)
個別確信度
ベクトル
動作-オブジェクト
関係
行動
コンテキスト
音声言語 動作物体
L‐Coreの信念システム
全体確信度関数 f(d)
発話と行動の生成と理解
9
L‐Core の機能
ロボットに向けられた発話
の検出
状況依存的発話理解
確認発話生成
実世界に関する質問応答
役割反転模倣
自律的オンライン物体学習
音韻学習
物体概念学習
動作模倣学習
語彙学習
文法学習
語用法学習
10
11
動作の模倣学習
課題:単語音声と物体操作の ペア から動詞とそ
の意味を学習する
難しさ: 非観測情報の推測
参照点
座標系
*羽岡, 岩橋, “言語獲得のための参照点に…,” IEICE技研報告 PRMU2000‐105, pp.39‐46, 2000.
ランドマークと座標系の例
12
飛び越えさせる
近づかせる乗せる
持ち上げる
HMMによる動作の学習
13
HMM
0
0
動作「のせる」
出力正規分布
HMMは時系列信号の確率モデル
複数軌道を入力して一つのHMMを学習する
「のせる」の学習データ
参照点に依存したHMMによる軌道生成
軌道は、HMMの尤度(確率)が最も高くなる
ように生成する
入力: 動作ID, 参照点
出力: 最尤軌道
14
0
0
動作「のせる」
参照点
元の位置
問 題 設 定
15
ここは スマートルーム です
ここの名前はスマートルームここの名前はスマートルーム
この場所は スマートルーム
2
1
対象IDこの場所は 会議室の前
指示
1
対象ID
単語や文法の 知識を持たない ロボットが
文音声と指示対象の ペア から単語とその意味を学習する
言い回し
キーワード
このばしぇおあ
かいでぃひつのまえ
提案手法の原理
発話と指示対象の共起確率モデルの学習
統計的モデル構造選択
語彙の学習
16
1
2
3
発話と指示対象の共起確率モデル
三種類の確率モデル(音響,文法,語意)を統合
W1 WLW0 WL+1 S
発話
A
対象
O
始端 単語 単語 終端 単語列













ss
L
l
ll
L
l
ll
NBests
S
WOPWWPSAP
SOPSPSAPOAP
1
3
0
121 )|(log)|(log);|(logmax
)|()()|(log),(log

文法音響 語意
17
提案手法の流れ
18
学習データ
対象
音声
モデル選択による単語リスト最適化
初期単語リストの構築
語意モデル文法モデル
文法モデルと語意モデルの学習
音素列
w1 k/o/k/o/w/a
w2 g/a/k/u/s/e
w3 b/e/y/a
・
・
・ 部分音素列の種類:約6000種類
(60発話)
単語リストの項目数:約200単語
各部分列の
前後1モーラの情報量
が閾値以上なら追加
単語リスト
かいぎし
かいぎしつ
?? ??
????
モデル選択による単語リスト最適化
19
MDL基準に従って不要な単語を削除する
記述長=-(モデル尤度)+ log(データ数)
データのあてはまりの良さとモデルの自由度とのバランスを取る
自由度
2
モデル尤度= 
データ数
i
ii OAP ),(log
自由度={ 単語数2+2 ×単語数 }+{ 対象数×単語数 }
モデル1 の単語
w1 k/o/k/o/w/a
w2 h/o/k/o/w/a
w3 g/a/k/u/s/e
・・・
モデル2 の単語
w1 k/o/k/o/w/a
w3 g/a/k/u/s/e
・・・
Bigramの確率が高い2単語を連結1
2
提案手法の流れ
20
学習データ
対象
音声
モデル選択による単語リスト最適化
初期単語リストの構築
語意モデル文法モデル
文法モデルと語意モデルの学習
単語リスト
実験用収録音声
21
対象 キーワード 対象 キーワード
1 会議室の前 6 竹内さんのブースの南
2 辻野さんのブース 7 工作室
3 フロアの真ん中 8 アシモの部屋
4 学生部屋の前 9 スマートルーム
5 お茶飲み場 10 スマートルームの入り口
言い回しのパターン
この場所は~ ここは~です ここの名前は~
~の所に行って ~へお願い 今から~へ行って
言い回し6種類 60発話を収録キーワード10種類
音素正解精度は平均 81 %
実験結果( 16名分の平均)
22
203
99
74
51
37
29 25 24 23 23 23
81%
50%
85%
40%
50%
60%
70%
80%
90%
100%
0
50
100
150
200
0 1 2 3 4 5 6 7 8 9 10
音素正解精度
(折れ線グラフ)
単語数(棒グラフ)
単語リスト最適化の回数
獲得単語数 発話の音素正解精度 出力キーワードの音素正解精度
実験結果:提案手法で獲得されたキーワード例
23
正解キーワード 最適化なし 最適化10回
会議室の前 かいすのまえ かいすのまえ
辻野さんのブース つじのさ つじのさうのぶす
フロアの真ん中 なか ふろあどまんなか
学生部屋の前 がくせえべや がくせえべやのまえ
お茶飲み場 おちょ おちゃのいま
竹内さんのブースの南 み たきょいつさんのぶすのみなみ
工作室 こおさくしつ こおさくひつ
アシモの部屋 あしものへや あしものへや
スマートルーム む すもあとるむ
スマートルームの入り口 ち すまとるむのいいぐち
平均音素正解精度 43 % 85%平均 音素正解精度
単語リストの最適化によって分節誤りが修正される
学習中の認識結果の例
発話 「この場所はフロアの真ん中」
音素認識結果: こどばしぇおあふろあのまんがか
(k o d o b a sh e o a h u r o a n o m a ng g a k a)
初期モデル :/  こど /  ば /  しょわ /  ふろあ /  ど /  まんなか /
モデル選択1回:/  この /  ばしょわ /  ふろあどまん /  なか /
モデル選択2回: /  このばしょわ /  ふろあどまんなか /
24
共有信念関数
25

 

1
,
2
3
4
5
( , ) max log ( | ; , )
log ( | ; ) log ( | ; )
log ( | ; )
log ( , | ; )
log ( , | ; )
l z
T L
M
M
s a p s z L G
p t W L p l W L
p u W L
p t l W R
p t l q H





 
 



個別確信度ベクトル
MCE 学習 ML/MAP 学習
信念モジュール
音声言語 HMMs
物体画像
Gaussians
動作 HMMs
動作‐オブジェクト関係
Gaussians
行動のコンテキスト
Multinominal distribution
発話理解
26
 arg max ( , ) 
A
a s A
最適動作 入力音声
可能な動作
最適化の過程
0
20
40
60
80
100
120
140
1 2
系列5
系列4
系列3
系列2
系列1
音声認識結果:
1st: カーミット 青い 箱 持ち上げて
2nd:カーミット 青い 箱 のせて
発話:“カーミット 青い 箱 のせて”
行動コンテキスト
動作‐オブジェクト
関係
動作
物体
音声言語
Optimal
Second
Ψ(s,a)
実験
96 発話‐シーン サンプルペア
詳細な発話と、曖昧で断片的な発話を含む
語彙
50物体に対して60 単語, 7動作に対して7単語
学習エピソード数の影響を評価
Leave‐one‐out cross validation
28
オンライン MCE 学習
‐0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
0 10 20 30 40 50 60 70 80 90
Local confidence value
系列1
系列2
系列3
系列4
系列5
系列6
Speech
Object
Motion‐object relationship
Motion
Holding
Previously moved
The number of episodes
29
個別確信度ベクトル
エピソード数
理解率の改善
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90
Understanding rate (%)
系列1
The number of episodes 
38%
30
エピソード数
音声理解率(%)
2ステップ意思決定過程
1. ロボットは、ただちに動作を開始するか、また
は、確認発話を生成するか、決定する
(whether to)
2. ロボットは、確認発話として何を生成するか、
決定する(what to)
31
最適化過程のマージン
0
20
40
60
80
100
120
140
1 2
系列5
系列4
系列3
系列2
系列1
音声認識結果:
1st: カーミット 青い 箱 持ち上げて
2nd:カーミット 青い 箱 のせて
発話:“カーミット 青い 箱 のせて”
行動コンテキスト
動作‐オブジェクト
関係
動作
物体
音声言語
Optimal
Second
Ψ(s,a)
マージン
33
全体確信度関数Probability  
1.0
0.5
‐50        0       50     100    150     200
Margin d
0.0
strong
weak
‐ +
入力: マージン
出力:
ユーザ発話がロボットによって正しく理解された確率の推定値
ロボット発話がユーザによって正しく理解される確率の推定値
ベイジアンロジスティック回帰で学習
共有信念関数とユーザの共有信念の一致度を評価
確率的意思決定
最大期待効用を生む閾値 0 に基づく意思決定
34
正解
反応
1 0
動作
確認発話
効用
動作 , + 1 ,
確認発話 , + 1 ,
期待効用
推定正解確率 ,
0 1
動作
確認発話
35
理解される確率を制御する発話生成
  arg min f ,
s
s d s a  
最適発話 動作
可能な発話
ターゲット確率
単語の追加による確認発話生成
f(d(s,a)) が  を越えるまで単語を追加
36
箱持ち上げて.
f(d’)
“大きい赤い四角い箱” 0.98
“大きい赤い箱” 0.92
“箱” 0.47
“小さい青い箱” 0.08
“青い箱” 0.01
大きい赤い箱持ち上げて、
いいですか?

リスク低減の評価
37
Failure rate
Rejection rate
Confirmation rate
# of confirmation utt
Baseline  1/4 に減少
発話行為の認識
38
38
コミュニケーション
物理世界
3つのタイプの発話行為
1. ロボットにオブジェクトを記述させる質問
2. ロボットにオブジェクトを指差させる質問
3. オブジェクト操作の命令
青い箱持ち上げて
カーミットどれ?
なに?
今後の展開
ユーザの行動習慣の学習
時間の概念 「きのう見せたペンを持ってき
て」
ペット、フルーツ、道具などの、抽象度の高い
意味を持つ語彙の学習
動作学習と言語学習の統一原理追求
…
39
まとめ
L‐Core
ユーザ信念と物理世界状況に依存した信念シ
ステム
認知的言語理解の達成
多機能統合に成功
頑健性、実用性の向上が必要
40

人間とのインタラクションにより言葉と行動を学習するロボット(岩橋 直人)