I
- 2. 1/22
1.1 研究の背景
サービスロボットへの期待が高まる
人間とのコミュニケーション(言語能力)が重要な要素
従来型ロボットの問題点(タスク依存)
プログラムされた状況しか対応できない
プログラムされていない言葉で話しかけられると・・・
プログラムされていない状況に対応するには?
知らない言葉でも、見たり、聞いたりして意味を獲得
できれば良い
オンラインで追加的に言語能力を獲得
できるロボットが求められている
- 4. 3/22
1.3 既存研究
問題点 ・確率的な処理→大量の学習データが必要
・バッチ処理→オンライン・追加学習ができない
単語グラウンディング
Roy, Pentlandら(2002)
手法:音と映像のクロスモーダル情報を最大化
問題点:静止画像を利用(動的概念を獲得できない)
Yu, Ballardら(2004)
手法:マルチモーダル情報の確率的な対応付け
問題点:物体と単語が1対1に対応、追加学習に問題がある
文法の学習
岩橋ら(2003)
手法:HMMによる動的概念と語順の獲得
問題点:事前にデータを用意し、バッチ学習
- 5. 4/22
1.4 本研究の特徴
実環境で追加的・自律的に概念を獲得
言語の意味を発達的に学習
従来研究に対する優位性
事前知識なしで、概念を分類
1つのデータから学習できる
オンラインで文法(語順)を学習
柔軟な追加学習を実現
- 6. 5/22
1.5 研究に使用したロボット
ステレオカメラ
色、形、位置を取得
自由度:12
(首:2、片腕:5)
指定位置に手を移動
物体を握る・放す
- 7. 6/22
2.1 単語グラウンディング
本研究で扱う単語(4種類)
静的概念
色、形、物体(色と形の組み合わせ)の3種類
色:「赤」
形:「丸」
物体:「りんご」
動的概念
動き
「近づく」
- 8. 7/22
2.2 静的概念の獲得
概念とは
特徴ベクトルをクラスタリング
抽出されたクラスを概念とする
概念と音声ラベルの対応付け
音声の入力数を基に確率的に対応付け
→概念の分類が可能
例 色を表す言葉?
「赤」は 形を表す言葉?
物体を表す言葉?
- 9. 8/22
2.3 特徴ベクトル
色ベクトル(3次元)
RGBの値を0~1に正規化
形ベクトル(8次元)
物体の存在する領域の割合を
形ベクトルの要素とする
中心付近は無視
物体(11次元)
色ベクトル+形ベクトル
- 12. 11/22
2.6 動的概念の獲得
特徴量:軌跡(位置ベクトルの時系列)
軌跡は物体の位置関係によって正規化
動きを表す言葉
音声は文章として与える
未知単語と軌跡を対応付ける
例:「りんご、みかん、近づける」
物体 物体 未知 ※静的概念(りんご、みかん)は
学習済みとする
「近づける」が動きを表すと推定
- 13. 12/22
2.7 概念学習と音声との対応付け
Supervised SOINNによる学習
時系列データの追加学習が可能
軌跡のアップデートが可能 HMMなど
学習データ1つから学習可能 では難しい
軌跡の長さに依存せずに学習
音声
正
規
化 動的概念
さ
れ 近づける
た
軌
跡 回す
- 15. 14/22
3.1 文法の学習
ボトムアップ学習とトップダウン学習の融合
少数の学習例から正しい文法を獲得
アップデート可能
ボトムアップ学習
単語クラスの遷移確率を学習
様々な長さの文章を生成できる
トップダウン学習
実世界の状況との対応付け
文法の解釈が一意に定まる
- 18. 17/22
3.4 少数例からの文法獲得
語順の学習例
「りんご、みかん、近づける」を学習
トップダウン:動作の主体→動作の参照点→動きの種類
ボトムアップ:物体→物体→動き
文章生成の例
※静的概念(メロン、ルビー)は
学習済みとする
「メロン、 ルビー、 近づける」
- 19. 18/22
4.1 実験の概要
実験に使用した物体(9種類)
色(3種類):赤、黄色、緑
形(3種類):丸、三角、四角
提示した動き(6種類)
近づける、遠ざける、またぐ、回す、上げる、下げ
る
- 23. 22/22
5 まとめと課題
実現されたシステム
事前知識のない状態から、発達的に言語能力を獲得
人間とコミュニケーションしながら、オンラインで学習
見たり、聞いたりすることで発達するロボットの
最初の一歩を実現
今後の課題
動作を増やす(現在は6種類)
概念を増やす(現在は、色、形など4種類)
複雑な文法に対応する(現在は「語順」のみ)