I

人間との相互作用に基づく
ヒューマノイドロボット上の語順
と挙動のオンライン学習

東京工業大学
佐藤彰洋賀小淵
小倉和貴長谷川修

電子情報通信学会論文誌, D Vol.J91-D, No.8, pp.2045-2060 (2008)

1/22
1.1 研究の背景
 サービスロボットへの期待が高まる
 人間とのコミュニケーション（言語能力）が重要な要素
 従来型ロボットの問題点（タスク依存）
 プログラムされた状況しか対応できない
 プログラムされていない言葉で話しかけられると・・・
 プログラムされていない状況に対応するには？
 知らない言葉でも、見たり、聞いたりして意味を獲得
できれば良い

 オンラインで追加的に言語能力を獲得
できるロボットが求められている

2/22
1.2 言語獲得における課題
１．単語グラウンディング（単語レベルの意味理解）
 音声パターンと概念（感覚情報）の対応付け

「赤」対応

２．文法の学習（文章レベルの意味理解）
 語順と意味の対応付け
 同じ単語を使っても、語順が違うと違う意味
 「りんご（を）、みかん（に）、近づける」
 「みかん（を）、りんご（に）、近づける」

3/22
1.3 既存研究
問題点・確率的な処理→大量の学習データが必要
・バッチ処理→オンライン・追加学習ができない

 単語グラウンディング
 Roy, Pentlandら（2002）
手法：音と映像のクロスモーダル情報を最大化
問題点：静止画像を利用（動的概念を獲得できない）
 Yu, Ballardら(2004)
手法：マルチモーダル情報の確率的な対応付け
問題点：物体と単語が１対１に対応、追加学習に問題がある
 文法の学習
 岩橋ら(2003)
手法：HMMによる動的概念と語順の獲得
問題点：事前にデータを用意し、バッチ学習

4/22
1.4 本研究の特徴
 実環境で追加的・自律的に概念を獲得
 言語の意味を発達的に学習

 従来研究に対する優位性
 事前知識なしで、概念を分類
 １つのデータから学習できる
 オンラインで文法（語順）を学習
 柔軟な追加学習を実現

5/22
1.5 研究に使用したロボット

 ステレオカメラ
 色、形、位置を取得

 自由度：１２
（首：２、片腕：５）
 指定位置に手を移動
 物体を握る・放す

6/22
2.1 単語グラウンディング
 本研究で扱う単語（４種類）
 静的概念
 色、形、物体（色と形の組み合わせ）の３種類

色：「赤」
形：「丸」
物体：「りんご」
 動的概念
 動き
「近づく」

7/22
2.2 静的概念の獲得

 概念とは
 特徴ベクトルをクラスタリング
 抽出されたクラスを概念とする

 概念と音声ラベルの対応付け
 音声の入力数を基に確率的に対応付け
→概念の分類が可能

例色を表す言葉？
「赤」は形を表す言葉？
物体を表す言葉？

8/22
2.3 特徴ベクトル
 色ベクトル（３次元）
 RGBの値を０～１に正規化
 形ベクトル（８次元）
物体の存在する領域の割合を
形ベクトルの要素とする

中心付近は無視
 物体（１１次元）
 色ベクトル＋形ベクトル

9/22
2.4 静的概念の形成
 SOINNによるクラスタリングの例

10/22
2.5 音声との対応付け

11/22
2.6 動的概念の獲得
 特徴量：軌跡（位置ベクトルの時系列）
 軌跡は物体の位置関係によって正規化

 動きを表す言葉
 音声は文章として与える
 未知単語と軌跡を対応付ける

例：「りんご、みかん、近づける」

物体物体未知 ※静的概念（りんご、みかん）は
学習済みとする

「近づける」が動きを表すと推定

12/22
2.7 概念学習と音声との対応付け
 Supervised SOINNによる学習
 時系列データの追加学習が可能
 軌跡のアップデートが可能 HMMなど
 学習データ１つから学習可能では難しい
 軌跡の長さに依存せずに学習

音声
正
規
化動的概念
さ
れ近づける
た
軌
跡回す

13/22
2.8 動的概念の形成

14/22
3.1 文法の学習
 ボトムアップ学習とトップダウン学習の融合
 少数の学習例から正しい文法を獲得
 アップデート可能
 ボトムアップ学習
 単語クラスの遷移確率を学習
 様々な長さの文章を生成できる
 トップダウン学習
 実世界の状況との対応付け
 文法の解釈が一意に定まる

15/22
3.2 ボトムアップ学習
 単語クラス（色、形、物体、動き、未知）による
Bigramモデルを構築

 長さnで最も確率の高い語順を生成

16/22
3.3 トップダウン学習
 実世界の状況と対応付けて文章を解釈
 例：「りんご、みかん、近づける」

学
習
「動作の主体→動作の参照点→動きの種類」
という語順を獲得

17/22
3.4 少数例からの文法獲得
 語順の学習例
 「りんご、みかん、近づける」を学習
 トップダウン：動作の主体→動作の参照点→動きの種類
 ボトムアップ：物体→物体→動き

 文章生成の例

※静的概念（メロン、ルビー）は
学習済みとする

「メロン、ルビー、近づける」

18/22
4.1 実験の概要
 実験に使用した物体（９種類）

色（３種類）：赤、黄色、緑
形（３種類）：丸、三角、四角

 提示した動き（６種類）
 近づける、遠ざける、またぐ、回す、上げる、下げ
る

19/22
4.2 学習結果：物体の指差し

20/22
4.3 学習結果：物体の移動

21/22
4.4 学習結果：動きの説明

22/22
5 まとめと課題
 実現されたシステム
 事前知識のない状態から、発達的に言語能力を獲得
 人間とコミュニケーションしながら、オンラインで学習

 見たり、聞いたりすることで発達するロボットの
最初の一歩を実現
 今後の課題
 動作を増やす（現在は６種類）
 概念を増やす（現在は、色、形など４種類）
 複雑な文法に対応する（現在は「語順」のみ）

I

More Related Content

What's hot

Similar to I

More from SOINN Inc.

I