論文紹介　Grounded Spatial Symbols for Task Planning Based on Experience

Grounded Spatial Symbols for Task
Planning Based on Experience
2013 13th IEEE-RAS International Conference on Humanoid Robots (Humanoids).
Kai Welke1, Peter Kaiser1, Alexey Kozlov1, Nils Adermann1,
Tamim Asfour1, Mike Lewis2, Mark Steedman2
1 Institute for Anthropomatics, Karlsruhe Institute of Technology
2 School of Informatics, University of Edinburgh
2014/12/02 発表者：M2谷口彰
1

Abstract
 適応的で知的なふるまいを行う能力を持った自律的なヒューマノイドロ
ボットは、低いレベルの制御やセンシング、および、高いレベルの推論を
必要とする。
 しかしながら、両方のレベルの統合は困難である
 感覚運動（sensorimotor）レベルの連続的な状態空間と高いレベルの推論で使
われる離散的な記号の要素（discrete symbolic entities）の間の表現のギャッ
プが原因
 本研究では、両方のレベルに適用できるような空間の表現を学習する問
題にアプローチする。
 空間の表現
 探索行動によって感覚運動レベルで接地
 常識的な知識（common sense knowledge；Google Corpus）の利用によって言
語レベルで接地
 空間的な知識は２つの経験の元から抽出することができることを実証する
 体系的な方法により得られた知識を組み合わせることによる接地問題の
解決策は、学習の試行回数を大幅に減少させることが見込まれる。
2

Abstract
 物体を持つ、運ぶようなタスクを行うロボットが、Google
Corpusによる知識と探索行動によって、物体の存在する
場所を学習する
3

Contents
4
 I. INTRODUCTION AND RELATED WORK
 II. THE SYSTEM CONCEPT
 III. ACQUIRING SPATIAL KNOWLEDGE FROM
 EXPERIENCE
 IV. GROUNDED SPATIAL SYMBOLS
 V. DISCUSSION

I. INTRODUCTION AND RELATED WORK
 実世界に適用するための自律的なロボットシステムを構
築することは、多様で異なった研究分野の専門的知識と
アプローチを共に要求する
 最大級にチャレンジングな問題
 低いレベルのロボット制御と高いレベルのAIの統合により成り
立つ
5

6
 主な課題：2つの表現の違い、ギャップの橋渡し
 ロボット制御の連続的な状態空間
 多くのAIアプローチで使われる離散的な記号表現
 先行研究
 表現のギャップを埋めるために、階層的な表現による物体-行動の複
合概念（the concept of object-action complexes (OACs)）が提案され
ている[1]
 OACは、affordance conceptという単一な表現内で、知覚と行動を組み
合わせる
 高いレベルのプランニングを含んだいくつかの階層的なレベルのOAC
の拡張が提案されている[2，3]
アフォーダンス・・・知覚や行為をうながすものとして環境が内包している一種の力。
（Weblio辞書）

7
 本研究では、ヒューマノイドロボットの感覚運動レベルと
高いレベルのプランニングの結合を可能にする、空間的
な領域の表現の抽出にフォーカスを当てる
 そのような表現は、PDDL形式[4]の記述により定義した
行動によって視覚化される
 PDDL：planning domain definition language
[4] D. McDermott, M. Ghallab, A. Howe, C. Knoblock, A. Ram, M. Veloso, D. Weld, and D. Wilkins, “Pddl.the
planning domain definition language,” New Haven, CT: Yale Center for Computational Vision and Control,
Tech. Rep., 1998.

PDDL：planning domain definition language
8
 行動：putdown
 手(?z)に持っている物体(?x)を位置(?y)に置く
• ?x：object
• ?y：location
• ?z：hand

II. THE SYSTEM CONCEPT
9
 A. Conceptual assumptions （概念の仮定）
 この研究のフォーカスは、経験による空間的な表現の獲得で
ある。
 空間的な知識は、自律的なシステムに要求される機能の一
部である
 アプローチのアウトラインを明確にするために、システム上の
いくつか事前知識を仮定する

10
 本研究において事前知識は以下のように仮定する
 Object knowledge:
 物体の豊富な事前知識を仮定する
 この知識は、認識と自己位置推定のための、クラスラベルに結びついた
オブジェクトモデルを含む
 もっと正確に言えば、一般的に操作可能なキッチンオブジェクトのモデ
ルとクラスラベルを知っている
 such as cups, plates, milk, or juice
 KIT object model database [21]を利用している
 Action knowledge:
 使用するロボットはベーシックなアクションを行うことができる
 探索フェーズの間、grasp（物をつかむ）、putdown（物を置く）という行動
を行うことができる
 さらに、移動する能力は、大きなスケールでの空間的な領域の学習を可
能にするために必要である
[21] A. Kasper, Z. Xue, and R. Dillmann, “The kit object models database: An object model database for
object recognition, localization and manipulation in service robotics,” The International Journal of Robotics
Research, vol. 31, no. 8, pp. 927–934, 2012.

11
 タスクプランニング：タスクを行うための行動計画
 タスクプランニングにおいて、計画を遂行するためには、すべ
ての行動と述語の感覚運動の表現を利用可能にする必要が
ある
 すべての非場所的な定数、例えば、オブジェクトのクラスラベ
ルなどは、感覚運動レベルで接地される必要がある
 場所の表現と記号の表現との組み合わせは、提案アプ
ローチによって学習される

12
 B. System architecture
 この研究では、タスクプランニングのための記号接地の問題
を扱うと同時に、ヒューマノイドロボットにおける感覚運動レベ
ルと高いレベルのタスクプランニングの結合による体系的な
手法を提案する。
 このために、これらのレベルの結合のためのアーキテクチャ
を開発し実装した
 このアーキテクチャの概要図はFig１に示す
 感覚運動の表現は、タスクの遂行とプランをモニタリングする
ために使用される

13
タスクプランニングレベルと感覚運動レベルの間の統合は、the central executive
agent (CEA)によって行われる。
この研究のゴールは、経験からlocation型のエンティティを学習することである。

14
 提案するアーキテクチャのゴールは、 location ?y とし
て使用でき、述語（ at ?x ?y ）として使用できるような場
所のためのエンティティのクラスの表現を学習することで
ある

III. ACQUIRING SPATIAL KNOWLEDGE
FROM EXPERIENCE
15
 経験によって空間的な知識を獲得できることは、手入力
で空間的な表現をする手段と比べていくつかの利点が
ある。
 最も重要な利点
 ロボットのための表現（概念）を獲得するための方法を構築す
ることによって、システムの自律性を向上することができる

FROM EXPERIENCE
16
 本研究では、2つの異なる経験の資源を利用する：
 ロボットシステム上での探索を通して集められた経験
 常識的な知識（ common sense knowledge ）によって使用可
能な経験
 common sense knowledgeからの空間的な情報は、大き
なテキストコーパスから抽出され、記号レベルの知識を
提供する
 以下（Section III）では、空間的な知識の獲得のための
知識の資源を使用するアプローチを紹介する
 Section IVでは、空間的な記号を獲得するために集めた
知識を組み合わせる方法を紹介する

FROM EXPERIENCE
17
 A. Spatial knowledge from exploration
 探索行動のゴールは、既知の物体の集合に対して、環境の
空間的なモデルを追加的に学習することである
 もっと正確に言えば、提案アプローチは、複数のエピソードか
ら物体検出と自己位置推定の結果をもとに、一般的な物体の
場所を推定することを可能にする
 ロボットは、キッチンシナリオでのヒューマンインタラクションを
通してコントロールされる
 すべての直面した物体と場所、ラベル、現在のタスクを記録
する

FROM EXPERIENCE
18
 １）メトリックな空間的表現
 直面した物体を表現するために、確率的で連続的な空間の
表現を用いる
 もっと正確に言えば、３D空間上の物体の位置は確率密度関
数（a probability density function： PDF)で表現される
 このアプローチは、事前に空間の離散化を避け、同時に、物
体の位置の不確実さを自然に組み込むような方法を提案して
いる
 物体クラスｃの空間的な分布はGaussian Mixture Model
(GMM)を用いて表現する
既知の物体のクラスごとにGMMが定義される

FROM EXPERIENCE
19
 2) Learning common locations: 一般的な（共通の）場所
の学習：
 毎回、物体が認識されるたび、空間的な表現は更新される。
 初めに、それぞれのオブジェクトクラスごとに空のGMM η か
ら始める
 ３D直交座標空間上の物体位置の不確実さをガウス分布
N（）で記号化する
 このガウス分布は、GMMに定数の重み（例えば１）をつけた新
しい要素として加えられる


FROM EXPERIENCE
20
 以下の３つの操作は、現存するGMMに適用される
 Aging エイジング
 古い観測は、新たな観測よりも関係性が低くなると仮定される
 対応するGMMのコンポーネントの重みは、割引係数γを掛け算することによって
減らされる
 Pruning かりこみ
 閾値W_{prune}以下の重みのコンポーネントは、ミクスチャから取り除かれる
 Merging 結合
 マハラノビス距離ｄに関して、“similar”とみなされた２つのコンポーネントは、
moment-preserving mergeによって置換される


FROM EXPERIENCE
21
 結果として得られるGMMの表現は、一般的な物体の場所の
空間的な分布を記号化する
 agingは、シーンの変化に対応する
 pruning and mergingは、表現をコンパクトに保つ
 例えば、テーブル上の一般的な場所はFig. 2に描かれる
Mは、ガウス分布の最大の偏差（deviation）の閾値

FROM EXPERIENCE
22
 3) Querying:
 空間的な知識を利用可能にするには、手元に、タスクの
ために適している抽象的な概念が提供されるべきだ
 この目的のために、包括的な２つのタイプのクエリインタ
フェースを実装する

FROM EXPERIENCE
23
 Spatial generalization 空間的な一般化
 空間的な一般化は、いくつかの隣接した観測を１つのクラスタ
に結合することを可能にする
 一般化のレベルは、定めた条件によって調整される
 条件
 クラスタ内の最大の偏差（deviation）M
 クラスタのターゲット数
 空間的な一般化の例は、Fig. 2で描かれる

FROM EXPERIENCE
24
 Ontological generalization オントロジーの一般化
 物体（例：cup）の位置に加えて、概念上のクラス（例：Food）の
の場所は、同様にクエリにできる
 （PDDLの述語で使用する要素として使用できる）
 親子関係のような単純なクラスのオントロジーを使うことがで
きる

FROM EXPERIENCE
25
 4) Common places in the kitchen domain:キッチン領域
上の一般的な場所
 学習のアルゴリズムとクラスタリングのアプローチは、the
humanoid robot ARMAR-IIIを使ったキッチンでの実証によっ
て適用された
 このシナリオでは、ロボットは、冷蔵庫の中とテーブルの上の
物体を見つけ出し操作する

Humanoid robot ARMAR-III ([31], [32])
26
 youtube video
 http://www.youtube.com/watch?v=SHMSyYLRQPM#t=204
[31] T. Asfour, K. Regenstein, P. Azad, J. Schr¨oder, N. Vahrenkamp, and R. Dillmann, “ARMAR-III: An integrated
humanoid platform for sensory-motor control,” in IEEE International Conference on Humanoid Robots (Humanoids),
2006, pp. 169–175.
[32] T. Asfour, P. Azad, N. Vahrenkamp, K. Regenstein, A. Bierbaum, K. Welke, J. Schr¨oder, and R. Dillmann,
“Toward humanoid manipulation in human-centred environments,” Robotics and Autonomous Systems, vol. 56, no.
1, pp. 54–65, 2008.

FROM EXPERIENCE
 Figure 3
 ４つのARMAR-IIIの実証から得られた空間的な一般化
27
テーブル
冷蔵庫

FROM EXPERIENCE
28
 B. Spatial relations from human knowledge
 ロボットが自らの経験から学習することに加えて、人間の知識
から空間的な関係の情報を得たい
 人間の知識を利用することで、ミルクが冷蔵庫にいつも保存
されていることをロボットに教えることができる
 ミルクの位置を含む空間的なクラスタが、冷蔵庫に対応した
特定の確率分布になる
 このセクションでは、与えられた物体から有望な場所の集合を
推定する方法を提案する

FROM EXPERIENCE
29
 1) Extracting spatial relations from text:テキストから抽
出する空間的な関係
 空間的な関係は、空間的な前置詞を使って表現される。
 本研究では、テキストコーパス上でマッチングした前置
詞の関係を元とする。
 in や onのような前置詞
 物体を与えられた場所の条件付き確率を測定することを
目的とする。
• The milk is in the refrigerator
• ミルクは冷蔵庫の中にある
• Take a knife from the drawer.
• ひきだしからナイフをとって

FROM EXPERIENCE
30
 ：前置詞のcontexts(前後関係)でのobjの発生の頻
度
 ：obj と locが共起したときの、前置詞の前後関
係の数
 条件付き確率P(loc|obj)：式（５）で近似
物体が与えられたときの場所の確率

FROM EXPERIENCE
31
 コーパスの語彙全体に対して条件付き確率を計算する
のは困難である
 プランニングの領域の情報から得られるキッチンに存在
する場所の集合Lを知っている
 そのため、制限付きの条件付き確率を定式化する

FROM EXPERIENCE
32
 2) The Text Corpus:
 本稿では、the Google Books Ngrams Corpus [33]から空間的
な関係を抽出することを提案する。
 以下では、Google Corpusと呼ぶ。
 このコーパスは、トータルサイズ約3450億の単語と3.5億の英
語の本の表現を含む

FROM EXPERIENCE
33
 いくつかの前処理ステップは、文章に適用されている
 1) 依存木（dependency trees）で構文解析
 2) 構文上のngramの抽出(see Fig. 4)
 3) それぞれの構文上のngramの発生の頻度をカウントする
２つの内容語と1つの前置詞を含む構文上のngram
単語は、品詞タグと依存関係のラベルが付けられている
NN - noun, IN - preposition
dobj - direct object, prep - preposition, pobj - prepositional object

FROM EXPERIENCE
34
 Google Corpusでは、それぞれの構文上のngramは、異
なる行に保存されている
 この論文での関係した情報は、ngramこれ自身と発生の
頻度である
 Fig. 4は、以下のような表記で書かれている

FROM EXPERIENCE
35
 構文上のngramのパスは、３つのノードからなり、それぞれ次
のような関係のあるフィールドを含んでいる
 ノードで表現された単語（例：miik）
 The Penn-Treebank part-of-speach tag [34]：単語のタグ付け（例：
NN）
 The basic Stanford-dependencies label [35]：ノードの文法的な機能
（例：dobj）
 最後の数字は、構文上のngramの発生の頻度である
 この例では、 Google Corpus中に160回生じた

FROM EXPERIENCE
36
 3) Extracting Relations from the Corpus:
コーパスからの関係の抽出：
 物体と場所の間の関係した前置詞を抽出したい
 Google Corpusから下記の典型的な行を参照する
 以下のパターンにマッチする行を探す
●はワイルドカードを表す
物体（名詞）前置詞場所（名詞）

FROM EXPERIENCE
37
 4) Evaluation: 評価
 Table I
 ｘ軸：事前に定義された場所の集合
 ｙ軸：物体の集合
 式（６）で定義された条件付き確率分布を計算
 この表は、テキストコーパスから前置詞の前後関係を抽出す
る提案手法が、妥当なPLの値を推定することができることを示
す

TABLE 1
38
 制限付き条件付き確率
 色が暗いほど高い確率を表す
 確率が0のところは省略

TABLE 1
39
冷蔵庫は、beer, juice and milkに対して有望な場所である

TABLE 1
40
Cups and coffee は、テーブルで見つれられやすいだろう

TABLE 1
41
 （食器棚）cupboardは別として、bread はtableの上
やオーブン（oven）の中にある

IV. GROUNDED SPATIAL SYMBOLS
42
 この章では、どうやって場所を表す記号が、言語でも、連
続的な領域上でも、接地され、獲得することができるか
についての概要を示す
 この目的のため、前の章で紹介した、探索行動と常識的
な知識という、２つの経験の資源を組み合わせる

43
 以下では、述語（at ?x fridge）がどのように経験から推
定されるかについて示す
 仮定
 感覚運動レベルでも、記号レベルでも、すべての関連した物
体の表現を持つ
 パラメータ?x について全ての一覧と関連した物体モデルを
知っている
 述語を評価する問題は、要約すると場所fridgeの接地し
た表現を推定することになる
 fridgeは、物体を参照しないが、PDDLで定義した述語
（at）によって冷蔵庫の場所を指し示す

44
 経験から獲得した表現にfridgeを接地する一連の流れ
はFig. 5で描かれる

45
• Fig. 5: 空間的な記号の獲得のための提案手法は、２つの経験の資源を組み合わせる
• キッチンタスクを遂行している間のロボットの観測から、support locationsという接地さ
れた表現を得る
• それらのsupport locationsは、common sense knowledgeの利用によって意味的な記号
に関連付けられる

46
 A. Exploration of grounded support locations
 我々のアプローチの最初のステップは、探索によって環境上
に接地したsupport locations（ガウス分布のこと）を決定するこ
とにある
 この探索は、Section III-Aでの紹介したself-observationの方
法（GMMを構成する方法）によって行われる
 ロボットがタスクを遂行して、得られた場所の情報は、メトリッ
クな空間表現を使うことで記録される
 ロボットが物体に対して行動（pickup or putdown）を行った時の情報

模擬のデータを使用した例
47
冷蔵庫とテーブルから、pickup、putdownされた位置をランダムに選んで描画

48
 B. Common sense knowledge for symbol binding
 提案アプローチの2番目のステップでは、前のステップで獲得
されたsupport locationsのための記号的な表現を構築するた
めにcommon sense knowledgeを使用する。
 例では、探索したat ?x *を元に、 at ?x fridge のためのよい
事前知識を推定する
 ここでの主なチャレンジは、感覚運動でも言語の領域でも、場
所fridgeの表現を構築することである

49
Fig. 7: 偏差の閾値はM=400とした空間的な一般化の結果
O1のときのFridgeの確率の方が、O2のときのFridgeの確率よりも高い
この結果は、物体の観測と前置詞コンテキストの抽出に基づいてのみ達成される

V. DISCUSSION
50
 A. Contributions
 本研究では、タスクプランニングと感覚運動レベルでの空間に適用
できる表現を学習するためのアプローチを提案した
 連続的な空間と記号表現を繋げて推定を行うために、2つの経験の
資源を利用した
 探索による経験
 common sense knowledgeによる経験
 この研究は、非常に典型的な方法のアプローチによって開発された。
 fridgeの例のような概念は、人間の作った環境中の多くの典型的な
場所に適用できる
 common sense knowledgeの適用は、アプローチの実現可能性を見
るための模擬データによって実証された
 同じことは、探索を通して集められた実際のデータで行うことができ
る

V. DISCUSSION
51
 B. Outlook
 今回は、特定の場所にある物体を表現するために述語atを使
用した
 さらに前置詞を使う（such as in, on, or from ）
 タスクプランニングでは、場所の上に置くのか中に置くのかの
違いがある(e.g. open the door before putting in).
 この問題は、再度、コーパスを使用することによって対処でき
る

V. DISCUSSION
52
 Table IIを見ると、冷蔵庫とテーブルに対する正しい前置詞を得ている
 common sense knowledgeからこの機能の様子を推定することを可能に
する

論文紹介　Grounded Spatial Symbols for Task Planning Based on Experience

Recommended

Recommended

More Related Content

Featured

Featured (20)