ヒューマノイドロボット頂上決戦と人工知能:
実践と理論のギャップを探る
AkihikoYamaguchi*
* Robotics Institute, Carnegie Mellon University
簡単な自己紹介
…-2006: 京大,松山研究室(松山先生)
2006-2008: NAIST, ATR 脳情報研究所(川人先生)
2008-2011: NAIST, ロボティクス(小笠原先生)
2011-2014: NAIST, 特任助教
2014-current: CMU, ポスドク
何を研究している人?
KW: robot learning, machine learning, robotics, artificial intelligence,
motion planning, manipulation, …
最近は人工知能が流行ってるので AI for robots とか言っておくと
(非研究者には)(最先端っぽくって)ウケが良いようです
人工知能が下火の頃(~2012?)は robot learning
本音: ロボットを題材に人間レベルの知能を持った○○を作りたい
http://akihikoy.net/ (青下線はリンクでクリックすれば開けます.以下同)
2
講義の目的
最近流行りの話題を話します + 背後の技術
DRC (DARPA Robotics Challenge)
NHKの特集番組では
自律性(autonomy): 米国>日本
と日本が奮わなかった理由を解説(本当か?)
猫も杓子もうちの教授もディープラーニング
ただのニューラルネットです(← 悪いとは言ってない)
自動走行車,ワトソン,東大入試に受かるAI
何でもかんでも人工知能?
ロボットと人工知能 - robot learning - の観点から
3
バズワード
人工知能
ディープラーニング
ビッグデータ
「政治用語」だと考えています --- 使い過ぎるとはずかしい
企業が食いついてくれる
論文が目を引きやすくなる
グラントが取りやすい・・・?
「バズワード」を使うことが悪いとは思わない
お金が循環しているし我々研究者にも
今学習している人: 惑わされないように注意してください
4
[wiki/バズワード]
バズワード(英: buzzword)とは、一見、説得力があるように見えるが、具体性がなく明確な合意や定義
のないキーワードのことである。ただし、「バズワード」という用語自体の定義が曖昧なので、「バズワード
自体がバズワードである」とする説もある。
そろそろ「ディープラーニングは
(強い)AIじゃねーよ」みたいな批
判が出かけてますが,そんなん
当たり前です.くれぐれも批判
的な意見に萎縮しないように.
AIとロボット
5
AIとロボットってつながるの?
Deep learning
画像認識
音声認識翻訳
自然言語処理
知識ベース
推論
機械学習
全部入れたい!
音声認識
clarifai (指定した画像にタグ付けするデモ)
http://www.clarifai.com/
Deep Pose
http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/42
237.pdf
https://drive.google.com/open?id=0B5U3jvqDZnxNSGw2UGpycGFQX2s
【衝撃】Googleの人工知能が描いた絵が凄すぎる! 絵を見た人「ぎゃあああああ怖す
ぎる!!」「芸術的だ!!」
http://buzzplus.com/article/2015/06/22/googleart/
ゲームやったり(Deep Q-network; 後述)
質問応答システム“Watson”がクイズ番組に挑戦!
http://www.ibm.com/smarterplanet/jp/ja/ibmwatson/quiz/
IBMの人工知能「Watson」、料理本を発売へ考案したレシピを収録
http://japan.cnet.com/news/service/35063063/
Cognitive Cooking withChef Watson
http://www.ice.edu/aboutus/ibmcognitivecookingwithchefwatsonpartnership
がん治療を変える、Pepperへの搭載も人工知能「IBM Watson」の可能性
http://japan.cnet.com/news/business/35068179/
これは医療革命が起きそう。IBMが膨大な医療画像を人工知能「ワトソン」に追加 : ギズ
モード・ジャパン
http://www.gizmodo.jp/2015/08/ibmmerge_healthcare10watson.html
ウィンブルドンで人工知能「Watson」が“テニス専門家”として活躍
http://japan.cnet.com/news/service/35066278/
THEAI BEHINDWATSON —THETECHNICALARTICLE
http://www.aaai.org/Magazine/Watson/watson.php
チェスとモーション
AI v.s. 人間
チェス: 1996 世界チャンピオンに勝った(IBM ディープ・ブ
ルー)
将棋: 2015 「もう同レベルだし数年後には圧勝」
コンピューター将棋「目的達した」終了宣言へ NHKニュース
http://www3.nhk.or.jp/news/html/20151010/k10010265711000.html
ロボットのモーションプラニング(行動計画)
移動ロボット(ルンバとか)をぶつからずにゴールまで動
かす経路は?
ロボットの腕をぶつからずにテーブルの下まで移動させる
には?
どちらも推論
みんな知ってる推論アルゴリズム: A*サーチ
パズルが解ける
モーションプラニングもできる
では「目的」を「歩け」とか「ハンバーグ作れ」にすると?
7
or_ompl - OpenRAVE bindings for
OMPL
https://www.youtube.com/watch?
v=6qRRbvNzHG8
推論における基本的な要素
状態空間と行動空間
状態:現在の状況を説明する変数
チェス:盤上の駒配置,ロボット:位置姿勢,関節角など
行動:AIが自由に決められる,状態を変化させる変数
チェス:駒をどう動かすか,ロボット:目標関節角など
ダイナミクス(状態遷移)
状態遷移を規定する関数: 状態,行動 → 次の状態
チェス: ..., ロボット:...
評価関数:
各(状態,行動,次の状態)に対して報酬orコスト関数を定義,
その和を評価関数とする,
行動全体に対して何らかの評価関数を定義する,など8
ロボットにおける難しさ
状態・行動空間が膨大
状態・・・位置,姿勢,関節角,ビジョンセンサ入力,力覚センサ入力,音センサ入
力,など
そもそも画像などをそのまま使うことは現状困難で,「意味のある情報」に加工す
る必要がある
行動・・・ヒューマノイドクラスになると自由度が30+であることもしばしば
→ 状態空間に比べると少なく見えるが,機械学習や推論アルゴリズムにとっては
致命的に大きい
ダイナミクスの解析的モデル化が困難
これまで剛体
完全な剛体は存在せず,接触力のモデル化が歩行研究者などの間で問題になる
ことが多い
柔軟物(紐,服,液体,粉,...)
でも人間はいとも簡単にやっているのです
それってどんな「知能」? → Robot learning のモチベーション!
9
次元の呪い
Deep learning
画像認識
音声認識翻訳
自然言語処理
知識ベース
推論
機械学習
全部入れたい!
10
上の世界は,確かにロボットに必要
でも真の知的ロボットにはそれだけでは不十分
リアルボディを持って,現実世界と相互作用し,
現実世界で目的を達成させられるAIが必要
よってロボットを含めたAIの研究がもっとも広いAIの
研究であり,真のAIの実現には多くの研究者が関
わるべきなのだ
現実世界の理解(シンボルと現実の物の対応付けや
ダイナミクスの理解)は上の世界の研究も促進させる
(例:ワトソンの料理に関わるダイナミクスを考えよう)
AIとロボットってつながるの?
11
人間はどうしてる?
→スキルの模倣学習
ダイナミクスが未知
→強化学習
ほかのロボット学習
部分的に機械学習を使ったり
汎用性・汎化性
汎用性・汎化性が高いものほどAIっぽい
“汎用性のコスト”
歩行もある意味AI ← 弱いAI
(歩行研究者はそう言わない
→ ほかのタスクにそのまま使えないから
i.e. 汎用性が低い)
ロボットのAIについて,
AIかそうでないかの議論はあまり意味がない
(見方によって異なる)
→ それでみんなAIと呼ぶのでしょう...
ロボットのAI - Robot learning
自律性
(人間が制御しなくていい)
(人間がプログラムしなくていい)
AIっぽい!
学習能力
(ロボットが勝手に覚える)
AIっぽい!
モーションプラニング(推論)
・RRT
・動的計画法
・最適化
[AIの評価尺度]
ロボットが「できる」とロボットで「やってみた」
の違いは大きい → 研究者に惑わされるな!
行動計画いろいろ
モーションプラニング(推論)
単純な最適化アルゴリズム (e.g. A* search)
でも行動計画はできる
問題: 次元が大きい場合,メモリを確保できな
かったり,探索に膨大な時間が掛かったりする
RRT (Rapidly exploring random tree) 
https://en.wikipedia.org/wiki/Rapidly_explori
ng_random_tree
動的計画法 (Dynamic programming)
Differential Dynamic Programming
https://en.wikipedia.org/wiki/Differential_dyna
mic_programming
12
機械学習の復習
教師あり学習
https://en.wikipedia.org/wiki/Supervised_learning
サポートベクタマシン
https://en.wikipedia.org/wiki/Support_vector_machine
Gaussian Process
ニューラルネット
https://en.wikipedia.org/wiki/Artificial_neural_network
教師なし学習
https://en.wikipedia.org/wiki/Unsupervised_learning
PCA
クラスタリング
https://en.wikipedia.org/wiki/Cluster_analysis
強化学習
https://en.wikipedia.org/wiki/Reinforcement_learning
Sutton, Barto Reinforcement Learning: An Introduction,The MIT Press, 1998.
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
13
Artificial neural network
https://en.wikipedia.org/wiki/Artif
icial_neural_network
模倣学習 Learning from demonstration
スキル:物事をうまくやるための知識
スキルライブラリ:スキルの集合
Demonstration は軌道だけではない(人間や操作対象物の動きを取ってスキ
ルモデルを作る・・・というのはひとつのやり方であって,それが本質ではない)
現状,Robot learning における複雑さ(次元の呪いなど)を解決する最も強力
な手段
Robot (learning) の研究者は常に「人はどうするか」を考えている
人間の知能にも模倣学習が大きな影響を与えている
ふたつの学習ステージ
ロボットが人から学習(転移)
自分でさらに学習
Yasuo Kuniyoshi and Masayuki Inaba and Hirochika Inoue: Learning by
Watching: Extracting Reusable Task Knowledge fromVisual Observation of
Human Performance, IEEE Transactions on Robotics and Automation, 1994.
Tetsunari Inamura and IwakiToshima and HiroakiTanie andYoshihiko
Nakamura: Embodied Symbol Emergence Based on Mimesis Theory,The
International Journal of Robotics Research, 2004.
Jakel, R. and Schmidt-Rohr, S.R. and Losch, M. and Dillmann, R.:
Representation and constrained planning of manipulation strategies in the
context of Programming by Demonstration, ICRA 2010.
Aude Billard and Daniel Grollman: Robot learning by demonstration,
Scholarpedia, Vol. 8, No. 12, 2013.
http://www.scholarpedia.org/article/Robot_learning_by_demonstration
14
AkihikoYamaguchi, Christopher G. Atkeson, andTsukasa Ogasawara:
Pouring Skills with Planning and Learning Modeled from Human
Demonstrations, International Journal of Humanoid Robotics,Vol.12,
No.3, July, 2015.
強化学習
15
テキスト
Sutton, Barto Reinforcement Learning: An Introduction, The MIT Press, 1998.
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
モデルベース
S.~Schaal and C.~Atkeson, ``Robot juggling: implementation of memory-based
learning,'' in the IEEE International Conference on Robotics and Automation
(ICRA'94), vol.~14, no.~1, 1994, pp. 57--71.
J.~Morimoto, G.~Zeglin, and C.~Atkeson, ``Minimax differential dynamic
programming: Application to a biped walking robot,'' in the IEEE/RSJ International
Conference on Intelligent Robots and Systems (IROS'03), vol.~2, 2003, pp. 1927--
1932.
モデルフリー
J.~Kober and J.~Peters, ``Policy search for motor primitives in robotics,'' Machine
Learning, vol.~84, no. 1-2, pp. 171--203, 2011.
E.~Theodorou, J.~Buchli, and S.~Schaal, ``Reinforcement learning of motor skills in
high dimensions: A path integral approach,'' in the IEEE International Conference on
Robotics and Automation (ICRA'10), may 2010, pp. 2397--2403.
D.~Ernst, P.~Geurts, and L.~Wehenkel, ``Tree-based batch mode reinforcement
learning,'' Journal of Machine Learning Research, vol.~6, pp. 503--556, 2005.
P.~Kormushev, S.~Calinon, and D.~G. Caldwell, ``Robot motor skill coordination
with EM-based reinforcement learning,'' in the IEEE/RSJ International Conference on
Intelligent Robots and Systems (IROS'10), 2010, pp. 3232--3237.
A.~Yamaguchi, J.~Takamatsu, and T.~Ogasawara, ``DCOB: Action space for
reinforcement learning of high dof robots,'' Autonomous Robots, vol.~34, no.~4, pp.
327--346, 2013.
J.~Kober, A.~Wilhelm, E.~Oztop, and J.~Peters, ``Reinforcement learning to adjust
parametrized motor primitives to new situations,'' Autonomous Robots, vol.~33, pp.
361--379, 2012.
S.~Levine, N.~Wagener, and P.~Abbeel, ``Learning contact-rich manipulation skills
with guided policy search,'' in the IEEE International Conference on Robotics and
Automation (ICRA'15), 2015.
組み合わせ
R.~S. Sutton, ``Integrated architectures for learning, planning, and reacting based on
approximating dynamic programming,'' in the Seventh International Conference on
Machine Learning. Morgan Kaufmann, 1990, pp. 216--224.
R.~S. Sutton, C.~Szepesv¥'{a}ri, A.~Geramifard, and M.~Bowling, ``Dyna-style
planning with linear function approximation and prioritized sweeping,'' in
Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence, 2008, pp.
528--536.
Yamaguchi et al. "DCOB: Action space for reinforcement learning of high
DoF robots", Autonomous Robots, 2013
YouTube:RL_MotionLearning (by myself)
https://www.youtube.com/playlist?list=PL41
MvLpqzOg8FF0xekWT9NXCdjzN_8PUS
強化学習
16
By J. Kober and J. Peters
Learning Motor Primitives for Robotics (Ball-in-cup)
http://www.ausy.tu-
darmstadt.de/Research/LearningMotorPrimitives
https://www.youtube.com/watch?v=cNyoMVZQdYM
By P. Kormushev et al.
Video: Robot Arm Wants Nothing MoreThanTo MasterThe Art OfThe
Flapjack-Flip
http://www.popsci.com/technology/article/2010-07/after-50-attempts-
hard-working-flapjack-bot-learns-flip-pancakes-video
http://programming-by-demonstration.org/showPubli.php?publi=3018
https://vimeo.com/13387420#at=NaN
その他のロボット学習
E.~Magtanong, A.~Yamaguchi, K.~Takemura, J.~Takamatsu, andT.~Ogasawara,
``Inverse kinematics solver for android faces with elastic skin,'' in Latest
Advances in Robot Kinematics, Innsbruck, Austria, 2012, pp. 181--188.
17
DRCの話
18
DARPA Robotics Challenge (DRC)
19
 DARPA Robotics Challenge Finals: Rules andCourse
http://spectrum.ieee.org/automaton/robotics/humanoids/drc-
finals-course
 DARPA Robotics Challenge (DRC)
http://www.darpa.mil/program/darpa-robotics-challenge
 DRCTrials
http://archive.darpa.mil/roboticschallengetrialsarchive/
 DRC Finals
http://www.theroboticschallenge.org/
オペレータルーム
WPI-CMU DRC Finals Day 1:Time Lapse X20
https://www.youtube.com/watch?v=AvyGzqwOPSM
21
Trials 2013 Dec Finals 2015 Jun
• 8 KAIST
• 8 IHMC
• 8 CHIMP
• 7 NimbRo
• 7 RoboSimian
• 7 MIT
• 7WPI-CMU
• 6 DRC-HUBO UNLV
• 5TRACLabs
• 5 AIST-NEDO
• 4 NEDO-JSK
• 27 Schaft
• 20 IHMC
• 18 CHIMP
• 16 MIT
• 14 RoboSimian
• 11TRACLabs
• 11WPI-CMU
• 9Trooper
• 8Thor
• 8Vigir
• 8 KAIST
• 3 HKU
• 3 DRC-HUBO-UNLV
Team WPI-CMU: Darpa Robotics Challenge
http://www.cs.cmu.edu/~cga/drc/
(cmu-drc-final-public.zip)
22
DRC finals – teams:
http://www.theroboticschallenge.org/teams
使われた技術の例(WPI-CMU)
23
・ Did well (14/16 points over 2 days, drill)
・ Did not fall
・ Did not require physical human intervention
歩行制御
・不整地はLRFで検出
・複数レベル(階層型)の最適化
・フットステップの最適化
・軌道の最適化
・最適化ベースの逆動力学(QPを全身に対して)
LIPMTrajectory Optimization
Team WPI-CMU: Darpa Robotics Challenge
http://www.cs.cmu.edu/~cga/drc/
(cmu-drc-final-public.zip, dw1.pptx)
使われた技術の例(AIST-NEDO)
24
Shin’ichiro Nakaoka, Mitsuharu Morisawa, Kenji Kaneko, Shuuji Kajita and Fumio Kanehiro,
"Development of an Indirect-typeTeleoperation Interface for Biped Humanoid Robots“, 2014
http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7028105
A Compilation of Robots Falling Down at the DARPA Robotics Challenge
https://www.youtube.com/watch?v=g0TaYhjpOfo
なぜ多くのロボットが失敗したか
AISTの1日目:ドア開けの直前に転倒
・・・
・・・
AISTの2日目:不整地歩行終了間際に転倒
・・・
・・・
東大 – JAXON
バルブの誤検出により,掴んでいると想定しているのに実際には掴んでおらずに動作を実行し,結果肘がバル
ブにぶつかった
WPI-CMU
1日目にドリルを落としたのは,ステートマシンのバグ
2日目にドリルを落としたのは,腕のアクチュエータがオーバーヒートしてダウンしたため
オペレータの操作ミス
IHMC,CHIMP, MIT,WPI-CMU, …
ref.What Happened at the DARPA Robotics Challenge? http://www.cs.cmu.edu/~cga/drc/events/
ref. DARPA ロボティクスチャレンジ Finals 2015 http://akihikoy.net/notes/?article%2FDRC-finals-2015
cf. 日経Robotics 2015年8月号(No.01), 9月号(No.02) http://techon.nikkeibp.co.jp/ROBO/
26
学習で改善できるか
可能性としてはYES
失敗要因が複合的でそれほど簡単ではない
ロボットのモデル化誤差 → これは学習でどうにか(多くのRobot
learning の研究が扱っている)
ロボットの関節がオーバーヒートしてダウン → ダウンするモデルを
学習できる可能性はある + プラニングで避ける
(ハードを改良する方が早い; cf. JAXONは液冷を採用)
環境の計測誤差 → エラーの確率分布が複雑
プログラムのバグ → バグの程度によるが一般的に複雑
↑そもそもAI・機械学習・制御以前の課題が多い
失敗の「サンプル」も多くを手に入れるのは難しい
転倒しても壊れないロボットを作っている人も
27
DRC と AI
どのくらい自律性があったか
少なくともオペレータルームとの通信遅延・帯域制限を補えるくらいには
モーションプラニングは多くのチームが使っていた
しかしオペレータの指示は重要だった(どこに行くか,何をするか e.g. バルブをつかむ,操作対
象の大まかな位置 e.g. バルブの位置)
どのくらい学習技術が使われたか
ロボット学習のスペシャリストも参加していた(e.g.Christopher Atkeson, RussTedrake)
C. G. Atkeson et al.: “NO FALLS, NO RESETS: Reliable Humanoid Behavior in the DARPA
Robotics Challenge” http://www.cs.cmu.edu/~cga/drc/paper14.pdf
"The absence of horizontal force and yaw torque sensing in the Atlas feet limited our ability to
avoid foot slip, reduce the risk of falling, and optimize gait using learning.“
"Learning to plan better is hard.To be computationally feasible for real-time control, a
cascade of smaller optimizations is usually favored, which for us and many others eventually
boiled down to reasoning about long term goals using a simplified model and a one-step
constrained convex optimization that uses the full kinematics and dynamics"
どのくらい汎用性が高いAI技術が使われたか
モーションプラニング
最適化アルゴリズム
28
DRCから研究者が学んだこと
手すりや壁を使うロボットはいなかった
手すりや壁を使ってロボットを支えると安定化する
最近,Multi contact planning の話題が増えてきている
cf.
 Humanoids 2015 technical program:
http://www.humanoids2015.org/sub/sub03_12.asp
 Humanoids 2015 Workshop onWhole-Body Multi-Task Multi-Contact Humanoid Control
http://cs.stanford.edu/groups/manips/humanoid2015/index.html
IKもまだまだ改良が必要
オペレータとロボットの協調(HRI)は重要
オペレータ(ロボティクスのプロ)も多くのミスをした!
ソフトウェアはオペレータの失敗を検出できるべき
センサ・状態推定は(AI・制御よりも?)重要
手首,膝にもカメラをつけよ
オーバーヒートの扱いは非常に重要(SCHAFT:水冷,Hubo:空冷,Atlas:手首のモータが
しょっちゅうオーバーヒートしていた)
失敗からの復帰を考慮したデザインは重要
ref. Humanoids 2015 Panel: Lessons Learned, http://www.cs.cmu.edu/~cga/drc/29
なんでこんなにギャップがあるの?
課題は山積み – AI・機械学習とロボティクスのそれぞれに
状態空間・行動空間が膨大
制約条件の多様性
サンプルが十分集まらない
IKの課題
接触力のモデル化
Multi contact planning: 全身のバランスを
考えながらだとすごく難しい
柔軟物のモデル化・操作
多様性の考慮
・・・
クリティカルな解法は? → 「よくわからない」
わかっているのは「魔法の手法」はないこと
「魔法の手法」を信じている人はディープラーニングに期待するが・・・30
AI・機械学習の研究者が考えて
いること
ロボティクスの研究者が考えて
いること
再びAIの話
31
で,ディープラーニングって何?
(層が深い?)ニューラルネット
多くの機械学習の大会を制覇.応用:画像認識,音声認識,翻訳,・・・
なぜ(層が深いと)うまくいくかよくわかってないらしい
Cf. Deep v.s. shallow:
Lei Jimmy Ba, Rich Caruana: Do Deep Nets Really Need to be Deep?, NIPS 2014.
何が成功の秘訣?
Convolution (畳み込み)
Dropout (確率的に隠れ層の出力を無視) → 過学習を防止
ReLU (Linear Rectified Unit; max(x,0)) が良かった? 非線形のアクティベーション関数
LSTM (RNN)
(Pre-training (隠れ層の事前学習)・Auto Encorder → 層が深い場合の学習テクニック)
ビッグデータ e.g. ImageNet
何がすごいの?
これまで: 画像 → 特徴量抽出 → ニューラルネット
DNN (Deep Neural Network):画像 → ニューラルネット
特徴量抽出のデザインが不要になった(ただし Convolution などの細工は必要?)
Jurgen Schmidhuber: Deep Learning in Neural Networks: An Overview, Technical Report IDSIA-03-14 / arXiv:1404.7828 v2
[cs.NE], 2014. http://arxiv.org/abs/1404.7828
深層学習基本語彙( 40 分で!図付き!) by NAIST http://www.phontron.com/slides/neubig14deeplunch11-ja.pdf
Large Scale Deep Learning by Jeff Dean (Google)
http://static.googleusercontent.com/media/research.google.com/ja//people/jeff/CIKM-keynote-Nov2014.pdf
Hinton (talk): Brains, Sex, and Machine Learning https://youtu.be/DleXA5ADG78
岡谷 貴之 (PFN), ディープラーニングと画像認識 --基礎と最近の動向-- http://www.orsj.or.jp/archive2/or60-
4/or60_4_198.pdf32
Deep Q network – DNN X 強化学習
V. Mnih, et al.: PlayingAtari with Deep Reinforcement Learning, NIPS Deep LearningWorkshop, 2013.
Fitted Q iteration: 安定な行動価値関数(Q(x,a))の学習手法;任意の回帰手法を行動価値関数の近似器
としてそのまま使える
Damien Ernst, Pierre Geurts, and LouisWehenkel:Tree-Based Batch Mode Reinforcement Learning, Journal of
Machine Learning Research,Vol.6, pp.503-556, 2005.
Neural Fitted QI: Fitted QIのニューラルネットを使った派生版
Martin Riedmiller: Neural fitted Q iteration -- first experiences with a data efficient neural reinforcement
learning method, In 16th EuropeanConference on Machine Learning, pp.317-328 2005.
DQN: Fitted Q iteration の関数近似器にDNNを使った(だけ)
DNNのおかげで,入力の状態を画像のように高次元にしても学習できた(DNNの性質をうまく利用)
逆に,行動空間の複雑性はそれほどないことに注意(ロボットの難しいタスクでそのまま使えるかはかなり疑問)
33
入力:
84 x 84の画像を
x 4フレーム分
出力:
コマンド(行動)ごとの価値
Q(x,a) = Q(画像列,コマンド)
を学習(i.e. 価値関数ベースの強化学習)
ディープラーニング成功の背景と教訓
計算機の進歩とビッグデータが成功の理由との見方もあるが,
画像認識の研究と機械学習の研究の積み重ねがあり,
Convolution Layer は特徴点抽出を汎化したもの(と見られる)
一連の研究が結びついて,DLの成功へつながったと考える
汎用性が高い(より知的な?)手法は一夜にして生まれるので
はなく,多数の問題をひとつひとつ解決した積み重ねから生ま
れる
→ ロボットでも「使える」AIを作るためには,DRCのようなタスク
に挑戦し問題を発掘・解決することを積み重ねる必要がある
34
35
これからのAIとロボットの方向性は?
Deep learning
画像認識
音声認識翻訳
自然言語処理
知識ベース
推論
機械学習
個々の「挑戦的な」課題を解くことを大事にする
AI・機械学習の手法で解決できないロボティクスの問題が山積み
→ そこに問題が潜んでいるはず
手法ドリブンより問題ドリブン
コネクションを意識
フォーカスしていない問題に時間をかけすぎていないか?
将来的に研究がどう広がっていくか?
Beetzらの研究
Lars Kunze, Michael Beetz:
Envisioning the qualitative effects
of robot manipulation actions
using simulation-based projections,
Artificial Intelligence, 2014.
Karinne Ramirez-Amaro and
Michael Beetz and Gordon Cheng:
Transferring skills to humanoid
robots by extracting semantic
representations from observations
of human activities, Artificial
Intelligence, 2015.
The RoboHow project
https://robohow.eu/videos
36 The RoboHow project https://youtu.be/0eIryyzlRwA
37
38
Robot pouring
AkihikoYamaguchi, Christopher G. Atkeson, andTsukasa
Ogasawara: Pouring Skills with Planning and Learning Modeled
from Human Demonstrations, International Journal of
Humanoid Robotics,Vol.12, No.3, pp.1550030, July, 2015.
http://akihikoy.net/info/wdocs/Yamaguchi,Atkeson,2015-
Pouring%20Skills%20with%20Planning%20and%20Learning..-
IJHR.pdf
video: https://www.youtube.com/watch?v=GjwfbOur3CQ
AkihikoYamaguchi, Christopher G. Atkeson: Differential
Dynamic Programming withTemporally Decomposed Dynamics,
in Proceedings of the 15th IEEE-RAS International Conference
on Humanoid Robots (Humanoids2015), Seoul, 2015.
https://www.researchgate.net/publication/282157952_Differenti
al_Dynamic_Programming_with_Temporally_Decomposed_Dy
namics
video: https://youtu.be/OrjTHw0CHew
39
http://reflectionsintheword.files.wordpress.com/
2012/08/pouring-water-into-glass.jpg
http://schools.graniteschools.org/
edtech-canderson/files/2013/01/
heinz-ketchup-old-bottle.jpg
http://old.post-gazette.com/images2/
20021213hosqueeze_230.jpg http://img.diytrade.com/cdimg/1352823/17809917/
0/1292834033/shampoo_bottle_bodywash_bottle.jpg
http://www.nescafe.com/
upload/golden_roast_f_711.png
Guputaらの研究
Lerrel Pinto, Abhinav Gupta: Supersizing
Self-supervision: Learning to Grasp from
50KTries and 700 Robot Hours,
arXiv:1509.06825 [cs.LG].
http://arxiv.org/abs/1509.06825
Supersizing Self-supervision: Learning to
grasp from 50KTries and 700 Robot Hours
https://www.youtube.com/watch?v=oSqHc
0nLkm8
40
Abbeel らの研究
{Levine}, S. and {Finn}, C. and {Darrell},T. and {Abbeel}, P.: End-to-EndTraining of DeepVisuomotor
Policies, arXiv:1504.00702, 2015.
Sergey Levine and NolanWagener and Pieter Abbeel: Learning Contact-Rich Manipulation Skills with
Guided Policy Search, ICRA 2015.
Jeremy Maitin-Shepard and Marco Cusumano-Towner and Jinna Lei and Pieter Abbeel: Cloth Grasp Point
Detection based on Multiple-View Geometric Cues with Application to RoboticTowel Folding, ICRA 2010.
41
Test on a pile of 5 randomly-
dropped towels (50X)
https://www.youtube.com/wat
ch?v=gy5g33S0Gzo
議論
42
なぜこれは起きたか?
43
http://i.imgur.com/V2u11ZP.gifv
ロボットは嘘をつくか?
殺人ロボットを禁止するべきか?
反対サイドの意見 - “No, we should not ban autonomous weapons”
http://spectrum.ieee.org/automaton/robotics/artificial-
intelligence/we-should-not-ban-killer-robots
賛成サイドの意見 - “Yes, we should ban autonomous weapons”
http://spectrum.ieee.org/automaton/robotics/artificial-
intelligence/why-we-really-should-ban-autonomous-weapons
ロボットは人の仕事を奪うか?
YESだとして,それはネガティブなこと?
(不幸を回避するにはどうすればいい?)
44
45
https://www.youtube.com/watch?v=dIF-Ho_v-Nc
図の出典
46
Team WPI-CMU: Darpa Robotics Challenge
http://www.cs.cmu.edu/~cga/drc/
(cmu-drc-final-public.zip)
http://blog.fashionsealhealt
hcare.com/ibm-watson-
impacting-healthcare
http://scyfer.nl/wp-
content/uploads/2014/05/De
ep_Neural_Network.png
http://www.darpa.mil/DDM_Galler
y/DARPARoboticsChallenge-
RobotTask-619-316.jpg
http://spectrum.ieee.or
g/automaton/robotics/
humanoids/drc-finals-
course
Lars Kunze, Michael Beetz:
Envisioning the qualitative
effects of robot manipulation
actions using simulation-based
projections, Artificial Intelligence,
2014.
Artificial neural network
https://en.wikipedia.org/wiki/Artif
icial_neural_network

ヒューマノイドロボット頂上決戦と人工知能:実践と理論のギャップを探る