Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ヒューマノイドロボット頂上決戦と人工知能:実践と理論のギャップを探る

4,912 views

Published on

2015/11/06(金)にNAISTで講義したスライドです.最近流行りのディープラーニング,人工知能,DARPA Robotics Challengeなどをロボットラーニングの観点から解説しました.

Published in: Technology
  • DOWNLOAD FULL BOOKS INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... 1.DOWNLOAD FULL PDF EBOOK here { https://tinyurl.com/y8nn3gmc } ......................................................................................................................... 1.DOWNLOAD FULL EPUB Ebook here { https://tinyurl.com/y8nn3gmc } ......................................................................................................................... 1.DOWNLOAD FULL doc Ebook here { https://tinyurl.com/y8nn3gmc } ......................................................................................................................... 1.DOWNLOAD FULL PDF EBOOK here { https://tinyurl.com/y8nn3gmc } ......................................................................................................................... 1.DOWNLOAD FULL EPUB Ebook here { https://tinyurl.com/y8nn3gmc } ......................................................................................................................... 1.DOWNLOAD FULL doc Ebook here { https://tinyurl.com/y8nn3gmc } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

ヒューマノイドロボット頂上決戦と人工知能:実践と理論のギャップを探る

  1. 1. ヒューマノイドロボット頂上決戦と人工知能: 実践と理論のギャップを探る AkihikoYamaguchi* * Robotics Institute, Carnegie Mellon University
  2. 2. 簡単な自己紹介 …-2006: 京大,松山研究室(松山先生) 2006-2008: NAIST, ATR 脳情報研究所(川人先生) 2008-2011: NAIST, ロボティクス(小笠原先生) 2011-2014: NAIST, 特任助教 2014-current: CMU, ポスドク 何を研究している人? KW: robot learning, machine learning, robotics, artificial intelligence, motion planning, manipulation, … 最近は人工知能が流行ってるので AI for robots とか言っておくと (非研究者には)(最先端っぽくって)ウケが良いようです 人工知能が下火の頃(~2012?)は robot learning 本音: ロボットを題材に人間レベルの知能を持った○○を作りたい http://akihikoy.net/ (青下線はリンクでクリックすれば開けます.以下同) 2
  3. 3. 講義の目的 最近流行りの話題を話します + 背後の技術 DRC (DARPA Robotics Challenge) NHKの特集番組では 自律性(autonomy): 米国>日本 と日本が奮わなかった理由を解説(本当か?) 猫も杓子もうちの教授もディープラーニング ただのニューラルネットです(← 悪いとは言ってない) 自動走行車,ワトソン,東大入試に受かるAI 何でもかんでも人工知能? ロボットと人工知能 - robot learning - の観点から 3
  4. 4. バズワード 人工知能 ディープラーニング ビッグデータ 「政治用語」だと考えています --- 使い過ぎるとはずかしい 企業が食いついてくれる 論文が目を引きやすくなる グラントが取りやすい・・・? 「バズワード」を使うことが悪いとは思わない お金が循環しているし我々研究者にも 今学習している人: 惑わされないように注意してください 4 [wiki/バズワード] バズワード(英: buzzword)とは、一見、説得力があるように見えるが、具体性がなく明確な合意や定義 のないキーワードのことである。ただし、「バズワード」という用語自体の定義が曖昧なので、「バズワード 自体がバズワードである」とする説もある。 そろそろ「ディープラーニングは (強い)AIじゃねーよ」みたいな批 判が出かけてますが,そんなん 当たり前です.くれぐれも批判 的な意見に萎縮しないように.
  5. 5. AIとロボット 5
  6. 6. AIとロボットってつながるの? Deep learning 画像認識 音声認識翻訳 自然言語処理 知識ベース 推論 機械学習 全部入れたい! 音声認識 clarifai (指定した画像にタグ付けするデモ) http://www.clarifai.com/ Deep Pose http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/42 237.pdf https://drive.google.com/open?id=0B5U3jvqDZnxNSGw2UGpycGFQX2s 【衝撃】Googleの人工知能が描いた絵が凄すぎる! 絵を見た人「ぎゃあああああ怖す ぎる!!」「芸術的だ!!」 http://buzzplus.com/article/2015/06/22/googleart/ ゲームやったり(Deep Q-network; 後述) 質問応答システム“Watson”がクイズ番組に挑戦! http://www.ibm.com/smarterplanet/jp/ja/ibmwatson/quiz/ IBMの人工知能「Watson」、料理本を発売へ考案したレシピを収録 http://japan.cnet.com/news/service/35063063/ Cognitive Cooking withChef Watson http://www.ice.edu/aboutus/ibmcognitivecookingwithchefwatsonpartnership がん治療を変える、Pepperへの搭載も人工知能「IBM Watson」の可能性 http://japan.cnet.com/news/business/35068179/ これは医療革命が起きそう。IBMが膨大な医療画像を人工知能「ワトソン」に追加 : ギズ モード・ジャパン http://www.gizmodo.jp/2015/08/ibmmerge_healthcare10watson.html ウィンブルドンで人工知能「Watson」が“テニス専門家”として活躍 http://japan.cnet.com/news/service/35066278/ THEAI BEHINDWATSON —THETECHNICALARTICLE http://www.aaai.org/Magazine/Watson/watson.php
  7. 7. チェスとモーション AI v.s. 人間 チェス: 1996 世界チャンピオンに勝った(IBM ディープ・ブ ルー) 将棋: 2015 「もう同レベルだし数年後には圧勝」 コンピューター将棋「目的達した」終了宣言へ NHKニュース http://www3.nhk.or.jp/news/html/20151010/k10010265711000.html ロボットのモーションプラニング(行動計画) 移動ロボット(ルンバとか)をぶつからずにゴールまで動 かす経路は? ロボットの腕をぶつからずにテーブルの下まで移動させる には? どちらも推論 みんな知ってる推論アルゴリズム: A*サーチ パズルが解ける モーションプラニングもできる では「目的」を「歩け」とか「ハンバーグ作れ」にすると? 7 or_ompl - OpenRAVE bindings for OMPL https://www.youtube.com/watch? v=6qRRbvNzHG8
  8. 8. 推論における基本的な要素 状態空間と行動空間 状態:現在の状況を説明する変数 チェス:盤上の駒配置,ロボット:位置姿勢,関節角など 行動:AIが自由に決められる,状態を変化させる変数 チェス:駒をどう動かすか,ロボット:目標関節角など ダイナミクス(状態遷移) 状態遷移を規定する関数: 状態,行動 → 次の状態 チェス: ..., ロボット:... 評価関数: 各(状態,行動,次の状態)に対して報酬orコスト関数を定義, その和を評価関数とする, 行動全体に対して何らかの評価関数を定義する,など8
  9. 9. ロボットにおける難しさ 状態・行動空間が膨大 状態・・・位置,姿勢,関節角,ビジョンセンサ入力,力覚センサ入力,音センサ入 力,など そもそも画像などをそのまま使うことは現状困難で,「意味のある情報」に加工す る必要がある 行動・・・ヒューマノイドクラスになると自由度が30+であることもしばしば → 状態空間に比べると少なく見えるが,機械学習や推論アルゴリズムにとっては 致命的に大きい ダイナミクスの解析的モデル化が困難 これまで剛体 完全な剛体は存在せず,接触力のモデル化が歩行研究者などの間で問題になる ことが多い 柔軟物(紐,服,液体,粉,...) でも人間はいとも簡単にやっているのです それってどんな「知能」? → Robot learning のモチベーション! 9 次元の呪い
  10. 10. Deep learning 画像認識 音声認識翻訳 自然言語処理 知識ベース 推論 機械学習 全部入れたい! 10 上の世界は,確かにロボットに必要 でも真の知的ロボットにはそれだけでは不十分 リアルボディを持って,現実世界と相互作用し, 現実世界で目的を達成させられるAIが必要 よってロボットを含めたAIの研究がもっとも広いAIの 研究であり,真のAIの実現には多くの研究者が関 わるべきなのだ 現実世界の理解(シンボルと現実の物の対応付けや ダイナミクスの理解)は上の世界の研究も促進させる (例:ワトソンの料理に関わるダイナミクスを考えよう) AIとロボットってつながるの?
  11. 11. 11 人間はどうしてる? →スキルの模倣学習 ダイナミクスが未知 →強化学習 ほかのロボット学習 部分的に機械学習を使ったり 汎用性・汎化性 汎用性・汎化性が高いものほどAIっぽい “汎用性のコスト” 歩行もある意味AI ← 弱いAI (歩行研究者はそう言わない → ほかのタスクにそのまま使えないから i.e. 汎用性が低い) ロボットのAIについて, AIかそうでないかの議論はあまり意味がない (見方によって異なる) → それでみんなAIと呼ぶのでしょう... ロボットのAI - Robot learning 自律性 (人間が制御しなくていい) (人間がプログラムしなくていい) AIっぽい! 学習能力 (ロボットが勝手に覚える) AIっぽい! モーションプラニング(推論) ・RRT ・動的計画法 ・最適化 [AIの評価尺度] ロボットが「できる」とロボットで「やってみた」 の違いは大きい → 研究者に惑わされるな!
  12. 12. 行動計画いろいろ モーションプラニング(推論) 単純な最適化アルゴリズム (e.g. A* search) でも行動計画はできる 問題: 次元が大きい場合,メモリを確保できな かったり,探索に膨大な時間が掛かったりする RRT (Rapidly exploring random tree)  https://en.wikipedia.org/wiki/Rapidly_explori ng_random_tree 動的計画法 (Dynamic programming) Differential Dynamic Programming https://en.wikipedia.org/wiki/Differential_dyna mic_programming 12
  13. 13. 機械学習の復習 教師あり学習 https://en.wikipedia.org/wiki/Supervised_learning サポートベクタマシン https://en.wikipedia.org/wiki/Support_vector_machine Gaussian Process ニューラルネット https://en.wikipedia.org/wiki/Artificial_neural_network 教師なし学習 https://en.wikipedia.org/wiki/Unsupervised_learning PCA クラスタリング https://en.wikipedia.org/wiki/Cluster_analysis 強化学習 https://en.wikipedia.org/wiki/Reinforcement_learning Sutton, Barto Reinforcement Learning: An Introduction,The MIT Press, 1998. https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html 13 Artificial neural network https://en.wikipedia.org/wiki/Artif icial_neural_network
  14. 14. 模倣学習 Learning from demonstration スキル:物事をうまくやるための知識 スキルライブラリ:スキルの集合 Demonstration は軌道だけではない(人間や操作対象物の動きを取ってスキ ルモデルを作る・・・というのはひとつのやり方であって,それが本質ではない) 現状,Robot learning における複雑さ(次元の呪いなど)を解決する最も強力 な手段 Robot (learning) の研究者は常に「人はどうするか」を考えている 人間の知能にも模倣学習が大きな影響を与えている ふたつの学習ステージ ロボットが人から学習(転移) 自分でさらに学習 Yasuo Kuniyoshi and Masayuki Inaba and Hirochika Inoue: Learning by Watching: Extracting Reusable Task Knowledge fromVisual Observation of Human Performance, IEEE Transactions on Robotics and Automation, 1994. Tetsunari Inamura and IwakiToshima and HiroakiTanie andYoshihiko Nakamura: Embodied Symbol Emergence Based on Mimesis Theory,The International Journal of Robotics Research, 2004. Jakel, R. and Schmidt-Rohr, S.R. and Losch, M. and Dillmann, R.: Representation and constrained planning of manipulation strategies in the context of Programming by Demonstration, ICRA 2010. Aude Billard and Daniel Grollman: Robot learning by demonstration, Scholarpedia, Vol. 8, No. 12, 2013. http://www.scholarpedia.org/article/Robot_learning_by_demonstration 14 AkihikoYamaguchi, Christopher G. Atkeson, andTsukasa Ogasawara: Pouring Skills with Planning and Learning Modeled from Human Demonstrations, International Journal of Humanoid Robotics,Vol.12, No.3, July, 2015.
  15. 15. 強化学習 15 テキスト Sutton, Barto Reinforcement Learning: An Introduction, The MIT Press, 1998. https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html モデルベース S.~Schaal and C.~Atkeson, ``Robot juggling: implementation of memory-based learning,'' in the IEEE International Conference on Robotics and Automation (ICRA'94), vol.~14, no.~1, 1994, pp. 57--71. J.~Morimoto, G.~Zeglin, and C.~Atkeson, ``Minimax differential dynamic programming: Application to a biped walking robot,'' in the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS'03), vol.~2, 2003, pp. 1927-- 1932. モデルフリー J.~Kober and J.~Peters, ``Policy search for motor primitives in robotics,'' Machine Learning, vol.~84, no. 1-2, pp. 171--203, 2011. E.~Theodorou, J.~Buchli, and S.~Schaal, ``Reinforcement learning of motor skills in high dimensions: A path integral approach,'' in the IEEE International Conference on Robotics and Automation (ICRA'10), may 2010, pp. 2397--2403. D.~Ernst, P.~Geurts, and L.~Wehenkel, ``Tree-based batch mode reinforcement learning,'' Journal of Machine Learning Research, vol.~6, pp. 503--556, 2005. P.~Kormushev, S.~Calinon, and D.~G. Caldwell, ``Robot motor skill coordination with EM-based reinforcement learning,'' in the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS'10), 2010, pp. 3232--3237. A.~Yamaguchi, J.~Takamatsu, and T.~Ogasawara, ``DCOB: Action space for reinforcement learning of high dof robots,'' Autonomous Robots, vol.~34, no.~4, pp. 327--346, 2013. J.~Kober, A.~Wilhelm, E.~Oztop, and J.~Peters, ``Reinforcement learning to adjust parametrized motor primitives to new situations,'' Autonomous Robots, vol.~33, pp. 361--379, 2012. S.~Levine, N.~Wagener, and P.~Abbeel, ``Learning contact-rich manipulation skills with guided policy search,'' in the IEEE International Conference on Robotics and Automation (ICRA'15), 2015. 組み合わせ R.~S. Sutton, ``Integrated architectures for learning, planning, and reacting based on approximating dynamic programming,'' in the Seventh International Conference on Machine Learning. Morgan Kaufmann, 1990, pp. 216--224. R.~S. Sutton, C.~Szepesv¥'{a}ri, A.~Geramifard, and M.~Bowling, ``Dyna-style planning with linear function approximation and prioritized sweeping,'' in Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence, 2008, pp. 528--536. Yamaguchi et al. "DCOB: Action space for reinforcement learning of high DoF robots", Autonomous Robots, 2013 YouTube:RL_MotionLearning (by myself) https://www.youtube.com/playlist?list=PL41 MvLpqzOg8FF0xekWT9NXCdjzN_8PUS
  16. 16. 強化学習 16 By J. Kober and J. Peters Learning Motor Primitives for Robotics (Ball-in-cup) http://www.ausy.tu- darmstadt.de/Research/LearningMotorPrimitives https://www.youtube.com/watch?v=cNyoMVZQdYM By P. Kormushev et al. Video: Robot Arm Wants Nothing MoreThanTo MasterThe Art OfThe Flapjack-Flip http://www.popsci.com/technology/article/2010-07/after-50-attempts- hard-working-flapjack-bot-learns-flip-pancakes-video http://programming-by-demonstration.org/showPubli.php?publi=3018 https://vimeo.com/13387420#at=NaN
  17. 17. その他のロボット学習 E.~Magtanong, A.~Yamaguchi, K.~Takemura, J.~Takamatsu, andT.~Ogasawara, ``Inverse kinematics solver for android faces with elastic skin,'' in Latest Advances in Robot Kinematics, Innsbruck, Austria, 2012, pp. 181--188. 17
  18. 18. DRCの話 18
  19. 19. DARPA Robotics Challenge (DRC) 19  DARPA Robotics Challenge Finals: Rules andCourse http://spectrum.ieee.org/automaton/robotics/humanoids/drc- finals-course  DARPA Robotics Challenge (DRC) http://www.darpa.mil/program/darpa-robotics-challenge  DRCTrials http://archive.darpa.mil/roboticschallengetrialsarchive/  DRC Finals http://www.theroboticschallenge.org/ オペレータルーム
  20. 20. WPI-CMU DRC Finals Day 1:Time Lapse X20 https://www.youtube.com/watch?v=AvyGzqwOPSM
  21. 21. 21 Trials 2013 Dec Finals 2015 Jun • 8 KAIST • 8 IHMC • 8 CHIMP • 7 NimbRo • 7 RoboSimian • 7 MIT • 7WPI-CMU • 6 DRC-HUBO UNLV • 5TRACLabs • 5 AIST-NEDO • 4 NEDO-JSK • 27 Schaft • 20 IHMC • 18 CHIMP • 16 MIT • 14 RoboSimian • 11TRACLabs • 11WPI-CMU • 9Trooper • 8Thor • 8Vigir • 8 KAIST • 3 HKU • 3 DRC-HUBO-UNLV Team WPI-CMU: Darpa Robotics Challenge http://www.cs.cmu.edu/~cga/drc/ (cmu-drc-final-public.zip)
  22. 22. 22 DRC finals – teams: http://www.theroboticschallenge.org/teams
  23. 23. 使われた技術の例(WPI-CMU) 23 ・ Did well (14/16 points over 2 days, drill) ・ Did not fall ・ Did not require physical human intervention 歩行制御 ・不整地はLRFで検出 ・複数レベル(階層型)の最適化 ・フットステップの最適化 ・軌道の最適化 ・最適化ベースの逆動力学(QPを全身に対して) LIPMTrajectory Optimization Team WPI-CMU: Darpa Robotics Challenge http://www.cs.cmu.edu/~cga/drc/ (cmu-drc-final-public.zip, dw1.pptx)
  24. 24. 使われた技術の例(AIST-NEDO) 24 Shin’ichiro Nakaoka, Mitsuharu Morisawa, Kenji Kaneko, Shuuji Kajita and Fumio Kanehiro, "Development of an Indirect-typeTeleoperation Interface for Biped Humanoid Robots“, 2014 http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7028105
  25. 25. A Compilation of Robots Falling Down at the DARPA Robotics Challenge https://www.youtube.com/watch?v=g0TaYhjpOfo
  26. 26. なぜ多くのロボットが失敗したか AISTの1日目:ドア開けの直前に転倒 ・・・ ・・・ AISTの2日目:不整地歩行終了間際に転倒 ・・・ ・・・ 東大 – JAXON バルブの誤検出により,掴んでいると想定しているのに実際には掴んでおらずに動作を実行し,結果肘がバル ブにぶつかった WPI-CMU 1日目にドリルを落としたのは,ステートマシンのバグ 2日目にドリルを落としたのは,腕のアクチュエータがオーバーヒートしてダウンしたため オペレータの操作ミス IHMC,CHIMP, MIT,WPI-CMU, … ref.What Happened at the DARPA Robotics Challenge? http://www.cs.cmu.edu/~cga/drc/events/ ref. DARPA ロボティクスチャレンジ Finals 2015 http://akihikoy.net/notes/?article%2FDRC-finals-2015 cf. 日経Robotics 2015年8月号(No.01), 9月号(No.02) http://techon.nikkeibp.co.jp/ROBO/ 26
  27. 27. 学習で改善できるか 可能性としてはYES 失敗要因が複合的でそれほど簡単ではない ロボットのモデル化誤差 → これは学習でどうにか(多くのRobot learning の研究が扱っている) ロボットの関節がオーバーヒートしてダウン → ダウンするモデルを 学習できる可能性はある + プラニングで避ける (ハードを改良する方が早い; cf. JAXONは液冷を採用) 環境の計測誤差 → エラーの確率分布が複雑 プログラムのバグ → バグの程度によるが一般的に複雑 ↑そもそもAI・機械学習・制御以前の課題が多い 失敗の「サンプル」も多くを手に入れるのは難しい 転倒しても壊れないロボットを作っている人も 27
  28. 28. DRC と AI どのくらい自律性があったか 少なくともオペレータルームとの通信遅延・帯域制限を補えるくらいには モーションプラニングは多くのチームが使っていた しかしオペレータの指示は重要だった(どこに行くか,何をするか e.g. バルブをつかむ,操作対 象の大まかな位置 e.g. バルブの位置) どのくらい学習技術が使われたか ロボット学習のスペシャリストも参加していた(e.g.Christopher Atkeson, RussTedrake) C. G. Atkeson et al.: “NO FALLS, NO RESETS: Reliable Humanoid Behavior in the DARPA Robotics Challenge” http://www.cs.cmu.edu/~cga/drc/paper14.pdf "The absence of horizontal force and yaw torque sensing in the Atlas feet limited our ability to avoid foot slip, reduce the risk of falling, and optimize gait using learning.“ "Learning to plan better is hard.To be computationally feasible for real-time control, a cascade of smaller optimizations is usually favored, which for us and many others eventually boiled down to reasoning about long term goals using a simplified model and a one-step constrained convex optimization that uses the full kinematics and dynamics" どのくらい汎用性が高いAI技術が使われたか モーションプラニング 最適化アルゴリズム 28
  29. 29. DRCから研究者が学んだこと 手すりや壁を使うロボットはいなかった 手すりや壁を使ってロボットを支えると安定化する 最近,Multi contact planning の話題が増えてきている cf.  Humanoids 2015 technical program: http://www.humanoids2015.org/sub/sub03_12.asp  Humanoids 2015 Workshop onWhole-Body Multi-Task Multi-Contact Humanoid Control http://cs.stanford.edu/groups/manips/humanoid2015/index.html IKもまだまだ改良が必要 オペレータとロボットの協調(HRI)は重要 オペレータ(ロボティクスのプロ)も多くのミスをした! ソフトウェアはオペレータの失敗を検出できるべき センサ・状態推定は(AI・制御よりも?)重要 手首,膝にもカメラをつけよ オーバーヒートの扱いは非常に重要(SCHAFT:水冷,Hubo:空冷,Atlas:手首のモータが しょっちゅうオーバーヒートしていた) 失敗からの復帰を考慮したデザインは重要 ref. Humanoids 2015 Panel: Lessons Learned, http://www.cs.cmu.edu/~cga/drc/29
  30. 30. なんでこんなにギャップがあるの? 課題は山積み – AI・機械学習とロボティクスのそれぞれに 状態空間・行動空間が膨大 制約条件の多様性 サンプルが十分集まらない IKの課題 接触力のモデル化 Multi contact planning: 全身のバランスを 考えながらだとすごく難しい 柔軟物のモデル化・操作 多様性の考慮 ・・・ クリティカルな解法は? → 「よくわからない」 わかっているのは「魔法の手法」はないこと 「魔法の手法」を信じている人はディープラーニングに期待するが・・・30 AI・機械学習の研究者が考えて いること ロボティクスの研究者が考えて いること
  31. 31. 再びAIの話 31
  32. 32. で,ディープラーニングって何? (層が深い?)ニューラルネット 多くの機械学習の大会を制覇.応用:画像認識,音声認識,翻訳,・・・ なぜ(層が深いと)うまくいくかよくわかってないらしい Cf. Deep v.s. shallow: Lei Jimmy Ba, Rich Caruana: Do Deep Nets Really Need to be Deep?, NIPS 2014. 何が成功の秘訣? Convolution (畳み込み) Dropout (確率的に隠れ層の出力を無視) → 過学習を防止 ReLU (Linear Rectified Unit; max(x,0)) が良かった? 非線形のアクティベーション関数 LSTM (RNN) (Pre-training (隠れ層の事前学習)・Auto Encorder → 層が深い場合の学習テクニック) ビッグデータ e.g. ImageNet 何がすごいの? これまで: 画像 → 特徴量抽出 → ニューラルネット DNN (Deep Neural Network):画像 → ニューラルネット 特徴量抽出のデザインが不要になった(ただし Convolution などの細工は必要?) Jurgen Schmidhuber: Deep Learning in Neural Networks: An Overview, Technical Report IDSIA-03-14 / arXiv:1404.7828 v2 [cs.NE], 2014. http://arxiv.org/abs/1404.7828 深層学習基本語彙( 40 分で!図付き!) by NAIST http://www.phontron.com/slides/neubig14deeplunch11-ja.pdf Large Scale Deep Learning by Jeff Dean (Google) http://static.googleusercontent.com/media/research.google.com/ja//people/jeff/CIKM-keynote-Nov2014.pdf Hinton (talk): Brains, Sex, and Machine Learning https://youtu.be/DleXA5ADG78 岡谷 貴之 (PFN), ディープラーニングと画像認識 --基礎と最近の動向-- http://www.orsj.or.jp/archive2/or60- 4/or60_4_198.pdf32
  33. 33. Deep Q network – DNN X 強化学習 V. Mnih, et al.: PlayingAtari with Deep Reinforcement Learning, NIPS Deep LearningWorkshop, 2013. Fitted Q iteration: 安定な行動価値関数(Q(x,a))の学習手法;任意の回帰手法を行動価値関数の近似器 としてそのまま使える Damien Ernst, Pierre Geurts, and LouisWehenkel:Tree-Based Batch Mode Reinforcement Learning, Journal of Machine Learning Research,Vol.6, pp.503-556, 2005. Neural Fitted QI: Fitted QIのニューラルネットを使った派生版 Martin Riedmiller: Neural fitted Q iteration -- first experiences with a data efficient neural reinforcement learning method, In 16th EuropeanConference on Machine Learning, pp.317-328 2005. DQN: Fitted Q iteration の関数近似器にDNNを使った(だけ) DNNのおかげで,入力の状態を画像のように高次元にしても学習できた(DNNの性質をうまく利用) 逆に,行動空間の複雑性はそれほどないことに注意(ロボットの難しいタスクでそのまま使えるかはかなり疑問) 33 入力: 84 x 84の画像を x 4フレーム分 出力: コマンド(行動)ごとの価値 Q(x,a) = Q(画像列,コマンド) を学習(i.e. 価値関数ベースの強化学習)
  34. 34. ディープラーニング成功の背景と教訓 計算機の進歩とビッグデータが成功の理由との見方もあるが, 画像認識の研究と機械学習の研究の積み重ねがあり, Convolution Layer は特徴点抽出を汎化したもの(と見られる) 一連の研究が結びついて,DLの成功へつながったと考える 汎用性が高い(より知的な?)手法は一夜にして生まれるので はなく,多数の問題をひとつひとつ解決した積み重ねから生ま れる → ロボットでも「使える」AIを作るためには,DRCのようなタスク に挑戦し問題を発掘・解決することを積み重ねる必要がある 34
  35. 35. 35 これからのAIとロボットの方向性は? Deep learning 画像認識 音声認識翻訳 自然言語処理 知識ベース 推論 機械学習 個々の「挑戦的な」課題を解くことを大事にする AI・機械学習の手法で解決できないロボティクスの問題が山積み → そこに問題が潜んでいるはず 手法ドリブンより問題ドリブン コネクションを意識 フォーカスしていない問題に時間をかけすぎていないか? 将来的に研究がどう広がっていくか?
  36. 36. Beetzらの研究 Lars Kunze, Michael Beetz: Envisioning the qualitative effects of robot manipulation actions using simulation-based projections, Artificial Intelligence, 2014. Karinne Ramirez-Amaro and Michael Beetz and Gordon Cheng: Transferring skills to humanoid robots by extracting semantic representations from observations of human activities, Artificial Intelligence, 2015. The RoboHow project https://robohow.eu/videos 36 The RoboHow project https://youtu.be/0eIryyzlRwA
  37. 37. 37
  38. 38. 38
  39. 39. Robot pouring AkihikoYamaguchi, Christopher G. Atkeson, andTsukasa Ogasawara: Pouring Skills with Planning and Learning Modeled from Human Demonstrations, International Journal of Humanoid Robotics,Vol.12, No.3, pp.1550030, July, 2015. http://akihikoy.net/info/wdocs/Yamaguchi,Atkeson,2015- Pouring%20Skills%20with%20Planning%20and%20Learning..- IJHR.pdf video: https://www.youtube.com/watch?v=GjwfbOur3CQ AkihikoYamaguchi, Christopher G. Atkeson: Differential Dynamic Programming withTemporally Decomposed Dynamics, in Proceedings of the 15th IEEE-RAS International Conference on Humanoid Robots (Humanoids2015), Seoul, 2015. https://www.researchgate.net/publication/282157952_Differenti al_Dynamic_Programming_with_Temporally_Decomposed_Dy namics video: https://youtu.be/OrjTHw0CHew 39 http://reflectionsintheword.files.wordpress.com/ 2012/08/pouring-water-into-glass.jpg http://schools.graniteschools.org/ edtech-canderson/files/2013/01/ heinz-ketchup-old-bottle.jpg http://old.post-gazette.com/images2/ 20021213hosqueeze_230.jpg http://img.diytrade.com/cdimg/1352823/17809917/ 0/1292834033/shampoo_bottle_bodywash_bottle.jpg http://www.nescafe.com/ upload/golden_roast_f_711.png
  40. 40. Guputaらの研究 Lerrel Pinto, Abhinav Gupta: Supersizing Self-supervision: Learning to Grasp from 50KTries and 700 Robot Hours, arXiv:1509.06825 [cs.LG]. http://arxiv.org/abs/1509.06825 Supersizing Self-supervision: Learning to grasp from 50KTries and 700 Robot Hours https://www.youtube.com/watch?v=oSqHc 0nLkm8 40
  41. 41. Abbeel らの研究 {Levine}, S. and {Finn}, C. and {Darrell},T. and {Abbeel}, P.: End-to-EndTraining of DeepVisuomotor Policies, arXiv:1504.00702, 2015. Sergey Levine and NolanWagener and Pieter Abbeel: Learning Contact-Rich Manipulation Skills with Guided Policy Search, ICRA 2015. Jeremy Maitin-Shepard and Marco Cusumano-Towner and Jinna Lei and Pieter Abbeel: Cloth Grasp Point Detection based on Multiple-View Geometric Cues with Application to RoboticTowel Folding, ICRA 2010. 41 Test on a pile of 5 randomly- dropped towels (50X) https://www.youtube.com/wat ch?v=gy5g33S0Gzo
  42. 42. 議論 42
  43. 43. なぜこれは起きたか? 43 http://i.imgur.com/V2u11ZP.gifv
  44. 44. ロボットは嘘をつくか? 殺人ロボットを禁止するべきか? 反対サイドの意見 - “No, we should not ban autonomous weapons” http://spectrum.ieee.org/automaton/robotics/artificial- intelligence/we-should-not-ban-killer-robots 賛成サイドの意見 - “Yes, we should ban autonomous weapons” http://spectrum.ieee.org/automaton/robotics/artificial- intelligence/why-we-really-should-ban-autonomous-weapons ロボットは人の仕事を奪うか? YESだとして,それはネガティブなこと? (不幸を回避するにはどうすればいい?) 44
  45. 45. 45 https://www.youtube.com/watch?v=dIF-Ho_v-Nc
  46. 46. 図の出典 46 Team WPI-CMU: Darpa Robotics Challenge http://www.cs.cmu.edu/~cga/drc/ (cmu-drc-final-public.zip) http://blog.fashionsealhealt hcare.com/ibm-watson- impacting-healthcare http://scyfer.nl/wp- content/uploads/2014/05/De ep_Neural_Network.png http://www.darpa.mil/DDM_Galler y/DARPARoboticsChallenge- RobotTask-619-316.jpg http://spectrum.ieee.or g/automaton/robotics/ humanoids/drc-finals- course Lars Kunze, Michael Beetz: Envisioning the qualitative effects of robot manipulation actions using simulation-based projections, Artificial Intelligence, 2014. Artificial neural network https://en.wikipedia.org/wiki/Artif icial_neural_network

×