SlideShare a Scribd company logo
1 of 13
Download to read offline
AI(強化学習)で
ロボットに学習させてみた
AIってなに?強化学習ってなに?
AI =人間のやることを機械にまねさせること
何をすれば良いか分かっている
⇒玉を皿に置きたい!
どうやったら良いか分からない
⇒とりあえずやってみる!!
何度もやると次第にうまくなる
⇒一度できると改善してうまくなる!!!
強化学習=例えば、けん玉の練習
強化学習=試行錯誤を通して自らの経験を元に学習
する方法
Deep Learningはよく聞くけど…
事例:AlphaGoが人間より強くなった
⇒碁の状態数は10 あるが、DLで過去事例から学習したのは10 程度
⇒DLでは学習データ以上に強くならないため、 AlphaGo同士で強化学習
することで学習データ(人間の経験)よりも強くなった。
学習方法 できること、できないこと
Deep
Learning
詰込型の学習=試験勉強と同じ。問題を多く解いて傾向を把握
データに合わせてパターンを抽出してくれる
問題と答えのセットを用意しておかないと学習できない
教えたこと(学習したデータ)以上のことはできない
強化学習
経験型の学習=試行錯誤を通して問題に合わせた行動を学習
できる範囲(行動、認識)の組み合わせから目的を達成する
事前の学習データが不要。自らの経験を学習データとする
実環境では学習時間がかかる。別個体との結果共有が難しい
Deep Learning と 強化学習 の組合わせが主流
172 9
で、ロボットに何を学習させたの?
赤いボール を 青い箱 まで持っていく行動を学習
カラーカメラで状況把握
2個のモーターで移動
グリッパでボールを
つかむ
どうやって学習したの?
1.画像から色を抽出 2.位置と幅を計算
x座標⇒左
幅⇒遠い
3.状態に番号を付ける
左 中央 右
なし S1 S2 S3
遠い S4 S5 S6
近い S7 S8 S9
前進 A1
後退 A2
左回転 A3
右回転 A4
前進 後退
回転
①画像からボールがどう見えるか(状態)を決める
②行動を決める
選択可能な行動を決めて番号を付ける
③何をするか決める
1.目標を決める
「ボールが中央で近い(S8)」状態
を目標とする
2.目標に達した時の褒め方を決める
目標にまでに行った行動に対して、
どれくらい褒めるかを決める
何をすれば学習したことになるの?
学習前:状態に対する行動の価値が同じ
ボールの
状態
行動
なし 遠い 近い
左 中 右 左 中 右 左 中 右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 48 73 83 79 96 89 93 0 92
後退 A2 49 77 85 86 93 90 93 0 93
左回転 A3 85 93 87 89 91 91 95 0 92
右回転 A4 48 75 94 85 92 93 93 0 95
ボールの
状態
行動
なし 遠い 近い
左 中 右 左 中 右 左 中 右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
学習後:状態ごとに得点の高い行動をする
状態と行動の表に対して、良い行動に得点を付ける
得点は目標到達時に与えられる報酬から設定する
①最初はランダムな行動をとる
②運よく目標に到達すると褒められる(報酬が与えられる)
③報酬を元に目標到達に行った行動に対して、得点を与える
④次第に得点の高い行動を行うようになる
報酬を元にした「状態と行動」表の更新例
ボールの
状態
行動
なし 遠い 近い
左 中 右 左 中 右 左 中 右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
上から見たところ
カメラ画像
状態と行動の履歴
初期状態
・カメラには何も映らない
・この時はS2の状態とする
行動1回目
・とりあえず前進してみた
学習初期はランダムに行動するしかないが、
この例は最短でうまくいく場合を示している。
報酬を元にした「状態と行動」表の更新例
ボールの
状態
行動
なし 遠い 近い
左 中 右 左 中 右 左 中 右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
上から見たところ
①
カメラ画像
状態と行動の履歴
行動1回目の後
・まだ、カメラには何も映らない
行動2回目
・とりあえず左回転してみた
報酬を元にした「状態と行動」表の更新例
ボールの
状態
行動
なし 遠い 近い
左 中 右 左 中 右 左 中 右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
上から見たところ
①
②
カメラ画像
状態と行動の履歴
行動2回目の後
・ボールが遠くの左に見えた
行動3回目
・とりあえず、また左回転してみた
報酬を元にした「状態と行動」表の更新例
ボールの
状態
行動
なし 遠い 近い
左 中 右 左 中 右 左 中 右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
上から見たところ
①
② ③
カメラ画像
状態と行動の履歴
行動3回目の後
・ボールが遠くの真ん中に見えた
行動4回目
・とりあえず、前進してみた
報酬を元にした「状態と行動」表の更新例
ボールの
状態
行動
なし 遠い 近い
左 中 右 左 中 右 左 中 右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
上から見たところ
①
② ③
④ ⑤
カメラ画像
状態と行動の履歴
行動4回目の後
・ボールが近くの真ん中に見えた(S8)
・目標状態に達したため、報酬が与えられる
・目標状態に遷移するまでが1回の学習となり、
ロボットを別の場所からスタートさせて学習
を繰り返す
報酬を元にした「状態と行動」表の更新例
ボールの
状態
行動
なし 遠い 近い
左 中 右 左 中 右 左 中 右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 0 0 0 0 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 0 0 0 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
上から見たところ
①
② ③
④ ⑤
カメラ画像
状態と行動の履歴
ボールの
状態
行動
なし 遠い 近い
左 中 右 左 中 右 左 中 右
S1 S2 S3 S4 S5 S6 S7 S8 S9
前進 A1 0 4 0 0 10 0 0 0 0
後退 A2 0 0 0 0 0 0 0 0 0
左回転 A3 0 6 0 8 0 0 0 0 0
右回転 A4 0 0 0 0 0 0 0 0 0
目標到達時:報酬を元に得点を与える
強化学習でロボットに学習させてみた結果
赤いボール を 青い箱 まで持っていく行動を学習
・動画は次ページ参照か
https://youtu.be/7fUrinWahZs
・動画では、
ボールを探す ⇒ ボールを持つ ⇒ 青い箱を探す ⇒ 青い箱に行く
を複数の報酬を用いて学習結果も共有して実現した。

More Related Content

Viewers also liked

基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-Keigo Suda
 
電通大発、働き方を伝えるメディア  UEQareer
電通大発、働き方を伝えるメディア  UEQareer電通大発、働き方を伝えるメディア  UEQareer
電通大発、働き方を伝えるメディア  UEQareerKen Takahashi
 
なれる!デザイナー(ロゴ作りから始めるデザイン入門)
なれる!デザイナー(ロゴ作りから始めるデザイン入門)なれる!デザイナー(ロゴ作りから始めるデザイン入門)
なれる!デザイナー(ロゴ作りから始めるデザイン入門)hiroki tanaka
 
マイナーデスクトップOsたち
マイナーデスクトップOsたちマイナーデスクトップOsたち
マイナーデスクトップOsたちMasaki Matsumoto
 
ぜんぶScalaでやってみた
ぜんぶScalaでやってみたぜんぶScalaでやってみた
ぜんぶScalaでやってみた力世 山本
 
なんちゃってIo tで朝活してみよう!
なんちゃってIo tで朝活してみよう!なんちゃってIo tで朝活してみよう!
なんちゃってIo tで朝活してみよう!Kazuhiko Kurimura
 
社内LT大会#3 2016-4-28 Vuls
社内LT大会#3 2016-4-28 Vuls社内LT大会#3 2016-4-28 Vuls
社内LT大会#3 2016-4-28 VulsKota Kanbe
 
IoTでアヒルを動かしてみました
IoTでアヒルを動かしてみましたIoTでアヒルを動かしてみました
IoTでアヒルを動かしてみましたKota Takebayashi
 
競プロ、なんでお前たちやらないの?
競プロ、なんでお前たちやらないの?競プロ、なんでお前たちやらないの?
競プロ、なんでお前たちやらないの?Shota Tsukamoto
 
GISについてのお話
GISについてのお話GISについてのお話
GISについてのお話futureotsuka
 
Seleniumのモバイル版「Appium」を使ってみた
Seleniumのモバイル版「Appium」を使ってみたSeleniumのモバイル版「Appium」を使ってみた
Seleniumのモバイル版「Appium」を使ってみたyamapy black
 
Spring frameworkが大好きなおはなし
Spring frameworkが大好きなおはなしSpring frameworkが大好きなおはなし
Spring frameworkが大好きなおはなしSatoshi Kisanuki
 
デジタルファブリケーションノススメ
デジタルファブリケーションノススメデジタルファブリケーションノススメ
デジタルファブリケーションノススメ力世 山本
 

Viewers also liked (18)

Future_Lt20160810
Future_Lt20160810Future_Lt20160810
Future_Lt20160810
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
 
電通大発、働き方を伝えるメディア  UEQareer
電通大発、働き方を伝えるメディア  UEQareer電通大発、働き方を伝えるメディア  UEQareer
電通大発、働き方を伝えるメディア  UEQareer
 
なれる!デザイナー(ロゴ作りから始めるデザイン入門)
なれる!デザイナー(ロゴ作りから始めるデザイン入門)なれる!デザイナー(ロゴ作りから始めるデザイン入門)
なれる!デザイナー(ロゴ作りから始めるデザイン入門)
 
マイナーデスクトップOsたち
マイナーデスクトップOsたちマイナーデスクトップOsたち
マイナーデスクトップOsたち
 
ぜんぶScalaでやってみた
ぜんぶScalaでやってみたぜんぶScalaでやってみた
ぜんぶScalaでやってみた
 
なんちゃってIo tで朝活してみよう!
なんちゃってIo tで朝活してみよう!なんちゃってIo tで朝活してみよう!
なんちゃってIo tで朝活してみよう!
 
社内LT大会#3 2016-4-28 Vuls
社内LT大会#3 2016-4-28 Vuls社内LT大会#3 2016-4-28 Vuls
社内LT大会#3 2016-4-28 Vuls
 
IoTでアヒルを動かしてみました
IoTでアヒルを動かしてみましたIoTでアヒルを動かしてみました
IoTでアヒルを動かしてみました
 
競プロ、なんでお前たちやらないの?
競プロ、なんでお前たちやらないの?競プロ、なんでお前たちやらないの?
競プロ、なんでお前たちやらないの?
 
GISについてのお話
GISについてのお話GISについてのお話
GISについてのお話
 
Seleniumのモバイル版「Appium」を使ってみた
Seleniumのモバイル版「Appium」を使ってみたSeleniumのモバイル版「Appium」を使ってみた
Seleniumのモバイル版「Appium」を使ってみた
 
Spring frameworkが大好きなおはなし
Spring frameworkが大好きなおはなしSpring frameworkが大好きなおはなし
Spring frameworkが大好きなおはなし
 
Grep
GrepGrep
Grep
 
LT 手作りGit
LT 手作りGitLT 手作りGit
LT 手作りGit
 
Ai入門 in prolog
Ai入門 in prologAi入門 in prolog
Ai入門 in prolog
 
デジタルファブリケーションノススメ
デジタルファブリケーションノススメデジタルファブリケーションノススメ
デジタルファブリケーションノススメ
 
BIが可愛い
BIが可愛いBIが可愛い
BIが可愛い
 

Recently uploaded

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (8)

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

AI(強化学習)でロボットに学習させてみた