Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20180204 reinforcement learning

1,159 views

Published on

第44回コンピュータビジョン勉強会@関東の発表資料
CVPR 2017で発表された「Learning to Learn from Noisy Web Videos」の紹介

Published in: Technology
  • Be the first to comment

  • Be the first to like this

20180204 reinforcement learning

  1. 1. 第44回 コンピュータビジョン勉強会@関東 強化学習論文読み会 2018/2/4
  2. 2. 本発表の内容には誤りが含まれる可能性があります 誤りや説明が不十分な点に関して、ご指摘がありましたら遠慮なくお願いします 強化学習とは何であるかといった話は割愛していますのでご注意ください はじめに 2018/2/4 第44回 コンピュータビジョン勉強会@関東 1
  3. 3. 強化学習といえば、ゲームAI、ロボティクスなどのイメージ 異分野の論文を読むのはハードルが高いので、強化学習の勉強のきっかけとして、 コンピュータビジョンよりの論文を選択 (機械学習、ロボティクス分野の話は他の発表者に期待) 今回は既存のコンピュータビジョンのタスクを強化学習として定式化したものを紹介 発表者のモチベーション 第44回 コンピュータビジョン勉強会@関東 2 2018/2/4
  4. 4. やりたいこと 誤ラベルを含むデータ群の中から有用な(≒正しそうな)データを選出して学習する 具体的にはYouTubeの検索結果から動作認識の分類器を学習 CVPR 2017 の論文 本日紹介する論文 第44回 コンピュータビジョン勉強会@関東 3 2018/2/4
  5. 5. • 学習データをどうやって集めるのか? – 既に人手でラベル付けした大規模データセットが公開されていたりするがそもそも大変 – マイナーカテゴリまで人手でラベル付けして集めるのは非現実的 • 少数のラベル付きデータと大量のラベルなしデータから学習したい (semi-supervised learning) – 検索エンジンの検索結果を利用すればある程度スクリーニング可能 – webly supervised とも言うらしい 問題意識 2018/2/4 第44回 コンピュータビジョン勉強会@関東 4
  6. 6. • 検索エンジンの検索結果の傾向 – (経験的に)上位の出力ほど検索クエリに適合したものである可能性は高い – 一部に検索クエリに適合しない結果も混じっている • この中から検索クエリに適合したものだけを選出できれば、ラベル付きデータとして 教師あり学習ができる 問題意識 2018/2/4 第44回 コンピュータビジョン勉強会@関東 5
  7. 7. 本論文のアプローチ 2018/2/4 第44回 コンピュータビジョン勉強会@関東 6 ラベルなしデータから学習に有用なデータを選出するポリシーを強化学習で獲得
  8. 8. 強化学習の問題設定 目的:報酬の和を最大化するような 行動選択のポリシーを獲得すること エージェント:行動決定の主体 環境:エージェントの作用対象 行動:エージェントが環境に対して行 うはたらきかけの種類 状態:エージェントが環境を観測した 情報 報酬:行動の良さ 2018/2/4 第44回 コンピュータビジョン勉強会@関東 7 行動 エージェント 環境 状態、報酬
  9. 9. 提案手法の問題設定 目的:認識精度が最も良くなる、学 習データの組み合わせを選び出すこと エージェント:アノテーター 環境:分類器 行動:学習に追加する画像の選択 状態:画像集合の分布 報酬:分類器の精度(の向上度) 2018/2/4 第44回 コンピュータビジョン勉強会@関東 8
  10. 10. 状態 𝑠 = 𝐻 𝑝𝑜𝑠, 𝐻 𝑛𝑒𝑔, 𝐻 𝐷1 , … , 𝐻 𝐷 𝐾 , 𝑃 • 𝐻 𝑋:集合Xのデータを分類器に入力したときの出力スコアのヒストグラム – pos: ポジティブデータとして学習に使われているデータ集合 – neg: ネガティブデータとして学習に使われているデータ集合 – 𝐷 𝐾:学習データに追加する候補のデータ集合 • 𝑃 :学習データに追加済みのポジティブデータの割合 「状態」の定義 第44回 コンピュータビジョン勉強会@関東 9 1.00.0 0.5 画像 分類器 1.0 画像 分類器 0.5 𝐻 𝑋𝑋 2018/2/4
  11. 11. • 分類器のスコアの分布とデータの傾向 – スコアの分布が偏っている場合には、多様性に欠けることがある – スコアの分布にばらつきがある場合には、他カテゴリのデータが混入していることがある 「状態」の意味するところ 第44回 コンピュータビジョン勉強会@関東 10 正しい ラベル 誤った ラベル 類似 相違 2018/2/4
  12. 12. 提案手法の問題設定 目的:認識精度が最も良くなる、学 習データの組み合わせを選び出すこと エージェント:アノテーター 環境:分類器 行動:学習に追加する画像の選択 状態:画像集合の分布 報酬:分類器の精度(の向上度) 2018/2/4 第44回 コンピュータビジョン勉強会@関東 11
  13. 13. エージェントの学習 2018/2/4 第44回 コンピュータビジョン勉強会@関東 12 • スタンダードなQ-Learningで学習 • 学習する関数は下記の多層パーセプトロン • Experience Replayありの確率的勾配降下法 (SGD) で学習 入力層 中間層 1層目 中間層 2層目 出力層
  14. 14. エージェントの学習時にはラベル付きデータ (labeled reward set) を用いて 識別器の認識精度を評価して報酬を計算する 学習時(エージェントの学習) 2018/2/4 第44回 コンピュータビジョン勉強会@関東 13 0 0 0 5 5 5 000 5 5 0005
  15. 15. エージェントを利用して新しい分類器を学習する際は、分類器の精度を評価する データはないので、分類器は状態のみをエージェントに伝える 利用時(新しい分類器の学習) 第44回 コンピュータビジョン勉強会@関東 14 6 6 6 9 9 9 9 9 0009 2018/2/4
  16. 16. • MNIST – エージェントの学習データ:0-5の画像 – 性能評価データ:6-9の画像 • それぞれ人工的に誤ラベルを混入させる – 分類器:MLP (右下図) • カテゴリごとに1-vs-all分類器を学習 • ネガティブデータは他カテゴリからランダムに選択(固定) 評価実験 2018/2/4 第44回 コンピュータビジョン勉強会@関東 15 画素値 784次元 ・ ・ ・ ・ ・ ・ ・ ・ ・ 256 ユニット 256 ユニット 256 ユニット 2クラス ・ ・ ・
  17. 17. 評価実験 2018/2/4 第44回 コンピュータビジョン勉強会@関東 16 • MNISTの評価結果 – 提案方式が一番精度が高い – 学習データ量を増やしたときに 精度が向上する傾向
  18. 18. 評価実験 2018/2/4 第44回 コンピュータビジョン勉強会@関東 17 • 選出される画像の傾向の比較 – 提案手法は多様性が増すようにデータを選出できている(上段) – 提案手法は他カテゴリのデータが流入しないようにデータを選出できている(下段) 左から右に向かって順に追加されている
  19. 19. • Sports-1M – エージェントの学習データ:300カテゴリの人物動作 – 評価データ:上記以外の105カテゴリの人物動作 – 分類器:MLP (右図) 評価実験 2018/2/4 第44回 コンピュータビジョン勉強会@関東 18 ResNet feature 1000次元 ・ ・ ・ ・ ・ ・ ・ ・ ・ 256 ユニット 256 ユニット 256 ユニット カテゴリ数 ・ ・ ・ ・ ・ ・
  20. 20. 評価実験 2018/2/4 第44回 コンピュータビジョン勉強会@関東 19 • Sports-1Mの評価結果 – MNISTと同様の結果
  21. 21. • 今回紹介した論文 – semi-supervised learningを強化学習として定式化 – 誤ラベルを含むデータ群から学習に有用なデータを選出して識別器を学習 – 従来のsemi-supervised方式よりも高精度、かつ、学習に使用するデータ数を増やす ほど精度が上がる良い選出ポリシーを獲得 • まだ解釈しきれていない部分も少なくない – 強化学習時の分類器の振る舞いはあくまでシミュレーションで、精度がどう影響するのか? – 分類器のスコアヒストグラムがデータの分布を表現できているのか? まとめ 2018/2/4 第44回 コンピュータビジョン勉強会@関東 20

×