Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

알아두면 쓸데있는 신기한 강화학습 NAVER 2017

122,053 views

Published on

발표 영상: http://tv.naver.com/v/2051482

PDF를 받아서 보셔야 깨끗하게 보입니다.
최근 강화학습 트렌드를 다섯 가지로 나눠 설명하고, 데브시스터즈에서 풀고 있는 세 가지 강화학습 문제들을 공유합니다.

Published in: Technology
  • If you want to download or read this book, copy link or url below in the New tab ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { https://urlzs.com/UABbn } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • If you want to download or read this book, copy link or url below in the New tab ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m77EgH } .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • 정성들인 자료네요. 감사합니다.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • 감사합니다.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • (@_@)b
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

알아두면 쓸데있는 신기한 강화학습 NAVER 2017

  1. 1. 알아두면 쓸데있는 신기한 강화학습 김태훈 carpedm20
  2. 2. 저는 졸업 머신러닝 엔지니어 + 20+
  3. 3. 강화 학습 Reinforcement Learning (RL)
  4. 4. Environment Agent
  5. 5. Environment Agent State 𝑠"
  6. 6. Environment Agent State 𝑠" Action 𝑎" = 2
  7. 7. Environment Agent Action 𝑎" = 2State 𝑠" Reward 𝑟" = 1
  8. 8. Environment Agent Action 𝑎" = 2State 𝑠" Reward 𝑟" = 1
  9. 9. Environment Agent Action 𝑎" = 0State 𝑠" Reward 𝑟" = −1
  10. 10. Environment Agent Action 𝑎" = 0State 𝑠" Reward 𝑟" = −1
  11. 11. 행동을 하고 시행착오를 겪으며 학습 강화 학습
  12. 12. 최근 강화 학습 연구들
  13. 13. https://deepmind.com/blog/agents-imagine-and-plan/ https://blog.openai.com/learning-to-cooperate-compete-and-communicate/
  14. 14. 2017.08.09
  15. 15. 2017.08.11
  16. 16. https://sites.google.com/view/nips17assembly/home https://www.slideshare.net/carpedm20/ai-67616630
  17. 17. 2014 Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533. Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." Nature 529.7587 (2016): 484-489. Vinyals, Oriol, et al. "StarCraft II: A New Challenge for Reinforcement Learning." 2016 2017
  18. 18. 2014 2016 이전의 강화학습은 잘 알려진 반면..
  19. 19. 2014 2016 이후의 강화학습?
  20. 20. 그래서
  21. 21. 최근 강화 학습17.08.16
  22. 22. 다섯 가지 트렌드
  23. 23. 1.Multi Agent 2.Planning 3.Meta Learning 4.Guided RL 5.ETC Exploration, Continuous action, Imitation learning …
  24. 24. 1.여러 로봇 학습하기 2.전략 세우기 3.배경 지식 활용하기 4.명령에 따라 다르게 행동하기 5.그 외 다양한 시도, 연속적인 행동, 따라하기, …
  25. 25. WARNING 강화 학습이 처음이신 분께 다소 어려울 수 있기 때문에 전체적인 흐름 파악에만 집중해 주세요
  26. 26. 하나씩 얕고 좁게..
  27. 27. 1. 여러 로봇 학습하기 Multi Agent RL
  28. 28. Single Agent https://deepmind.com/research/alphago/alphago-vs-alphago-self-play-games/
  29. 29. 협업 or 경쟁이 필요한 Multi Agent 자율 주행 자동차, 대화 AI, 대규모 공장 로봇 …
  30. 30. Starcraft Peng, Peng, et al. "Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games." arXiv preprint arXiv:1703.10069 (2017).
  31. 31. Multi-Agent RL 다중 에이전트 강화 학습
  32. 32. Single Agent 학습 방식을 그대로 쓰기 어렵다 Deep Q­learning, Policy Gradient …
  33. 33. 다양한 어려움이 있지만.. Multi-Agent RL
  34. 34. Non stationary environment 다른 Agent 때문에 생기는 불확실성 때문에 학습이 어렵고 기존의 경험을 바로 활용하기 어렵다
  35. 35. B A
  36. 36. B에 가까이 갈 때 +1 reward B A
  37. 37. +1 +1-1 -1 B에 가까이 갈 때 +1 reward B A
  38. 38. +1+1-1+1+1+1 Q( ) = +2 Q(𝑎") : 각 행동 𝑎"가 가져울 미래 가치 B A
  39. 39. +1+1-1+1+1+1 Q( ) = +2 +1+1-1+1+1+1 Q( ) = +4 Q(𝑎") : 각 행동 𝑎"가 가져울 미래 가치 B A
  40. 40. +1+1-1+1+1+1 Q( ) = +2 +1+1-1+1+1+1 Q( ) = +4 -1-1-1+1-1+1 Q( ) = -2 -1+1-1-1-1-1 Q( ) = -4 Q(𝑎") : 각 행동 𝑎"가 가져울 미래 가치 B A
  41. 41. +1+1-1+1+1+1 Q( ) = +2 +1+1-1+1+1+1 Q( ) = +4 -1-1-1+1-1+1 Q( ) = -2 -1+1-1-1-1-1 Q( ) = -4 Q(𝑎") : 각 행동 𝑎"가 가져울 미래 가치 B A
  42. 42. B가 갑자기 움직이기 시작한다면? B B A
  43. 43. Q( ) = ? Q( ) = ?Q( ) = ? Q( ) = ? A가 이전에 배웠던 Q(𝑎")는 무쓸모 B A B 예를 들어 B가 갑자기 순간 이동을 한다고 했을때
  44. 44. B가 다른 reward를 받는 Agent라면? 학습하면서 행동을 바꾼다면 B B Q( ) = ? Q( ) = ?Q( ) = ? Q( ) = ? A
  45. 45. Q-value 학습이 굉장히 불안정해 질 것 B B Q( ) = ? Q( ) = ?Q( ) = ? Q( ) = ? A
  46. 46. 다양한 시도 Multi-Agent RL
  47. 47. Communication Mordatch, Igor, and Pieter Abbeel. "Emergence of Grounded Compositional Language in Multi-Agent Populations." arXiv preprint arXiv:1703.04908 (2017) https://blog.openai.com/learning-to-communicate/ 다른 모든 Agent에게 메세지 전달
  48. 48. Actor-Critic + Centralized Q-value 다른 Agent의 내부 정보를 공유 Lowe, Ryan, et al. "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments." arXiv preprint arXiv:1706.02275 (2017) https://blog.openai.com/learning-to-cooperate-compete-and-communicate/ Centralized Q-value
  49. 49. 2. 전략 세우기 Hierarchical RL + Model-based RL
  50. 50. Reward가 자주 생겨서 학습이 쉬움
  51. 51. Reward가 너무 드물어서 학습이 어려움
  52. 52. Sparse Reward Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016. Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017). 30번 정도의 올바른 행동 후에 0이 아닌 Reward을 얻음 Feedback 밧줄을 타고 내려가서 해골을 피하고 사다리를 타서 열쇠를 얻어야 100점 얻음
  53. 53. Hierarchical RL 계층 강화 학습
  54. 54. A Non-hierarchical RL
  55. 55. A 행동 𝑎" Non-hierarchical RL
  56. 56. A 행동 𝑎"Reward 𝑟" Non-hierarchical RL
  57. 57. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017 A A 행동 𝑎"Reward 𝑟" Non-hierarchical RL Hierarchical RL
  58. 58. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017 A A 행동 𝑎"Reward 𝑟" Non-hierarchical RL Hierarchical RL 목표1 목표2 목표3
  59. 59. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017 A A 행동 𝑎"Reward 𝑟" Non-hierarchical RL Hierarchical RL 밧줄 잡기 목표1 목표2 목표3
  60. 60. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017 A A 행동 𝑎"Reward 𝑟" Non-hierarchical RL Hierarchical RL 밧줄 잡기 사다리 내려가기 목표1 목표2 목표3
  61. 61. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017 A A 행동 𝑎"Reward 𝑟" Non-hierarchical RL Hierarchical RL 밧줄 잡기 사다리 내려가기 점프 하기 목표1 목표2 목표3
  62. 62. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017 목표1 목표2 목표3 A A 행동 𝑎"Reward 𝑟" 𝑎*,"𝑎,," Non-hierarchical RL Hierarchical RL 𝑎-," 밧줄 잡기 사다리 내려가기 점프 하기
  63. 63. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017 목표1 목표2 목표3 - - ON A A 목표 Ω 행동 𝑎"Reward 𝑟" Non-hierarchical RL Hierarchical RL 𝑎*,"𝑎,," 𝑎-,"
  64. 64. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017 목표1 목표2 목표3 - - ON A A 목표 Ω 행동 𝑎-,"행동 𝑎"Reward 𝑟" 𝑎*,"𝑎,," Non-hierarchical RL Hierarchical RL
  65. 65. Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017 목표1 목표2 목표3 - - ON A A 목표 Ω 행동 𝑎-,"행동 𝑎"Reward 𝑟" Reward 𝑟" 𝑎*,"𝑎,," Non-hierarchical RL Hierarchical RL
  66. 66. Montezuma 잘 풀었다 Kulkarni, Tejas D., et al. "Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation." Advances in Neural Information Processing Systems. 2016 Vezhnevets, Alexander Sasha, et al. "Feudal networks for hierarchical reinforcement learning." arXiv preprint arXiv:1703.01161 (2017) Bacon, Pierre-Luc, Jean Harb, and Doina Precup. "The Option-Critic Architecture." AAAI. 2017
  67. 67. 하.지.만.
  68. 68. 하지만, 암기로 풀 수 있음
  69. 69. 암기로 풀 수 없는 문제 Weber, Théophane, et al. "Imagination-Augmented Agents for Deep Reinforcement Learning." arXiv preprint arXiv:1707.06203 (2017). https://deepmind.com/blog/agents-imagine-and-plan/
  70. 70. Weber, Théophane, et al. "Imagination-Augmented Agents for Deep Reinforcement Learning." arXiv preprint arXiv:1707.06203 (2017). https://deepmind.com/blog/agents-imagine-and-plan/ 실제로 일어날 일을 시뮬레이션으로 (internal simulation) 상상해 보고 행동
  71. 71. Model-free RL + Model-based RL Deep Q-learning Policy Gradient …
  72. 72. Model-free RL + Model-based RL Imagination Weber, Théophane, et al. "Imagination-Augmented Agents for Deep Reinforcement Learning." arXiv preprint arXiv:1707.06203 (2017). https://deepmind.com/blog/agents-imagine-and-plan/
  73. 73. 3. 배경 지식 활용하기 Meta Learning
  74. 74. 사람처럼 기존의 경험을 활용해 새로운 환경에서 어떻게 잘 적응을 할 수 있을까? Meta Learning
  75. 75. 여러가지 접근법 Meta Learning
  76. 76. Weight Update를 빠르게 하려면? http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/
  77. 77. 최적의 네트워크를 찾으려면? http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/
  78. 78. 작은 데이터만 보고도 잘 분류하려면? http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/
  79. 79. 한번도 안 본 게임도 잘 클리어 하려면? http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/ Meta Learning + RL
  80. 80. Meta Learning http://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/
  81. 81. Meta Learning + RL
  82. 82. Meta Reinforcement Learning 한번도 안 본 게임도 잘 클리어 하려면?
  83. 83. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016). https://www.youtube.com/playlist?list=PLp24ODExrsVeA-ZnOQhdhX6X7ed5H_W4q
  84. 84. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016). 한판 = 한 Episode
  85. 85. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016). Episode가 끝나도 정보를 리셋하지 않고 계속 사용
  86. 86. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016). N번의 Episode를 하나의 Trial로 정의 N번의 Episode를 통해서 최적의 플레이를 찾는 방법을 학습
  87. 87. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016). 새로운 시도에는 새로운 게임(여기서는 새로운 맵)을 플레이
  88. 88. Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016). 새로운 시도에는 새로운 게임(여기서는 새로운 맵)을 플레이
  89. 89. 좀 더 현실적인 예시: 마리오를 N번 플레이 내에 끝까지 클리어
  90. 90. 다양한 마리오 게임을 학습하고 학습하지 않았던 마리오 게임을 플레이
  91. 91. 다양한 레이싱 게임을 학습하고 학습하지 않았던 레이싱 게임을 플레이 ex. GTA, 실제 자율 주행 자동차
  92. 92. 다양한 시도 Meta RL
  93. 93. RL2: Recurrent Network Duan, Yan, et al. "RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning." arXiv preprint arXiv:1611.02779 (2016). https://www.youtube.com/playlist?list=PLp24ODExrsVeA-ZnOQhdhX6X7ed5H_W4q Episode의 Return이 아닌 Trial의 Return을 optimize
  94. 94. Model-Agnostic Meta-Learning Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks." arXiv preprint arXiv:1703.03400 (2017). 여러 Task를 동시에 학습해 weight의 central point를 찾음 그리고 1번의 gradient update로 새 Task에 적응
  95. 95. 4. 명령에 따라 다르게 행동하기
  96. 96. 단 한가지 목표
  97. 97. 단 한가지 목표 자율 주행 = 무한가지 목표 학교까지 주행 앞 차를 따라서 주행 주차장에 주차 ...
  98. 98. Guided RL 명령에 따라 다르게 행동하도록 Agent를 학습
  99. 99. + Guided RL
  100. 100. Teaching Machines to Understand Visual Manuals via Attention Supervision for Object Assembly Taehoon Kim1, Youngwoon Lee2, Joseph Lim2 1 2
  101. 101. 왜?
  102. 102. 사람처럼 새로운 환경에서 잘 적응하려면? Generalization in Reinforcement Learning
  103. 103. http://www.ikea.com/ms/en_US/customer_service/assembly_instructions.html 의자 조립을 배운 사람
  104. 104. http://www.ikea.com/ms/en_US/customer_service/assembly_instructions.html 책상을 매뉴얼 없이 조립할 수 있을까?
  105. 105. http://www.ikea.com/ms/en_US/customer_service/assembly_instructions.html 하지만 매뉴얼이 있다면?
  106. 106. 사람도 새로운 문제를 풀기 위해서는 매뉴얼을 봐야한다
  107. 107. 무엇을?
  108. 108. 칠교 퍼즐 가구 조립 Hierarchical Planning이 필요한 문제
  109. 109. State 𝑠"
  110. 110. State 𝑠" Manual 𝑚"
  111. 111. 어떻게? 두가지 방법으로 접근
  112. 112.
  113. 113. … …
  114. 114. Vinyals, Oriol, Meire Fortunato, and Navdeep Jaitly. "Pointer networks." Advances in Neural Information Processing Systems. 2015. … … Pointer Network
  115. 115. 𝒔 𝒩," 𝝅 𝑽 𝑎"5, 𝑒𝑛𝑐 … 𝒔*," 𝒔,," … ⟨𝑔⟩ … … 𝑠<," , 𝑠<," * 𝑠<," 𝒮 𝑝<," , 𝑝<," 𝒫5, 𝑴" Image segmentation + Pointer Network
  116. 116. 하지만 Pointer Network 학습을 위해 추가적인 Supervision 필요 단점 몇 번째 segment가 매뉴얼 조각을 포함하는지 … …
  117. 117. Attention Xu, Kelvin, et al. "Show, attend and tell: Neural image caption generation with visual attention." International Conference on Machine Learning. 2015.
  118. 118. 메뉴얼에 해당하는 부분에 집중(Attention)
  119. 119. Query Attention maps Guided Attention π V Manual State Context Fusion Map Fusion … … … … … Guided Attention + A3C
  120. 120. 그리고 복잡한 학습 과정을 거쳐서.. Curriculum Learning Semi-supervised Learning Self-supervision …
  121. 121. 결과
  122. 122. https://sites.google.com/view/nips17assembly/home : 입력
  123. 123. https://sites.google.com/view/nips17assembly/home : 입력
  124. 124. https://sites.google.com/view/nips17assembly/home : 입력
  125. 125. 다른 Guided RL 연구들 Text as Manual
  126. 126. Gated-Attention + A3C Hermann, Karl Moritz, et al. "Grounded language learning in a simulated 3D world." arXiv preprint arXiv:1706.06551 (2017) https://sites.google.com/view/gated-attention/home
  127. 127. Self-Supervision + A3C Chaplot, Devendra Singh, et al. "Gated-Attention Architectures for Task-Oriented Language Grounding." arXiv preprint arXiv:1706.07230 (2017) https://www.youtube.com/watch?v=wJjdu1bPJ04 물체들의 관계까지 이해해야 하는 Agent
  128. 128. 5. ETC Exploration, Continuous action, Imitation learning
  129. 129. Exploration 지금까지 좋다고 생각했던 행동이 아닌 모험(랜덤 행동)을 하는 것
  130. 130. Exploration 랜덤으로 모험(행동)을 하는 것
  131. 131. Exploration 랜덤으로 모험(행동)을 하는 것 Exploitation 지금까지 배운 최선의 행동을 하는 것
  132. 132. Exploration Pathak, Deepak, et al. "Curiosity-driven exploration by self-supervised prediction." arXiv preprint arXiv:1705.05363 (2017) https://pathak22.github.io/noreward-rl/ Curiosity reward + Inverse Dynamics Model
  133. 133. Curriculum Learning 쉬운 문제부터 어려운 문제까지 차근차근 난이도를 올려가며 학습
  134. 134. 학습 시간 난이도 하 중 상 Non-curriculum learning 특정 난이도의 문제 뽑을 확률
  135. 135. 학습 시간 난이도 하 중 상 학습 처음부터 끝까지 모든 난이도를 동일한 확률로 뽑기 Non-curriculum learning
  136. 136. 학습 시간 난이도 하 중 상 Curriculum learning 처음에는 가장 쉬운 문제를 많이 학습
  137. 137. 학습 시간 난이도 하 중 상 하 중 상 Curriculum learning 특정 조건 달성 이후 좀 더 어려운 문제 풀기 시작 문제 하 성공률 80% 달성
  138. 138. 학습 시간 난이도 하 중 상 하 중 상 하 중 상 문제 하 성공률 80% 달성 문제 중 성공률 80% 달성 Curriculum learning 특정 조건 달성 이후 좀 더 어려운 문제 풀기 시작
  139. 139. Curriculum Learning + GAN Held, David, et al. "Automatic Goal Generation for Reinforcement Learning Agents." arXiv preprint arXiv:1705.06366 (2017) https://sites.google.com/view/goalgeneration4rl
  140. 140. Continuous Action 연속적인 행동을 가진 Agent의 학습 (ex. 로봇)
  141. 141. Discrete Action 𝑎" < ∈ {0,1} 위 아래 ON -
  142. 142. Continuous Action −1 ≤ 𝑎" < ≤ 1Discrete Action 𝑎" < ∈ {0,1} 어깨 무릎 허리 0.1 -0.2 0.5 위 아래 ON -
  143. 143. Continuous Action Schulman, John, et al. "Proximal Policy Optimization Algorithms." arXiv preprint arXiv:1707.06347 (2017) https://blog.openai.com/openai-baselines-ppo/ PPO
  144. 144. Continuous Action Heess, Nicolas, et al. "Emergence of Locomotion Behaviours in Rich Environments." arXiv preprint arXiv:1707.02286 (2017) https://www.youtube.com/watch?v=hx_bgoTF7bs Distributed PPO
  145. 145. 이 외에도..
  146. 146. 문제는 여전히 많다
  147. 147. 네.
  148. 148. 강화 학습 캉화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강화 학습 감화 학습 강화 학습 강화 학습 강화 학습 강화 학습 강회 학습 강화 학습 강화 학습 강화 학습
  149. 149. Neural Turing Machine Differentiable Neural Computer Neural Module Network Neural Programmer-Interpreter Programmable Agent … 강화 학습 외에도 관심있는 분야 Graves, Alex, Greg Wayne, and Ivo Danihelka. "Neural turing machines." arXiv preprint arXiv:1410.5401 (2014). Graves, Alex, et al. "Hybrid computing using a neural network with dynamic external memory." Nature 538.7626 (2016): 471-476. Andreas, Jacob, et al. "Neural module networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. Reed, Scott, and Nando De Freitas. "Neural programmer-interpreters." arXiv preprint arXiv:1511.06279 (2015). Denil, Misha, et al. "Programmable agents." arXiv preprint arXiv:1706.06383(2017).
  150. 150. 다 이야기하고 싶지만 오늘은..
  151. 151. Generative Model GAN이라던가..
  152. 152. Berthelot, David, Tom Schumm, and Luke Metz. "Began: Boundary equilibrium generative adversarial networks." arXiv preprint arXiv:1703.10717 (2017). https://github.com/carpedm20/BEGAN-tensorflow
  153. 153. Kim, Taeksoo, et al. "Learning to discover cross-domain relations with generative adversarial networks." arXiv preprint arXiv:1703.05192 (2017). https://github.com/carpedm20/DiscoGAN-pytorch
  154. 154. Shrivastava, Ashish, et al. "Learning from simulated and unsupervised images through adversarial training." arXiv preprint arXiv:1612.07828 (2016). https://github.com/carpedm20/simulated-unsupervised-tensorflow
  155. 155. Generative Model + Audio
  156. 156. Generative Model + Audio
  157. 157. 카카오뱅크가 개시 5일만에 100만 계좌를 돌파하면서 돌풍을 일으키고 있다. CVPR2017 현장 풍경입니다. 많은 컴퓨터비전 연구자들이 네이버랩스 부스를 찾았습니다. 오늘의 날씨는 어제보다 3도 높습니다. 총 3개의 일정이 등록되어 있습니다.
  158. 158. .voice Voice Synthesis Technologies for Developers
  159. 159. 더 자세한건...
  160. 160. http://www.devsisters.com/jobs/
  161. 161. END http://carpedm20.github.io/

×