Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
인공신경망을 이용한 generative model로서 많은 관심을 받고 있는 Variational Autoencoder (VAE)를 보다 잘 이해하기 위해서, 여러 가지 재미있는 관점에서 바라봅니다. VAE 및 머신러닝 일반에 지식을 가지고 있는 청중을 대상으로 진행된 세미나 자료입니다. 현장에서 구두로 설명된 부분은 슬라이드의 회색 박스에 보충설명을 적어두었습니다.
2017 tensor flow dev summit (Sequence Models and the RNN API)
작성된 자료로 2017년 2월 22일 오후 8시 부터 Maru180에서
GDG Seoul 에서 주최한 2017 Tensorflow Dev Summit Extended Seou에서
발표를 진행
Sequence Models and the RNN API 정리 내역 공유
Siamese neural networks for one shot image recognition paper explainedtaeseon ryu
소개드릴 논문은 오래전에 나왔고, 노드의 구조 또한 단순 하지만, 거리 학습 기반의 One Shot 러닝을 고안하는데 크게 기여하였고, 이전엔 사람이 직접 설계한 특징으로
거리학습을 진행하였지만, 처음으로 Siamese Network를 통하여 DNN을 활용했다는 점에서 의미가 큽니다. 현업에서도 클래스는 많고, 이미지는 적은경우에 대해 유사도를 판단해야 하는 경우 자주 쓰이는 기법이 될 수 있습니다.
오늘 논문 리뷰를 위하여 이미지처리팀 '이예은'님이 자세한 리뷰 도와주셨습니다.
3월달 "강화학습의 이론과 실제" 로 강의했던 강의자료 배포합니다.
1.Dynamic Programming
2.Policy iteration
3.Value iteration
4.Monte Carlo method
5.Temporal-Difference Learning
6.Sarsa
7.Q-learning
8.딥러닝 프레임워크 케라스 소개 및 슈퍼마리오 환경 구축
9.DQN을 이용한 인공지능 슈퍼마리오 만들기
이 흐름으로 강의를 했는데
브레이크아웃 설명은 양혁렬 (Hyuk Ryeol Yang)님의 코드를 참고 하였고
8번,9번은 새로운 환경이 나왔으니 무시해도 좋겠습니다.
이 환경에 대한 자료는 주말까지 작성하고 업로드 할 예정입니다.
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
인공신경망을 이용한 generative model로서 많은 관심을 받고 있는 Variational Autoencoder (VAE)를 보다 잘 이해하기 위해서, 여러 가지 재미있는 관점에서 바라봅니다. VAE 및 머신러닝 일반에 지식을 가지고 있는 청중을 대상으로 진행된 세미나 자료입니다. 현장에서 구두로 설명된 부분은 슬라이드의 회색 박스에 보충설명을 적어두었습니다.
2017 tensor flow dev summit (Sequence Models and the RNN API)
작성된 자료로 2017년 2월 22일 오후 8시 부터 Maru180에서
GDG Seoul 에서 주최한 2017 Tensorflow Dev Summit Extended Seou에서
발표를 진행
Sequence Models and the RNN API 정리 내역 공유
Siamese neural networks for one shot image recognition paper explainedtaeseon ryu
소개드릴 논문은 오래전에 나왔고, 노드의 구조 또한 단순 하지만, 거리 학습 기반의 One Shot 러닝을 고안하는데 크게 기여하였고, 이전엔 사람이 직접 설계한 특징으로
거리학습을 진행하였지만, 처음으로 Siamese Network를 통하여 DNN을 활용했다는 점에서 의미가 큽니다. 현업에서도 클래스는 많고, 이미지는 적은경우에 대해 유사도를 판단해야 하는 경우 자주 쓰이는 기법이 될 수 있습니다.
오늘 논문 리뷰를 위하여 이미지처리팀 '이예은'님이 자세한 리뷰 도와주셨습니다.
3월달 "강화학습의 이론과 실제" 로 강의했던 강의자료 배포합니다.
1.Dynamic Programming
2.Policy iteration
3.Value iteration
4.Monte Carlo method
5.Temporal-Difference Learning
6.Sarsa
7.Q-learning
8.딥러닝 프레임워크 케라스 소개 및 슈퍼마리오 환경 구축
9.DQN을 이용한 인공지능 슈퍼마리오 만들기
이 흐름으로 강의를 했는데
브레이크아웃 설명은 양혁렬 (Hyuk Ryeol Yang)님의 코드를 참고 하였고
8번,9번은 새로운 환경이 나왔으니 무시해도 좋겠습니다.
이 환경에 대한 자료는 주말까지 작성하고 업로드 할 예정입니다.
안녕하세요.
이번에 '1st 함께하는 딥러닝 컨퍼런스'에서 "안.전.제.일. 강화학습"이란 주제로 발표한 이동민이라고 합니다.
컨퍼런스 관련 링크는 다음과 같습니다.
https://tykimos.github.io/2018/06/28/ISS_1st_Deep_Learning_Conference_All_Together/
그리고 대략적인 개요는 다음과 같습니다.
1. What is Artificial Intelligence?
2. What is Reinforcement Learning?
3. What is Artificial General Intelligence?
4. Planning and Learning
5. Safe Reinforcement Learning
또한 이 자료에는 "Imagination-Augmented Agents for Deep Reinforcement Learning"이라는 논문을 자세히 설명하였습니다.
많은 분들이 보시고 도움이 되셨으면 좋겠습니다~!
Imagination-Augmented Agents for Deep Reinforcement Learning성재 최
I will introduce a paper about I2A architecture made by deepmind. That is about Imagination-Augmented Agents for Deep Reinforcement Learning
This slide were presented at Deep Learning Study group in DAVIAN LAB.
Paper link: https://arxiv.org/abs/1707.06203
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
DEVIEW 2013 발표 내용입니다 - http://deview.kr/2013/detail.nhn?topicSeq=36
링크드인 플랫폼 상의 다양한 Recommendation Product들, 이 제품들의 키워드는 바로 'Relevance(연관성)' 입니다. 가장 관련있는 데이터들을 제공함으로써 사용자의 삶을 더 쉽고 편하게 만들어 주는것이 링크드인 데이터 팀의 목표라 할 수 있겠습니다. 그렇다면 어떻게 해야 사용자에게 가장 연관성 높은 데이터를 제공 할 수 있을까요? 이에 대한 답을 한문장으로 요약하자면 '어제의 데이터를 분석하여 내일의 사용자의 행동을 예측한다' 가 될 것 같습니다.
본 발표에서는 이 한 문장을 좀 더 길게 풀어보려 합니다. 링크드인에서는 Hadoop, Key-Value Storage, Machine Learning등의 기술을 어떤 식으로 활용하여 연관성 높은 Recommendation Product를 만들고 있는지에 대해 소개해보겠습니다.
Spark machine learning & deep learninghoondong kim
Spark Machine Learning and Deep Learning Deep Dive.
Scenarios that use Spark hybrid with other data analytics tools (MS R on Spark, Tensorflow(keras) with Spark, Scikit-learn with Spark, etc)
Learning Less is More - 6D Camera Localization via 3D Surface RegressionBrian Younggun Cho
Learning Less is More - 6D Camera Localization via 3D Surface Regression
현재 Learning-based Visual Localization에서 SOTA 중 하나인 LessMore 논문의 발표자료
- 발표자료의 일부는 ECCV 2018, Visual Localization workshop에서 Eric Brachmann의 슬라이드를 참고하였습니다.
Intriguing properties of contrastive lossestaeseon ryu
소개드릴 논문은 과거 리뷰를 진행한 Contrastive learning에 이어 꽤나 높은 성능을 가져오고 Contrastive loss로 학습시켰을때 나타나는 특성들이 어떻게 나타나는지 실험을 통해 설명을 하는대요, Contrastive loss를 일반화 한 후 그로부터 나오는 여러 종류의 Contrastive loss의 성능, 또 다양한 객체가 이미지에 있을때 Contrastvie Learning은 Representation을 얼마나 잘 학습하는지, Contrastive learning에서 Augmentation이 얼마나 중요한지에 대한 부분입니다. 오늘 논문 리뷰를 위해 펀디멘탈팀의 이재윤님이 Contrastive learning부터 , 논문에 대한 자세한 리뷰까지 도와주셨습니다.
2. 목차
1. IRL : 전문가의 demo에서 reward function 추론
2. MaxEnt IRL
1. Ambiguous reward가 여러개 있을 때 적절하게 선택 가능
2. Dynamic programming을 통해 단순하고 효율적으로 계산 가능(small space)
3. Large, continuous space에서 사용하는 방법
3. MaxEnt IRL with GANs
1. Guided cost learning algorithm
2. Connection to GAN
3. Generative adversarial imitation learning
!2
3. Where does the reward function come from?
!3
게임 같은 경우 score 같은
수치형 signal이 명확하게 존재
실제 세계에선 게임처럼 명확한 reward가 없고
task가 완료되었는지 여부를 파악하는 것이 어렵고
task 자체를 깊이 이해하는 것이 필요
4. Where does the reward function come from?
!4
Automated tech support system
- 컴퓨터 수리 문의 시스템이라면
-> 최종 reward : 시스템이 도움이 되었는지 여부
- 무형의 목표 존재 -> Ground truth 얻기가 쉽지 않음
ex) 고객의 만족, 똑같은 말 반복으로 인한 짜증
- reward function을 작성하기 위해 모든 엔지니어들이 만족하는
Convention, Rule이 존재하지 않음 -> 애매함
Reward function을 작성하기 매우 어려움
(자율주행에서 운전자에 대한 매너)
5. Why shoud we learn the reward?
!5
•설명하기 어려운 task, reward들은 오히려 직접
보여주는 것이 훨씬 쉬울 때가 있음
(운전자가 가져야할 양심, 매너, 에티켓 등)
•Imitation Learning
task에 대한 이해가 전혀 필요 없음
그냥 따라하기만 하면 되기 때문에 불필요한 행동
도 따라하게되고, 얼마나 능숙한 전문가를 따라하
느냐에 따라서도 성능이 천차만별
•좌측 이미지의 아이 영상은 매우 유명한 실험 사례
6. Why shoud we learn the reward?
!6
•유아가 다른 사람의 의도를 이해하는 능력
•아이는 맹목적으로 행동을 모방하는 것이 아니라,
task의 시스템 자체를 이해하고 있음
•만약 우리의 RL 시스템이 Imitation learning을
통한 모델이라면 아이처럼 행동할 수 없음
•하지만 의도를 이해하는, 시스템을 이해하는 모델
일 경우 성능이나 효율의 문제를 넘어 Domain
transfer까지 가능
•우측 어른: 자루에 물건을 담으려 하고
땅에 떨어진 물건이 안 주워짐
•아이가 그 장면을 보다가 주워줌
7. Inverse Optimal Control / Inverse Reinforment Learning
!7
주어진 것
•state & action space
•samples from
•dynamics model
π*
목표
•Recover reward function
•Use reward to get policy
Challenges
•문제를 underdefine 하는 것
•Learned reward를 평가하기 어려운 점
•demonstration 부터 suboptimal인 점
8. Chaellenges of IRL
!8
1. Underdefined problem -> Multi-answer
1. 문제 정의를 구체적으로 잘 해야함
2. 앞선 실험에서 아이는 제반 상황에 대한
지식들을 이미 많이 가지고 있음
3. ML 문제에 적용했을 때 우리의 모델은
아이처럼 최소한의 세상에 대한 이해도
없이 문제를 풀려고 노력하는 상황
ex) Simple world
•위 세모, 동그라미, 화살표를 해석
•매우 다양한 해석이 존재
•우리는 아무런 사전지식이 없고 다음
에 어떻게 행동해야할지 모호함
For any observed policy in general
there's an infinite set of reward functions
that will all make that policy appear optimal
9. Chaellenges of IRL
!9
2. Evaluation of learned reward is difficult
1. 일반적인 IRL 구조
1. Improve the reward function
2. Evaluate the reward function(Gradient 계산 등의 방법을 통함)
2. 위와 같은 구조에선 IRL 과정 안에서 inner loop을 통해 RL 과정을 수행
3. IRL 안에 반복되는 RL이 있기 때문에 굉장히 고비용
3. Sub-optimality of experts
1. 참고할 전문가의 demonstration 자체가 부적합할 경우
2. 앞선 두 문제가 완벽하게 해결된다 하더라도 이 문제가 발생하면 나쁜 성능 보임
10. A bit more formally
!10
Forward RL
given:
- state & action
- transitions p(s'|s, a)
- reward function r(s, a)
learn π*(a|s)
Inverse RL
given:
- state & action
- transitions p(s'|s, a)
- trajectory samples sampled from
learn ( reward parameters )
----> reward function은 다시 policy 학습에 쓰임
π*(a|s)
π*(τ){τi}
rψ(s, a) ψ
11. Linear reward function
여기서 f에 붙는 psi는 해당 feature를 얼마
나 필요로 하는지를 나타냄
Feature matching IRL
!11
rψ(s, a) =
∑
i
ψi fi(s, a) = ψT
f(s, a)
Eπrψ[f(s, a)] = Eπ*[f(s, a)]
현재 reward function에
optimal인 policy
Unknown optimal policy
using expert sample
학습한 policy와 전문가 policy의 f가 같다면
비슷한 feature를 매칭할 수 있다.
maximum margin principle을 이용
12. Maximum margin principle
목표: margin m을 최대화하자.
좌항: feature 값을 파이로 expectation
psi를 dot product하면
reward의 expectation 구할 수 있음
Feature matching IRL
!12
ψT
Eπ*[f(s, a)] ≥ maxψT
Eπ[f(s, a)] + m
우항: 우리가 찾을 수 있는 최고의 정책으로
feature 값을 expectation하고
psi를 dot product 했을 때 나오는
reward의 expectation
13. Apply "SVM trick"
Feature matching IRL & maximum margin
!13
ψT
Eπ*[f(s, a)] ≥ maxψT
Eπ[f(s, a)] + m < m을 최대화하는 문제 >
ψT
Eπ*[f(s, a)] ≥ maxψT
Eπ[f(s, a)] + D(π, π*)
< 의 weight magnitude 자체를 최소화하는 방식>ψ
feature expectation의
차이값을 의미
문제점
1. 모호한 방식으로 해결: Margin이 어떤 의미를 지니는지 알 수 없음
2. 전문가의 비숙련, 부적합성을 해결하는 방법 딱히 없음
3. Linear model에서조차 제약조건이 많고 복잡
15. MaxEnt IRL Case study : Road navigation
!15
1. 택시 운전사의 주행 데이터를 기반으로 목적지를 예측하는 모델
2. Discrete state, action space -> 크지만 충분히 tabular representation 가능
3. 좀 더 나아가서 Feature weight 알아냄
1. 운전자 인터뷰를 통해 국도와 고속도로, 어떤 turn을 선호하는지 등을 조사
2. human driver가 어떻게 운전하는지 reward function에서 더 잘 나타나도록 시도
3. tabular 크기의 space만으로도 실제 세계의 상황을 예측한 좋은 사례
16. MaxEnt IRL Case study : MaxEnt Deep IRL
!16
1. 로봇이나 실내주행지도 그리는 task에서 사용 -> Reward가 복잡한 representation
2. Discrete state, action space를 사용하지만, Reward function은 Neural networks
3. 계속적으로 environment를 카메라를 통해 촬영
1. 촬영된 결과물이 이미지가 아닐 수도 있고, 수많은 feature들이 encoding된 결과물
2. 실제 데이터를 많이 모아서 reward function을 학습하는데 사용
17. Unknown dynamics & large state / action spaces
!17
Deep IRL을 고차원 공간,
Unknown space로 확장하기
- 첫 번째 항: 실제 데이터를 가지고
reward를 단순 sum 하는 거라서
계산 복잡도 낮다
- 둘째 항: distribution을 model
free 관점으로 해결해보자
18. More efficient sample-based updates
!18
1. p(a|s)를 학습하는 것은 어떤 MaxEnt IRL 알고리즘을 사용해도 좋다
2. Model free 관점으로 학습하는 것은 시스템 Dynamics를 돌려야해서 시간 복잡
도가 엄청나고 inner loop에서 RL 알고리즘이 돌아가기 때문에 사실상 불가능
3. policy를 완전히 학습하는 것이 아니라 살짝 개선하고 gradient step 진행
4. 하지만 이 때는 완전한 policy를 활용하는 것이 아니므로 틀린 점 발생
5. 틀린 점을 Importance sampling으로 교정