SlideShare a Scribd company logo
1 of 21
Download to read offline
Policy Gradient를 이용한
인공지능 포트폴리오 매니저
20121661 한규수
20121566 김석환
20121568 김설기
Sogang University
Computer Science and Engineering
[CSEG312] Data Mining
2018. 6. 19
개요
강화학습(Policy Gradient)을 기반으로…
State : 과거 주식 가격 데이터를 이용해
Action : 현재 상태의 최적의 포트폴리오를 만들어
e.g. Portfolio Vector=[A종목 10% 투자, B종목 20%, … , N종목 1%]
Reward : 시장 평균 수익률보다 더 큰 수익률을 달성하도록 학습한다.
데이터 설명 (투자 대상 종목)
만약 일반 주식을 투자 대상 종목으로 하면,
미래의 경험에서 온 선택이 학습에 반영됨
e.g. 삼성전자를 투자 대상 종목에 넣으면,
삼성전자가 현 시점에 상장 폐지되지 않고 남아있음이 결과에 반영된다.
ETF(Exchange-Traded Fund) 15개 종목을 투자 대상 종목으로 하기로 결정
위 15개 종목은 DB GAPS 투자대회에서 투자 대상 종목으로 사용하는 것과 동
일함
데이터 설명 (투자 대상 종목)
1. KODEX 200
2. TIGER 코스닥150
3. TIGER 미국S&P500선물(H)
4. TIGER 유로스탁스50(합성 H)
5. KINDEX 일본Nikkei225(H)
6. TIGER 차이나CSI300
7. KOSEF 국고채10년
8. KBSTAR 중기우량회사채
9. TIGER 단기선진하이일드(합성 H)
10. KODEX 골드선물(H)
11. TIGER 원유선물Enhanced(H)
12. KODEX 인버스
13. KOSEF 미국달러선물
14. KOSEF 미국달러선물인버스
15. KOSEF 단기자금
코스피 지수 추종
코스닥 지수 추종
KODEX 200과 반대로 움직임
데이터 설명 (Preprocessing)
[기본데이터]
앞서 말한 15개 종목의 가격(open, high, low, close)과 거래량(volume)
[전 처리 후 데이터] -> 이 과정 이후로는 데이터들이 Feature가 된다.
e.g. (10000원 - 8000원) / 8000원 => 0.25
강화학습(Policy Gradient) 구조
1. STATE
T 시점에 관찰할 수 있는 가격 데이터
P(T-W+1) ~ P(T)
2. ACTION
T 시점의 최적 포트폴리오 벡터
3. REWARDAGENT ENVIRONMENT
<Train data>
[참고] W는 window size를 의미함
과거 몇 일의 데이터를 볼지~?
4. UPDATE POLICY(Network)
강화학습(Policy Gradient) 구조 (구현방식)
과거 가격데이터는 Agent의 Action에 따라 Environment가 변하지 않으므로,
일반적인 강화학습과는 다르게 Environment와의 상호작용이 필요하지 않다.
Agent 내부 구조(Neural Net)
종목별 투자 비율 = Action !!
Agent 내부 구조(Reward)
- 단순히 수익률을 Reward로 하면,
- 상승장이면 Reward 높고, 하락장이면 Reward 낮음
 목표가 Non-Stationary 하다.
- 따라서 시장 평균 수익률 대비 포트폴리오 수익률을 Reward로 설정함
Mini Batch 기간의 시장 평균 수익률
Mini Batch 기간의 포트폴리오 수익률
Reward = log
Agent 내부 구조(Hyperparameters)
- Convolution Layer 사이에 Dropout(keep_rate 0.5)과 Noise 적용
- 모든 Activation function은 ReLu
- Adam Optimizer (learning rate=0.001)
- Batch size = 30 (30일간의 시장 대비 수익률을 Maximize하는 방향으로
학습한다는 의미를 내포함)
문제 발생…!!!
시장보다 수익률 나쁨 시장과 비슷한 수익률 시장보다 수익률 좋음
매 Run 마다 수렴하는 정책이 다르며, 그에 따른 수익률 변동이 심함
Agent 앙상블과 validation
Validation 데이터에서
Reward 높은 N개 Agent 선발
N개 Agent의 평균 정책을 따른다.
모델 검증
- 데이터 기간 : 2015-11-13 ~ 2018-06-11
- Train 60%, validation 20%, test 20%
- Test 기간(2017-12-04 ~)의 시장 평균 수익률 = 2.05%
1. 16개의 Agent는 train data에 대해 8 Episode 학습 후,
2. Validation data에 대해 reward가 높은 5개의 Agent를 선별,
3. 5 개의 Agent의 평균 정책으로 test 진행
TOP 5 Agent 앙상블
120 거래일
Agent 수익률 = 9.89%
Market 수익률 = 2.05%
Run 1
앙상블 이전보다는 최종 정책의 Variance가 줄어들었다.
그럼에도 불구하고 Run 마다 수렴하는 정책에 차이가 존재한다.
Run 2
120 거래일
Agent 수익률 = 11.49%
문제점
- 앙상블을 적용하였지만 아직도 수렴하는 정책 간의 분산이 크다
- Validation data에 대한 Overfitting이 존재함
- 거래 수수료 고려하지 않았음
- 모든 기간에 대해 테스트하기 어려움
(train, val, test data 설정에 사람의 의도가 반영되므로)
보다 체계적인 train -> validation -> test 방법이 필요함
개선방향 (미처 못한 TODO list)
- Rolling Train & Validation & Test
Train, Validation, Test 데이터를 초기에 분할하지 않고,
t 시점 직전 까지 모든 데이터를 train과 validation에 사용하고
t+1 시점에 대해 test하는 과정을 반복하는 방식
- 거래 수수료 적용
- 각 종목별 상한, 하한 비율 부과
- (당연하게도..) Neural Net 구조 개선
감사합니다.
https://github.com/weed-stock/Policy_Gradient_ETF_Portfolio_Manager
참고자료
• Y Deng et al., Deep Direct Reinforcement Learning for Financial
Signal Representation and Trading, 2017
• Z Jiang et al., A Deep Reinforcement Learning Framework for the
Financial Portfolio Management Problem, 2017
• 김문권, 파이썬과 케라스를 이용한 딥러닝/강화학습 주식투자, 2018
• 대신증권(Creon) PLUS API를 이용하여 지속적인 주가 데이터 DB 구축 프로
그램 (https://github.com/gyusu/Creon-Datareader)
부록
부록
부록

More Related Content

What's hot

스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기Sunyoung Shin
 
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017Taehoon Kim
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호NAVER D2
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기정주 김
 
전형규, 프로젝트DH의 절차적 애니메이션 시스템, NDC2017
전형규, 프로젝트DH의 절차적 애니메이션 시스템, NDC2017전형규, 프로젝트DH의 절차적 애니메이션 시스템, NDC2017
전형규, 프로젝트DH의 절차적 애니메이션 시스템, NDC2017devCAT Studio, NEXON
 
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기Hangil Kim
 
[1023 박민수] 깊이_버퍼_그림자_1
[1023 박민수] 깊이_버퍼_그림자_1[1023 박민수] 깊이_버퍼_그림자_1
[1023 박민수] 깊이_버퍼_그림자_1MoonLightMS
 
NDC2012_마비노기 영웅전 카이 포스트모템_시선을 사로잡는 캐릭터 카이 그 시도와 성공의 구현 일지
NDC2012_마비노기 영웅전 카이 포스트모템_시선을 사로잡는 캐릭터 카이 그 시도와 성공의 구현 일지NDC2012_마비노기 영웅전 카이 포스트모템_시선을 사로잡는 캐릭터 카이 그 시도와 성공의 구현 일지
NDC2012_마비노기 영웅전 카이 포스트모템_시선을 사로잡는 캐릭터 카이 그 시도와 성공의 구현 일지영준 박
 
[Kgc2012] deferred forward 이창희
[Kgc2012] deferred forward 이창희[Kgc2012] deferred forward 이창희
[Kgc2012] deferred forward 이창희changehee lee
 
Form using html and java script validation
Form using html and java script validationForm using html and java script validation
Form using html and java script validationMaitree Patel
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016Taehoon Kim
 
화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개NAVER Engineering
 
2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때 2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때 choi kyumin
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템NAVER D2
 
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)Seongyun Byeon
 
Chapter 18: Transitions, Transforms, and Animation
Chapter 18: Transitions, Transforms, and AnimationChapter 18: Transitions, Transforms, and Animation
Chapter 18: Transitions, Transforms, and AnimationSteve Guinan
 
[0410 박민근] 기술 면접시 자주 나오는 문제들
[0410 박민근] 기술 면접시 자주 나오는 문제들[0410 박민근] 기술 면접시 자주 나오는 문제들
[0410 박민근] 기술 면접시 자주 나오는 문제들MinGeun Park
 
Deview2014 Live Broadcasting 추천시스템 발표 자료
Deview2014 Live Broadcasting 추천시스템 발표 자료Deview2014 Live Broadcasting 추천시스템 발표 자료
Deview2014 Live Broadcasting 추천시스템 발표 자료choi kyumin
 
Oracle eCommerce (ATG) Database Best Practices
Oracle eCommerce (ATG) Database  Best Practices Oracle eCommerce (ATG) Database  Best Practices
Oracle eCommerce (ATG) Database Best Practices Kate Semizhon
 

What's hot (20)

스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기스타트업처럼 토이프로젝트하기
스타트업처럼 토이프로젝트하기
 
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
 
파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기파이썬으로 나만의 강화학습 환경 만들기
파이썬으로 나만의 강화학습 환경 만들기
 
전형규, 프로젝트DH의 절차적 애니메이션 시스템, NDC2017
전형규, 프로젝트DH의 절차적 애니메이션 시스템, NDC2017전형규, 프로젝트DH의 절차적 애니메이션 시스템, NDC2017
전형규, 프로젝트DH의 절차적 애니메이션 시스템, NDC2017
 
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
한국어 문서 추출요약 AI 경진대회- 좌충우돌 후기
 
[1023 박민수] 깊이_버퍼_그림자_1
[1023 박민수] 깊이_버퍼_그림자_1[1023 박민수] 깊이_버퍼_그림자_1
[1023 박민수] 깊이_버퍼_그림자_1
 
NDC2012_마비노기 영웅전 카이 포스트모템_시선을 사로잡는 캐릭터 카이 그 시도와 성공의 구현 일지
NDC2012_마비노기 영웅전 카이 포스트모템_시선을 사로잡는 캐릭터 카이 그 시도와 성공의 구현 일지NDC2012_마비노기 영웅전 카이 포스트모템_시선을 사로잡는 캐릭터 카이 그 시도와 성공의 구현 일지
NDC2012_마비노기 영웅전 카이 포스트모템_시선을 사로잡는 캐릭터 카이 그 시도와 성공의 구현 일지
 
AlexNet.pptx
AlexNet.pptxAlexNet.pptx
AlexNet.pptx
 
[Kgc2012] deferred forward 이창희
[Kgc2012] deferred forward 이창희[Kgc2012] deferred forward 이창희
[Kgc2012] deferred forward 이창희
 
Form using html and java script validation
Form using html and java script validationForm using html and java script validation
Form using html and java script validation
 
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
딥러닝과 강화 학습으로 나보다 잘하는 쿠키런 AI 구현하기 DEVIEW 2016
 
화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개화자인식 기술 및 관련 연구 소개
화자인식 기술 및 관련 연구 소개
 
2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때 2015 py con word2vec이 추천시스템을 만났을때
2015 py con word2vec이 추천시스템을 만났을때
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
 
Chapter 18: Transitions, Transforms, and Animation
Chapter 18: Transitions, Transforms, and AnimationChapter 18: Transitions, Transforms, and Animation
Chapter 18: Transitions, Transforms, and Animation
 
[0410 박민근] 기술 면접시 자주 나오는 문제들
[0410 박민근] 기술 면접시 자주 나오는 문제들[0410 박민근] 기술 면접시 자주 나오는 문제들
[0410 박민근] 기술 면접시 자주 나오는 문제들
 
Deview2014 Live Broadcasting 추천시스템 발표 자료
Deview2014 Live Broadcasting 추천시스템 발표 자료Deview2014 Live Broadcasting 추천시스템 발표 자료
Deview2014 Live Broadcasting 추천시스템 발표 자료
 
Oracle eCommerce (ATG) Database Best Practices
Oracle eCommerce (ATG) Database  Best Practices Oracle eCommerce (ATG) Database  Best Practices
Oracle eCommerce (ATG) Database Best Practices
 

Similar to Policy Gradient를 이용한 인공지능 ETF 포트폴리오 매니저

제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 강화학습을 이용한 주식 트레이딩 알고리즘
제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 강화학습을 이용한 주식 트레이딩 알고리즘제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 강화학습을 이용한 주식 트레이딩 알고리즘
제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 강화학습을 이용한 주식 트레이딩 알고리즘BOAZ Bigdata
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learningTae Young Lee
 
인력효율성지표 Hcroi 예시
인력효율성지표 Hcroi 예시인력효율성지표 Hcroi 예시
인력효율성지표 Hcroi 예시영준 정
 
[NDC16] 게임QA에 리스크 기반 테스팅 이론은 적용 가능한가_황우람
[NDC16] 게임QA에 리스크 기반 테스팅 이론은 적용 가능한가_황우람[NDC16] 게임QA에 리스크 기반 테스팅 이론은 적용 가능한가_황우람
[NDC16] 게임QA에 리스크 기반 테스팅 이론은 적용 가능한가_황우람Wooram Hwang
 
[Qraft] ai enhanced high dividend yield strategy eunchongkim
[Qraft] ai enhanced high dividend yield strategy eunchongkim[Qraft] ai enhanced high dividend yield strategy eunchongkim
[Qraft] ai enhanced high dividend yield strategy eunchongkim형식 김
 
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)Hanbin Seo
 
스타트업의 데이터 분석
스타트업의 데이터 분석스타트업의 데이터 분석
스타트업의 데이터 분석Hyunjong Wi
 
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법topshock
 
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법topshock
 
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법topshock
 
Benefits of A/B testing
Benefits of A/B testingBenefits of A/B testing
Benefits of A/B testingClaire Lee
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with TajoGruter
 
Promotions_2nd_SYS4U I&C
Promotions_2nd_SYS4U I&CPromotions_2nd_SYS4U I&C
Promotions_2nd_SYS4U I&Csys4u
 
사업타당성 분석(Cm교육 김선국)
사업타당성 분석(Cm교육 김선국)사업타당성 분석(Cm교육 김선국)
사업타당성 분석(Cm교육 김선국)JiWoon Yi
 
7 2014 전기전자 세미나 2주제(업무 정보화 시스템 개발 사례)-140813
7 2014 전기전자 세미나 2주제(업무 정보화 시스템 개발 사례)-1408137 2014 전기전자 세미나 2주제(업무 정보화 시스템 개발 사례)-140813
7 2014 전기전자 세미나 2주제(업무 정보화 시스템 개발 사례)-140813topshock
 
TNK Factory App Analytics & Tracking Tool Introduction (티앤케이팩토리 앱분석 및 트래킹 솔루션)
TNK Factory App Analytics & Tracking Tool Introduction (티앤케이팩토리 앱분석 및 트래킹 솔루션)TNK Factory App Analytics & Tracking Tool Introduction (티앤케이팩토리 앱분석 및 트래킹 솔루션)
TNK Factory App Analytics & Tracking Tool Introduction (티앤케이팩토리 앱분석 및 트래킹 솔루션)Heetae Shin
 
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차chan693050
 
(이융)Mb발표자료 수정본7 160512
(이융)Mb발표자료 수정본7 160512     (이융)Mb발표자료 수정본7 160512
(이융)Mb발표자료 수정본7 160512 융 이
 

Similar to Policy Gradient를 이용한 인공지능 ETF 포트폴리오 매니저 (20)

제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 강화학습을 이용한 주식 트레이딩 알고리즘
제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 강화학습을 이용한 주식 트레이딩 알고리즘제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 강화학습을 이용한 주식 트레이딩 알고리즘
제9회 보아즈(BOAZ) 빅데이터 컨퍼런스 - 강화학습을 이용한 주식 트레이딩 알고리즘
 
Reinforcement learning
Reinforcement learningReinforcement learning
Reinforcement learning
 
분석6기 4조
분석6기 4조분석6기 4조
분석6기 4조
 
인력효율성지표 Hcroi 예시
인력효율성지표 Hcroi 예시인력효율성지표 Hcroi 예시
인력효율성지표 Hcroi 예시
 
[NDC16] 게임QA에 리스크 기반 테스팅 이론은 적용 가능한가_황우람
[NDC16] 게임QA에 리스크 기반 테스팅 이론은 적용 가능한가_황우람[NDC16] 게임QA에 리스크 기반 테스팅 이론은 적용 가능한가_황우람
[NDC16] 게임QA에 리스크 기반 테스팅 이론은 적용 가능한가_황우람
 
[Qraft] ai enhanced high dividend yield strategy eunchongkim
[Qraft] ai enhanced high dividend yield strategy eunchongkim[Qraft] ai enhanced high dividend yield strategy eunchongkim
[Qraft] ai enhanced high dividend yield strategy eunchongkim
 
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
 
Rl
RlRl
Rl
 
스타트업의 데이터 분석
스타트업의 데이터 분석스타트업의 데이터 분석
스타트업의 데이터 분석
 
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
 
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
 
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
5.(2주제 절삭가공) 구체적으로 추진하는 원가절감 수법
 
Benefits of A/B testing
Benefits of A/B testingBenefits of A/B testing
Benefits of A/B testing
 
Data analysis with Tajo
Data analysis with TajoData analysis with Tajo
Data analysis with Tajo
 
Promotions_2nd_SYS4U I&C
Promotions_2nd_SYS4U I&CPromotions_2nd_SYS4U I&C
Promotions_2nd_SYS4U I&C
 
사업타당성 분석(Cm교육 김선국)
사업타당성 분석(Cm교육 김선국)사업타당성 분석(Cm교육 김선국)
사업타당성 분석(Cm교육 김선국)
 
7 2014 전기전자 세미나 2주제(업무 정보화 시스템 개발 사례)-140813
7 2014 전기전자 세미나 2주제(업무 정보화 시스템 개발 사례)-1408137 2014 전기전자 세미나 2주제(업무 정보화 시스템 개발 사례)-140813
7 2014 전기전자 세미나 2주제(업무 정보화 시스템 개발 사례)-140813
 
TNK Factory App Analytics & Tracking Tool Introduction (티앤케이팩토리 앱분석 및 트래킹 솔루션)
TNK Factory App Analytics & Tracking Tool Introduction (티앤케이팩토리 앱분석 및 트래킹 솔루션)TNK Factory App Analytics & Tracking Tool Introduction (티앤케이팩토리 앱분석 및 트래킹 솔루션)
TNK Factory App Analytics & Tracking Tool Introduction (티앤케이팩토리 앱분석 및 트래킹 솔루션)
 
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차언론사에 구글 애널리틱스 도입하기 - 강의 1주차
언론사에 구글 애널리틱스 도입하기 - 강의 1주차
 
(이융)Mb발표자료 수정본7 160512
(이융)Mb발표자료 수정본7 160512     (이융)Mb발표자료 수정본7 160512
(이융)Mb발표자료 수정본7 160512
 

Policy Gradient를 이용한 인공지능 ETF 포트폴리오 매니저

  • 1. Policy Gradient를 이용한 인공지능 포트폴리오 매니저 20121661 한규수 20121566 김석환 20121568 김설기 Sogang University Computer Science and Engineering [CSEG312] Data Mining 2018. 6. 19
  • 2. 개요 강화학습(Policy Gradient)을 기반으로… State : 과거 주식 가격 데이터를 이용해 Action : 현재 상태의 최적의 포트폴리오를 만들어 e.g. Portfolio Vector=[A종목 10% 투자, B종목 20%, … , N종목 1%] Reward : 시장 평균 수익률보다 더 큰 수익률을 달성하도록 학습한다.
  • 3. 데이터 설명 (투자 대상 종목) 만약 일반 주식을 투자 대상 종목으로 하면, 미래의 경험에서 온 선택이 학습에 반영됨 e.g. 삼성전자를 투자 대상 종목에 넣으면, 삼성전자가 현 시점에 상장 폐지되지 않고 남아있음이 결과에 반영된다. ETF(Exchange-Traded Fund) 15개 종목을 투자 대상 종목으로 하기로 결정 위 15개 종목은 DB GAPS 투자대회에서 투자 대상 종목으로 사용하는 것과 동 일함
  • 4. 데이터 설명 (투자 대상 종목) 1. KODEX 200 2. TIGER 코스닥150 3. TIGER 미국S&P500선물(H) 4. TIGER 유로스탁스50(합성 H) 5. KINDEX 일본Nikkei225(H) 6. TIGER 차이나CSI300 7. KOSEF 국고채10년 8. KBSTAR 중기우량회사채 9. TIGER 단기선진하이일드(합성 H) 10. KODEX 골드선물(H) 11. TIGER 원유선물Enhanced(H) 12. KODEX 인버스 13. KOSEF 미국달러선물 14. KOSEF 미국달러선물인버스 15. KOSEF 단기자금 코스피 지수 추종 코스닥 지수 추종 KODEX 200과 반대로 움직임
  • 5. 데이터 설명 (Preprocessing) [기본데이터] 앞서 말한 15개 종목의 가격(open, high, low, close)과 거래량(volume) [전 처리 후 데이터] -> 이 과정 이후로는 데이터들이 Feature가 된다. e.g. (10000원 - 8000원) / 8000원 => 0.25
  • 6. 강화학습(Policy Gradient) 구조 1. STATE T 시점에 관찰할 수 있는 가격 데이터 P(T-W+1) ~ P(T) 2. ACTION T 시점의 최적 포트폴리오 벡터 3. REWARDAGENT ENVIRONMENT <Train data> [참고] W는 window size를 의미함 과거 몇 일의 데이터를 볼지~? 4. UPDATE POLICY(Network)
  • 7. 강화학습(Policy Gradient) 구조 (구현방식) 과거 가격데이터는 Agent의 Action에 따라 Environment가 변하지 않으므로, 일반적인 강화학습과는 다르게 Environment와의 상호작용이 필요하지 않다.
  • 8. Agent 내부 구조(Neural Net) 종목별 투자 비율 = Action !!
  • 9. Agent 내부 구조(Reward) - 단순히 수익률을 Reward로 하면, - 상승장이면 Reward 높고, 하락장이면 Reward 낮음  목표가 Non-Stationary 하다. - 따라서 시장 평균 수익률 대비 포트폴리오 수익률을 Reward로 설정함 Mini Batch 기간의 시장 평균 수익률 Mini Batch 기간의 포트폴리오 수익률 Reward = log
  • 10. Agent 내부 구조(Hyperparameters) - Convolution Layer 사이에 Dropout(keep_rate 0.5)과 Noise 적용 - 모든 Activation function은 ReLu - Adam Optimizer (learning rate=0.001) - Batch size = 30 (30일간의 시장 대비 수익률을 Maximize하는 방향으로 학습한다는 의미를 내포함)
  • 11. 문제 발생…!!! 시장보다 수익률 나쁨 시장과 비슷한 수익률 시장보다 수익률 좋음 매 Run 마다 수렴하는 정책이 다르며, 그에 따른 수익률 변동이 심함
  • 12. Agent 앙상블과 validation Validation 데이터에서 Reward 높은 N개 Agent 선발 N개 Agent의 평균 정책을 따른다.
  • 13. 모델 검증 - 데이터 기간 : 2015-11-13 ~ 2018-06-11 - Train 60%, validation 20%, test 20% - Test 기간(2017-12-04 ~)의 시장 평균 수익률 = 2.05% 1. 16개의 Agent는 train data에 대해 8 Episode 학습 후, 2. Validation data에 대해 reward가 높은 5개의 Agent를 선별, 3. 5 개의 Agent의 평균 정책으로 test 진행
  • 14. TOP 5 Agent 앙상블 120 거래일 Agent 수익률 = 9.89% Market 수익률 = 2.05% Run 1 앙상블 이전보다는 최종 정책의 Variance가 줄어들었다. 그럼에도 불구하고 Run 마다 수렴하는 정책에 차이가 존재한다. Run 2 120 거래일 Agent 수익률 = 11.49%
  • 15. 문제점 - 앙상블을 적용하였지만 아직도 수렴하는 정책 간의 분산이 크다 - Validation data에 대한 Overfitting이 존재함 - 거래 수수료 고려하지 않았음 - 모든 기간에 대해 테스트하기 어려움 (train, val, test data 설정에 사람의 의도가 반영되므로) 보다 체계적인 train -> validation -> test 방법이 필요함
  • 16. 개선방향 (미처 못한 TODO list) - Rolling Train & Validation & Test Train, Validation, Test 데이터를 초기에 분할하지 않고, t 시점 직전 까지 모든 데이터를 train과 validation에 사용하고 t+1 시점에 대해 test하는 과정을 반복하는 방식 - 거래 수수료 적용 - 각 종목별 상한, 하한 비율 부과 - (당연하게도..) Neural Net 구조 개선
  • 18. 참고자료 • Y Deng et al., Deep Direct Reinforcement Learning for Financial Signal Representation and Trading, 2017 • Z Jiang et al., A Deep Reinforcement Learning Framework for the Financial Portfolio Management Problem, 2017 • 김문권, 파이썬과 케라스를 이용한 딥러닝/강화학습 주식투자, 2018 • 대신증권(Creon) PLUS API를 이용하여 지속적인 주가 데이터 DB 구축 프로 그램 (https://github.com/gyusu/Creon-Datareader)