Little Big Data 2018.10.19 Chi-oh Song ghsehr1@gmail.com 난 "돈 많은 한량"이 되고 싶었어 모든 술집 테이블 曰 가즈아 지금 인터뷰한 2시간동안 30억이 늘어났네요 GAZUA!!!!! All day & 단타 데이터 이해: Candle stick & tick getData & def Labeling() 무엇을 예측할 것인가? 미래 그래프 예측(생성) X시간이 지나기 이전에 α% 이상 상승하락 예측 X ~ Y 시간 사이에 α% 이상 상승하락 예측 day 8 size 160MB row 2,280,000 time 10 hours Labeling() 성능 비교 – Pandas, PySpark TYPE 1 – Pandas를 이용 = 1.3s TYPE 2 – PySaprk 이용, 1시간 동안의 데이터에서 max 값 추출 및 비교 = 210.7s TYPE 3 – PySpark 이용, 1시간 동안의 데이터에서 0.5% 이상 상승 tick 추출 = 0.6s TYPE 4 – PySpark 이용, 0.5%이상 상승 tick에서 1시간 내 tick 추출 = 0.29s PySpark의 복병 collect() Persist()를 통한 7.3배 속도 향상 - Problem Transformation 결과를 이용해 collect() action을 할 때 많은 시간 소요 - Solution Cㅏ이썬 기반의 Numpy seq2seq(sequence to sequence) min loss 0.009 min loss 0.002 1982 (Since 2017.08.17 09:00) 5 (ohlcv) Ta-lib & PCA & dqn 역시 꿈이었나? 느낀 점 역시 이렇게 쉽게 될 리 없다 안정적인 서버가 필요할 때엔 무조건 클라우드 Spark에서 과한 action 남발은 독, 쿼리만 잘 짜도 퍼포먼스 향상 해보고 싶은 점 Tick이 모여 candle이 된다. 이 Tick을 처리가능한 컴퓨팅 파워에서 Tick를 기준으로 학습을 시킨다면? 모든 암호화폐 데이터를 활용하여 앙상블을 한다면? 실시간 재 학습이 가능하다면? 모든 보조지표를 활용한다면? 부자들은 단순히 돈을 버는데 힘을 쓰지 않는다. 돈이 벌리는 시스템을 가지고 있다.