Successfully reported this slideshow.
Upcoming SlideShare
×

# [216]딥러닝예제로보는개발자를위한통계 최재걸

2,945 views

Published on

[216]딥러닝예제로보는개발자를위한통계 최재걸

Published in: Technology
• Full Name
Comment goes here.

Are you sure you want to Yes No
• Be the first to comment

### [216]딥러닝예제로보는개발자를위한통계 최재걸

1. 1. Statistics for Computer Science 최재걸 통합검색
2. 2. Deview 2015.. Data Mining (KDD) Machine Learning ( AI ) Statistics From http://www.kdnuggets.com/2014/06/data-science-skills-business-problems.html
3. 3. 1. ML, DM and Statistics
4. 4. 1.1Data Mining From www.saedasayad.com -Solving everything -Algorithmic & Efficient
5. 5. 1.3 Data Mining - Experience 데이터마이닝으로 해결한 문제가 많다 해결못한 것도 많다
6. 6. 1.2 Machine Learning From http://www.humphreysheil.com/blog/dee p-learning-and-machine-learning -AI is all of computer science -Learn, learn and learn
7. 7. 1.2 Machine Learning - experience 머신 러닝으로 해결한 문제도 많다. 해결 안되는 것도 많다
8. 8. 1.3 Statistics From www.quora.com - The World is probabilistic - Model and Distribution Too formal but strong
9. 9. 1.4 Why statistics? Data Mining (KDD) Machine Learning ( AI ) Statistics DATA  Probability – inevitably Association Rule ( Conditional Probability) K-means ( EM ) 1. NO BLACK BOX 2. BREAKTHROUGH 畵龍點睛
10. 10. 2. A Statistical View of Deep Learning From http://blog.shakirm.com/wp- content/uploads/2015/07/SVDL.pdf
11. 11. 2.1 Deep Learning in ML Neural Net을 알고있으니 잘 할 수 있을거라 생각. 2012년 input hidden output Class..두개니까.. 1,0 Sigmoid로 activation 숫자.. 음.. 4개의 classifier 목적함수 J 만들고, 학습은, 미분해서 backpropagation.. “Oh.. Piece of Cake!”
12. 12. 2.1 Deep Learning in ML !!! 구글 DistBelief “그래봐야 뉴럴넷”
13. 13. 2.1 Deep Learning in ML 딥러닝이 너무 선전… 나도 해야하는 것 아닌가? 2013년 input hidden1 output hidden2 숫자.. 4개의 classifier 다시 3개.. Class..두개니까.. 1,0 Hidden node 에서 엑티베이션. 다시 hidden. Correlation을 엄청나게 고려하겠다는 거군.. Ok! “Oh.. Piece of Cake!”
14. 14. 2.1 Deep Learning in ML 도전!!! CNN 갑자기 왠 컨볼루션? Sub-sampling? “막하자는겁니까?”
15. 15. 2.1 Deep Learning in ML 딥러닝은 운명. 7전8기 input hidden1 hidden2 “3차 포기 임박” outputhidden3 Stochastic gradient descent는 많이 쓰는 거고, Overfitting이야 생길수 있으니, 정규화패턴 넣어주고. Vanishing problem? ReLU, Drop OUT ?.. ㅠㅜ.
16. 16. 2.1 Deep Learning in ML ReLU의 정체 Hinton 교수가 2010년 BM 의 성능이 향상된다고 발표한 것. “Activation function은 이름을 잘못지었다.” Hinton. The Great British
17. 17. 2.1 Deep Learning in Statistics ReLU의 정체 g 맞긴 하지만 그렇게만 말하면 안되지 않나요...ㅠㅜ g는 Sigmoid 함수  목적은 activation하기 위해서.. “Sigmoid 가 아니어도 된다. Non-linear하게 값을 전달하고자 할뿐”Linear Model Sigmoid 자리에 다른 함수가 들어가도 된다..
18. 18. 2.1 Deep Learning in Statistics Generalized Function g Generalized Linear Model Sigmoid 자리에 다른 함수가 들어가도 된다.. weight input 1. Output이 linear 2. Output 이 1,0 3. Output 이 횟수 4. Output이 linear가 아닐때..
19. 19. 2.2 Deep Learning in Statistics Generalized Linear Model input hidden1 GLM Layer 하나가 여러 개의 GLM으로 파악된다. LM g GLMs “glm은 매우 익숙”
20. 20. 2.2 Deep Learning in Statistics Recursive Generalized Linear Model GLM의 중첩이 DNN이다. LM g GLMs input hidden1 output hidden2 LM g 𝔼[y] x
21. 21. 2.3 GLM의 link function 액티베이션함수Statistics의 링크함수 Logistic ( logit) Sigmoid Multinomial( M logit) Softmax Tobit (Censored Probit) ReLU !! Poisson (count) - The Great Hinton( 2010) 어디서 힌트를 얻었을까? Probit ( Normal) - 링크 vs 엑티베이션 비어있음!! – 새 영역 LM g x
22. 22. 2.3 Anti-Overfit GLM 에서 overffit 막으려고 하는 것 – Regularization Term Machine LearningStatistics L1 ( Lasso ) - ( non –convex) L2 ( Gaussian ) L2 Lp-norm - AIC, BIC - (쓸 수 없음) 비어있음!! 𝐽 = 𝐶𝑜𝑠𝑡 + 𝜆 𝑤2
23. 23. 2.4 DROP-OUT 추정해야할 변수가 너무 많을때 통계에서는 .. BreakThrough Machine Learning Statistics Spike and Slab ( 1988)Drop OUT (2014)
24. 24. 2.5 Deep = Recursive “Recursive XXXs” LM g GLMs LM g 𝔼[y] x Recursive System = deep Only Linear? NO!
25. 25. 2.6 Deep Boltzman Machine Recursive Auto Encoder Boltzman Machine을 recursive하게 연결. Hinton. The Great British RBM g RBM RBM g 𝔼[y] x
26. 26. 2.7 Deep Gaussian Mixture Gaussian Mixture 를 recursive하게 연결해도 될까? GMM g GMM g 𝔼[y] x 된다. 2014년 publish 됨. 뉴럴넷 그림만 보면 알 수 없음 논문 주제
27. 27. 2.7 Deep Gaussian Mixture -cont Unsupervised Learning with Deep Gaussian Mixture Model 𝑑 𝑑𝜃 𝑙𝑛𝑝 𝑋 𝜋, 𝜇, Σ = 𝜋 𝑝 𝑁 𝑥 𝑛 𝜇 𝑝, Σ 𝑝 𝜋 𝑞 𝑁 𝑥 𝑛 𝜇 𝑞, Σ 𝑞𝑞∈Φ𝑛,𝑝 𝑑 𝑑𝜃 𝑙𝑛𝑁 𝑥 𝑛 𝜇 𝑝, Σ 𝑝
28. 28. 2.8 Convolutionary NN 재도전!!! CNN CON g LM g 𝔼[y] x “막하는것아님”
29. 29. 2.8 정리하면.. Statistical View 로 clear하게 deep learning을 볼 수 있다. BreakThrough Statistics 영역에서 이미 연구된 것들이 영감을 줄 수 있다.
30. 30. 3. Statistics for Computer Science
31. 31. 3.1 Agony.. D- 재수강 Drop 네번..
32. 32. 3.2 Learn from problem-solving Gaussian Mixture Model for MUSIC ( 2012 ) Beat빠르기 전자음 가우시언믹스쳐를 알고는 있었지만, 사용할 수 없을 것 같았음. 실제 상황 + 이론 “느리니까 쓰지않는다.”
33. 33. 3.3 Roughly saying about Statistics.. 분포통계기술통계 검정통계회귀통계
34. 34. 3.4 기초통계 입사한지 얼마 안되었을 때.. “기초통계를 보고싶다” “송중기가 어떻게생겼는가?” ->잘생겼네. ->눈은어떻고,코는어떻고,… 평균 Median, quantile, variance, … “데이터가 어떻게 생겼는지 알고싶다”
35. 35. 3.5 분포통계 Dirichlet - 드리쉴레.. 드리끌레.. 그건 어느 나라 말입니까? LDA ( 2010) 분포의 식에 현혹.. 분포의 관계로 부터 출발
36. 36. 3.5 분포통계 제가 사용하는 분포 구조입니다. 베르누이 이항분포 정규분표 t분표 카이스퀘 어분표 F분표 다항분포 다변량정 규분표 베타분포 드리쉴레 분포 프아송 분포 감마분포 (지수분포) 검정통계continuousdiscrete 동전던지기 여러번 무한번 평균 제곱: 분산 나누기 일정시간 거꾸로 거꾸로 거꾸로 주사위 여러번 무한번
37. 37. 3.5 분포통계 제가 사용하는 분포 구조입니다. 베르누이 이항분포 정규분표 t분표 카이스퀘 어분표 F분표 다항분포 다변량정 규분표 베타분포 드리쉴레 분포 프아송 분포 감마분포 (지수분포) 검정통계continuousdiscrete bernuill binomial poisson multinomial Multivariate normaml gaussian beta dirichlet Student t Chi-square F Gamma 일정시간 -
38. 38. 3.5 분포통계 예제 Latent Dirichlet Allocation : LDA ( 2010) 다항분포 드리쉴레 분포 multinomial dirichlet 실전!
39. 39. 3.6 회귀통계 하고 싶은 것은.. 각 feature의 Weight 학습. 𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝜖 R에서 lm 하면됨. 로지스틱? 쁘아송? 감마? …
40. 40. 3.6 회귀통계 Y가 좀 너무 크거나, 작으면.. 약간 이상해 지는 느낌… 𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝜖 1년간 회사를 그만둔 사람 수? 좀 작은데.. 연봉..? 좀 너무 숫자가 큰데.. poisson gamma
41. 41. 3.6 회귀통계 Y가 좀 너무 크거나, 작으면.. 약간 이상해 지는 느낌… 𝑦 = 𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝜖 1년간 회사를 그만둔 사람 수? 좀 작은데.. 연봉..? 좀 너무 숫자가 큰데.. poisson gamma logistic Multi logistic identity
42. 42. 3.6 회귀통계 예제 노출되는 랭킹과 클릭수와의 관계 𝑦 = 𝑤1 𝑥1 + 𝜖 10000 = w*1등 + error 5000 = w*2등 + error 중요한건 Y 의 분포  분포를 알아야.. log(𝑦) = 𝑤1 𝑥1 + 𝜖 LINEARNON-L
43. 43. 3.6 통계 분포 + 회귀 + 검정  경험으로 습득 poisson gamma logistic Multi logistic identity 평균 분산
44. 44. 3.7 유클리드. From wikipedia
45. 45. 마치며.. - Statistics can inspire. - Statistics, not from book but from problem-solving.
46. 46. Q&A
47. 47. Thank You