2. Sogang University
목차
1. 문제 정의
2. Support vector machine (SVM)
2.1 Hard SVM
2.2 Soft SVM
3. Loss function – ramp loss
4. 결론
Page 1/18
3. Sogang University
1. 문제 정의
Overfitting을 줄이며 학습하는 방법
1) Sample의 차원 수를 늘림
2) VC dimension을 줄임
고차원의 데이터 처리를 필요로 함
1) 상용화 수준의 데이터 처리 필요
• Ex> 음성인식은 40차원 이상의 vector 사용
2) linear decision boundary 사용 필요
• Nonuniform learnability를 보장하기 위함
고차원의 sample에 대해 VC dimension을 줄여야 함
Page 2/18
4. Sogang University
2. Support vector machine (SVM)
Support vector machine (SVM)
Classes 사이의 공간(margin)을 최대화함
• Gap 내부의 sample은 학습 시 고려하지 않음
– Shattering 할 수 있는 sample이 줄어들어 VC dimension을 줄임
• SVM은 최대 margin 을 가지는 경계를 찾는 것
Page 3/18
그림 출처: http://excelsior-cjh.tistory.com/66
5. Sogang University
Support vector machine (SVM)
Hyperplane (decision boundary)
• Sample들의 class를 효과적으로 분류 할 수 있는 경계
Support vector
• Hyperplane까지의 거리가 가장 짧은 벡터
2. Support vector machine (SVM)
그림 출처: http://gentlej90.tistory.com/43
Page 4/18
6. Sogang University
Support vector machine (SVM)
Hyperplane
(1)
• 모든 sample에 대해,
– Sample이 분류 가능한(>0) 벡터 상의 linear한 공간
• x: vector 공간 상의 sample 의 위치
• y: sample의 class
• b: hyperplane의 bias (학습 시 update 되는 부분)
• w: normal vector (학습 시 update 되는 부분)
2. Support vector machine (SVM)
Page 5/18
7. Sogang University
Support vector machine (SVM)
Support vector
(2)
• Hyperplane을 만족하는 조건 하에서,
– 가장 가까운 sample과의 거리
• x: vector 공간 상의 sample 의 위치
• y: sample의 class
• b: hyperplane의 bias (학습 시 update 되는 부분)
• w: normal vector (학습 시 update 되는 부분)
2. Support vector machine (SVM)
Page 6/18
8. Sogang University
Hard SVM
(3)
• Hyperplane을 만족하는 조건 하에,
• Support vector의 길이가 최대가 되도록
– w,b를 변경하는 수식
• x: vector 공간 상의 sample 의 위치
• y: sample의 class
• b: hyperplane의 bias (학습 시 update 되는 부분)
• w: normal vector (학습 시 update 되는 부분)
2.1 Hard SVM
Page 7/18
9. Sogang University
Hard SVM
• x: vector 공간 상의 sample 의 위치
• y: sample의 class
• b: hyperplane의 bias (학습 시 update 되는 부분)
• w: normal vector (학습 시 update 되는 부분)
2.1 Hard SVM
Page 8/18
10. Sogang University
Hard SVM의 문제점
Practical한 경우에 hard SVM을 거의 사용할 수 없음
• 대부분 sample이 class 별로 적절하게 분포되어 있지 않음
– 만일 이상적으로 sample 들이 분류되어 있다면 학습할 필요가 없음
• Sample noise
– 어떠한 sample mixture를 형성할 때, 범위 밖의 sample들
2.2 Soft SVM
Page 9/18
그림 출처: http://goodtogreate.tistory.com/entry/Support-Vector-Machine
12. Sogang University
Loss function
여러 개의 hypothesis 중 가장 적절한 모델을 찾기 위한
기준
• Pure SVM에서는 hinge loss를 사용함
본 교재에서는 ramp loss를 소개함
3. Loss function – ramp loss
Page 11/18
13. Sogang University
4. 결 론
데이터의 차원 증가는 피할 수 없음
복잡한 대용량 데이터에 대한 처리 방법이 필요
고차원의 데이터에 대해 VC dimension을 줄여야 함
Support Vector Machine
SVM은 classes간의 margin을 최대화하여 분류함
기존 hard SVM에 noise를 처리하기 위한 soft SVM 제안
Page 12/18
14. Sogang University
참고 문헌
Huang X., Lei S., and Suykens J. (2014) “Ramp loss
linear programming support vector machine,”
Journal of Machine Learning Research, pp. 2185-
2211.
Cortes, C., & Vapnik, V. (1995). “Support vector
machine,” Machine Learning, 1303–1308.
https://doi.org/10.1007/978-0-387-73003-5_299
Duda, R. O., Hart, P. E., & Stork, D. G. (2012).
“Pattern classification,” John Wiley & Sons.
Page 13/18