7. Logistic regression
예를 들어 나이와 암 발생여부(1이면 발병, 0이면 정상) 데이터가 주어졌다고 하자.
발병(1)과 정상(0) 사이에 중간 범주가 없을 뿐더러 1과0 은 숫자 그 자체로 의미를 지니지 않는다. 따
라서 종속변수가 범주형 변수일 때는 선형회귀모델을 그대로 적용하는 것은 의미가 없다.
8. Logistic regression
로지스틱 회귀는 확률 모델로서 독립 변수의 선형 결합을 이용하여 사건의 발생 가능
성을 예측하는데 사용되는 통계 기법
로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로
하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에
일종의 분류 (classification) 기법으로도 볼 수 있다.
logistic regression
10. Logistic regression
실제 많은 자연, 사회현상에서는 특정 변수에 대한 확률값이 선형이 아닌 S-커브 형
태를 따르는 경우가 많다. 이러한 S-커브를 함수로 표현해낸 것이 바로 로지스틱 함
수. 분야에 따라 시그모이드 함수로도 불리기도 한다.
로지스틱 함수는 x값으로 어떤 값이든 받을 수가 있지만 출력 결과는 항상 0에서 1사
이 값이 된다. 즉 확률밀도함수(probability density function) 요건을 충족시키는
함수를 말한다.
14. Logistic regression
이항 로지스틱 회귀분석의 목적은 A와 B, 두 카테고리 중 하나로 분류하기 위해 제안되었다.
때때로 종속변수가 질적인 변수로 취할 수 있는 변수의 값이 단지 두 가지밖에 없는 경우가 있다.
선형 회귀분석에서 착안했을 때 우리가 예측하려는 y값을 A일 확률이라 하고, y값(A일 확률)이 0.5보
다 크면 A로 분류하고 0.5보다 작으면 B로 분류하는 것 이다.
15. Logistic regression
회귀식의 장점은 그대로 유지하되 종속변수 Y를 범주가 아니라 (범주1이 될)확률로
두고 식을 세워 보자
그런데 위 식에서 좌변의 범위는 0~1 사이지만 우변은 음의 무한대에서 양의 무한대 범위를
가지기 때문에 식이 성립하지 않는 경우가 존재할 수 있다.
좌변의범위를 무한대까지 해주기 위해서 좌변을 승산(odds)으로 설정해보자.
25. Logistic regression
[참고문헌]
- ratsgo’s blog
(https://ratsgo.github.io/machine%20learning/2017/04/02/logistic/ )
- Wikipedia
- Simple Guide to Logistic Regression in R
(https://www.analyticsvidhya.com/blog/2015/11/beginners-guide-on-logistic-regression-in-r/ )