데이터에서 의미 추출하기

Doing Data Science  
chapter7
데이터에서 의미 추출하기
2015/06/27
이남영(onlywis@gmail.com)

어떤 방식으로 기업들은
데이터에서 의미를 추출할까?

배경1; 데이터과학 경진대회
• 데이터과학 경진대회 역사가 존재
• 지식발견과 데이터마이닝(KDD) 연례 대회
• 넷플릭스 대회(2년에 걸쳐 개최)
• 캐글 대회 등등...
• 데이터 과학 생태계의 일부이자 문화적 힘
• 데이터 과학 체계화에 일조

배경2; 크라우드 소싱
• 전세계 많은 사람들이 문제 해결에 참여
• 역사적으로 오래 된 아이디어
• 1714년 영국 해군의 경도 측정 방법을 공모하여 해결
• 공정한 평가척도, 적절한 상금, 흥미로운 난이도가 필요

캐글Kaggle 모형
•수수료를 받고
• 기업의 문제를 크라우드 소싱으로 해결하기 위해
•경진대회를 개최

사고 실험
• 로봇 평가자의 에세이 채점은 옳은가? 윤리적인가?
1. 인간 채점자들이 항상 공정한 것은 아니다.
2. 기계는 상황을 구조화하고, 이것은 창의성을 억제하는가?
3. 에세이의 목적은 훌륭한 에세이를 쓰는 것인가? 
아니면 표준화된 시험을 잘 보는 것인가?

특징 선택feature selection
• 모형에 넣을 데이터의 부분 집합 선택
• 알고리즘과 통계 모형 구축의 중요한 부분
• 중복되거나 상관이 높은 변수 제거
• “때로는, 더 많은 데이터는 단지 더 많은 데이터에 불과하다”

사례: 체이싱 드래곤
• 체이싱 드래곤이라는 애플리케이션을 설계하였다고 가정
• 첫 달이 지난 후 신규 사용자의 10%만 유지
• 신규 사용자 유치보다는 기존 사용자 유지가 비용적 유리
• 어떻게 기존 사용자를 유지할 것인가?

사용자 유지
1. 데이터 수집
• 사용자의 모든 행동을 time-stamped event log로 저장
2. 데이터 세트로 변환
• 각 행은 사용자, 각 열은 특징으로 구성
• 특징들에 대한 브레인스토밍이 필요(특징 추출feature extraction)
✤ 첫 달에 사용자가 방문한 날의 횟수
✤ 두 번째 방문까지 소요된 총 시간
✤ 사용자의 프로필 작성 유무 등등..
• 특징들 간에 중복과 연관성에 주의

사용자 유지
3. 로지스틱 회귀 분석
• 첫 달 사용자 활동의 조건 아래에서 두 번째 달 사용자가
돌아올 확률 계산
• logit(P(ci =1|xi)) = α + βτ
・xi
• 특징을 선택하여 로지스틱 회귀에 입력
• 특징 선택 방법: 필터, 래퍼, 임베디드

특징 선택 방법; 필터filter
• Model의 성능을 고려하지 않고 특징 선택
• 모든 특징을 척도에 따라 순위를 정하고, 가장 높은 순위의
특징들로 선택
• 특징 간의 중복을 고려하지 않는다

특징 선택 방법; 래퍼wrapper
• Model이 최고의 성능을 내는 특징 선택
• 시간이 오래 걸린다
• 부분집합의 수가 기하급수적으로 늘어 과적합의 위험 발생
• 특징 선택을 위한 알고리즘과 선택기준을 결정해야 함

특징 선택을 위한 알고리즘
1. 전진 선택forward selection
•비어 있는 상태에서 시작
•모형을 가장 많이 향상시키는 특징을 하나씩 점진적으로 추가
•추가 시 선택기준이 향상되지 않을 때 추가를 중단
2. 후진 제거backward elimination
•모두 포함된 상태에서 시작
•제거 시 가장 큰 향상을 가져왔느냐에 따라 점진적으로 제거
•특징 제거가 선택기준을 나쁘게 할 때 추가를 중단
3. 혼합형 접근
•전진 선택과 후진 제거를 함께 사용

특징 선택을 위한 선택기준
• 다수의 선택기준이 존재
• R-제곱값(R
2
)
• P-값
• 아카이케 정보 기준
• 베이지안 정보 기준
• 엔트로피
• 선택기준에 따라 다른 모형이 제작
• 여러 선택기준을 적용 후 결과를 관찰하여 선택

특징 선택 방법; 임베디드 방법
• 의사 결정 나무decision tree
• 분류classification 알고리즘
• 높은 해석가능성의 장점
• 각 단계의 특징을 어떻게 배치할 것인가가 관건
• 데이터에 기반한 특징 배치: 엔트로피

엔트로피entropy
• 무엇이 얼마나 혼합되어 있는지에 대한 척도
• H(X) =−p(X=1)log2(p(X=1)) −p(X=0)log2(p(X=0))
• p(X=1)=0 또는 p(X=0)=0 일 경우  
H(X) = 0
• H(X|a) = Σai p(a=ai)・H(X|a=ai)
• 속성 a의 값을 알 때 X에 대해 얼마나 많은 정보를 알게 되는
가?

가지치기pruning
• 특정한 깊이 아래를 잘라내는 작업
• 방대한 데이터를 학습할 경우 과적합이 발생
• 가지치기를 통해 과적합을 방지하고 정확도 향상

랜덤 포리스트random forest
1. 배깅bagging을 통해 의사결정나무를 일반화
• 학습 데이터에 따라 결과가 크가 달라지는 의사결정나무의 단점을 보완
• 연속 학습을 수행하는 동안 이전 학습에서 틀린 답에 좀 더 초점을 맞춰 학습하는 기법
• 월등히 높은 정확성. 간편하고 빠른 학습 및 테스트
• 해석가능성을 희생. 이해하기가 매우 어렵다
2. 부트스트래핑
•복원추출 표본으로 같은 데이터 포인터를 반복 추출
3. 가지치기를 하지 않는다
• 특이한 잡음을 포함할 수 있는 것이 큰 장점

데이터에서 의미 추출하기

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (10)

Similar to 데이터에서 의미 추출하기

Similar to 데이터에서 의미 추출하기 (20)

데이터에서 의미 추출하기