[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )

데이터 분석
Head First Data Analysis
타임게이트 SW 연구소
강 승 우

목차
• 잘게 쪼개라 (ACME 화장품 매출)
• 이론을 검증하라 (스타버즈 커피)
• 최대한 가져가기 (목욕친구사)
• 그림은 여러분을 더 똑똑하게 만든다 (뉴 아미사)
• 그렇지 않다고 말해줘 (일렉트로스키니 사)
• 첫걸음을 내딛다 (도마뱀 독감)
• 숫자에 대한 믿음 (백워터 인베스트먼트사)
• 인간처럼 분석한다(쓰레기 무단투기 방지협회)
• 숫자의 모양(연말평가의 협상여부)
• 예측 (임금협상 컨설팅 회사)
• 오차를 잘 처리하다 (협상 컨설팅에 대한 컴플레인 처리)
• 관련지어보자 (데이터빌 특보사)
• 순서를 부여하다 (헤드퍼스트 헤드헌터사)

잘게 쪼개라 – divide & conquer
• ACME 화장품 매출 증대 방안 요청
– 목표를 명확히 한다 (가능한 수치화)
– 목표로 가능 방법을 분해한다
– 분해한 내용을 데이터 기반으로 평가한다
– 평가를 바탕으로 권고안을 낸다.
• ACME 화장품 매출 증대 경과
– 초기 분해는 TV 광고 vs SNS 광고 vs 가격인하
– 초기 Target 고객은 10 대 초반 여성
– 1차 권고는 가격인하 없이 TV 광고 늘리기
 신문 기사 : 10대 초반 시장 포화. ACME 화장품이 독과점 상태
– 모르는 부분을 확인하여 새로운 Target 선정  중년 남성이 면도후 구매
– 중년 남성을 위한 브랜드 개발 판매  매출 상승

이론을 검증하라 – 인과관계 검증
• 스타버즈 커피의 부진  매출 정상화 방안은?
– 스타버즈 고객에 대한 설문 분석  평균적으로 Valeu(가성비) 하락 확인  불황에 따른 수입 감소 영향?
– 소호점 매니저의 반대 의견(가치 하락은 없다)  지역별로 나누어 설문 분석  소호점외에는 모두 하락
 대처 방안은?
– 2가지 주장 : 1) 가격 인하 (CFO), 2)브랜드 이미지 강화 (마케팅)
• 1차 실험  1달간 전사적인 가격 인하
– 매출은 전달 대비 다소 상승  가격 인하를 하지 않았을 경우와의 비교는?
– 대조군이 없음  따라서 효과를 분석할 수 없음
– 대조군을 만들 수 있는 방법은?
• 2차 실험  한 지역(태평양)에서 인하하여, 다른 지역(소호, 미드 애틀란틱)과 비교
– 태평양 지역 매출 상승, 대조군은 유지  교란인자는 없는가? (지역의 날씨 등의 영향 가능)
• 3차 실험  각 지역을 소지역으로 나누어, 임의로 가격인하, 브랜드 강화, 대조군으로 3그룹화
– 3가지 대조군의 결과를 통해 브랜드 강화가 가장 효과가 있음을 증명

최대한 가져가기 – 최적화 솔루션 발견
• 목욕친구사의 최대 이익 만들기  고무 물고기와 고무 오리 최적의 생산 비율은?
– 통제할 수 있는 것과 통제할 수 없는 것에 대한 구체적인 숫자가 필요하다
– P = C1 * X1 + C2 * X2 ( 이익 = 오리 개당 이익 X 오리 갯수 + 물고기 개당 이익 X 물고기 갯수 )
– 제약 조건
 시간제약 : 물고기 300개, 오리 400개, 고무 제약 : 50000 알갱이(오리 : 100, 물고기 : 125 필요)
 Excel 의 Solver 사용을 통한 최적해 계산
 목표 Cell, 해의 조건, 값을 바꿀 Cell, 제한 조건 입력  실행 !!! (오리 400개, 물고기 80개)
 판매 이익은? : 바닥  물고기는 매진. 오리는 팔리지 않는다.
• 모든 모델은 틀렸다. 그러나 일부는 유용하다. -조지 막스
• 오리와 물고기의 판매량 통계치 분석  오리의 최대 판매량과 물고기의 최대 판매량 추정
– 오리 최대 판매량 추정 : 150 , 물고기의 최대 판매량 추정 : 50  제약 추가
– 오리 : 150개, 물고기 :50개 생산하여 여분의 고무를 남긴 상태가 최대 이익
 변수간의 관계가 바뀐다면 모델을 점검해야 한다 : 모델 변경에 대비!!!

그림은 여러분을 더 똑똑하게 만든다 – 데이터 시각화
• 뉴아미 사의 웹사이트 최적화  3가지 웹사이트 중에서 매출을 최대화하는 디자인은?
– 많은 데이터를 시각화할 경우 중요한 점은?  미려한 것이 아니다!!
 데이터 시각화란 ‘적절한 비교’
– 산포도는 탐색적 데이터 분석을 위한 훌륭한 도구  다양한 변수를 시각화할 수 있다면 최고!!!
– R의 xyplot()을 이용하면 각 홈페이지별 변수(체류시간, 조회수, 재방문횟수)에 따른 매출 비교 가능
시각화는 좋은데, 왜 #3 이 가장 매출이 높은지 인과관계는?
• 실험 계획 담당자의 테스트 데이터 추가
– 속도는 #2 -> #3 -> #1 순, 페이지 색상의 밝음은 #3 -> #2 -> #1
– 추가된 데이터를 바탕으로 #3을 중심으로 몇 가지 가설 및 추가적인 테스트 제안.
– 테스트를 위한 대조군 생성및 항목별 AB 테스트 제안!!!!
 시각화는 데이터, 적절한 비교, 다양한 변수를 보여준다. !!!
 시각화 정보를 다양한 가설을 통해 평가하고, 향후 검증할 항목 제시!!!

그렇지 않다고 말해줘 – 가설 검정
• 일렉트로스키니 사의 제품 출시 시기 결정  팟폰 사의 새 제품은 언제 출시되나?
– 팟폰사의 신기종 출시에 대한 정보 정리  강력한 증거는 없음
– 팟폰사의 단말기 출시 전략 메모 입수
 메모 상의 각 항목의 관계 도식화 ( 경쟁사 제품 출시 – (-) – 팟폰사 제품 출시 – (+) – 팟폰사 매출 …)
 다양한 변수들의 상관 관계는 네트워크 다이어그램으로 도식화
– 현실 세계의 인과관계는 선형이 아닌 네트워크 형
• 팟폰사의 가설 설정  내일, 다음달, 6개월후, 1년후, 출시 중지
– 각 가설을 초기 정보와 팟폰사의 출시 전략에 따라서 검증을 실시
– 반증을 사용  검증에 실패한 가설을 제거해 나감 ( ‘만족화’는 권장하지 않음 )
– 가능성 진단은 부정하는 가설을 찾는데 도움!!! (표 참조)
가장 가능성이 있는 가설은? H3(6개월)
• 새로운 증거  핏폰사의 파티(단말기 돌려보기)
– H2(다음달)을 뒷받침하는 강력한 증거
 새로운 증거에 의한 H2 가설 선정 !!!
핏폰 정보 H2(다음달) H3(6개월후) H4(1년후)
최대 투자 + + +
경쟁사출시 - ++ +
경제 호황 + + -
CEO 출시연기
(소문)
- - +

첫 걸음을 내딛다 – 베이즈 정리와 기준 비율
• 도마뱀 독감 양성 반응  도마뱀 독감에 걸렸을 확률은?
– 해당 검사의 정확도 : 독감의 경우 양성 확률은 90%, 독감이 아닌 경우 양성 확률은 9%
 독감일 확률은 얼마나 될까? 많은 경우 틀린 예상을 한다 !!!!!
– TP(True Positive), FP(False Positive), TN(True Negative), FN(False Negative) 양을 고려해야!!!
( 각각 P(+:L), P(+:~L), P(-:~L), P(-:L) 로 표시가 됨 )
– 독감 확률을 계산하기 위해 추가로 필요한 정보는  기준비율(base rate)
독감에 걸린 사람 vs 독감에 걸리지 않은 사람의 비율
 P(L:+) = P(L)*P(+:L)/ [ P(L)*P(+:L) + P(~L)*P(+:~L)]
– 기준 비율이 1% 라면, P(L:+) = 0.01*0.9/[0.01*0.9 + 0.99*0.09] = 0.09  9% !!! (일반사람 1%의 9배)
• 두번째 검사 음성 반응  도마뱀 독감에 걸렸을 확률은?
– 해당 검사의 정확도 : 독감의 경우 양성 확률은 99%, 독감이 아닌 경우 양성 확률은 1%
기준 비율은 무엇을 사용해야 할까? : 양성인 그룹의 기준 비율은 9%!!!
 P(L:-) = P(L)*P(-:L) / [ P(L)*P(-:L) + P(~L)*P(-:~L)] = 0.09*0.01/[0.09*0.01 + 0.91*0.91] = 0.001  0.1%

숫자에 대한 믿음 – 주관적 확률(믿음의 정도를 수치화)
• 백워터 인베스트먼트 사의 투자결정  Analyst 간의 이견을 어떻게 조정할까?
– 베트남, 러시아, 인도네시아의 정책 전망에 대한 의견 충돌  투자 결정 지연, 내분
– 확률을 나타내는 용어들 : 아마, 매우 가능성 높다, 어쩌면, 모른다, 확실히, 좋은 기회 등등…
– 각 용어를 수치화 하도록 한다면  각 진술에 대한 의견 차이의 정도를 알 수 있다
– 각 의견에 대한 분포도는 가설에 대한 평균적 판단 및 의견 차이를 보여줌  의견 차이가 많은 진술 확인
– 표준편차를 계산하여 의견 조율이 필요한 가설 확보
• 러시아 대통령의 담화  새롭게 변화된 Analyst 들의 전망은?
– 베이즈 정리에 따른 새로운 가능성 계산 필요  첫번째 Analyst의 의견을 기준비율로 사용.
– P(H:E) = P(H)*P(E:H) / [ P(H)*P(E:H) + P(~H)*P(E:~H)]
– 분석가들의 이전의 생각을 과도하게 수정하지 않도록 하는 효과
– 새로운 데이터를 분석가의 사고 체계에 통합하는 정확하고 공식적인 방법!!

인간처럼 분석한다 – 휴리스틱 분석(경험법칙을 사용)
• 쓰레기 무단투기 방지협회의 효과 증명  시의회에 캠페인의 효과 증명은?
– 기존의효과 측정은?  일반인을 대상으로한 인식 변화 조사(이전 vs 올해)
– 시의회 의원의 주장은?  실제로 쓰레기 양이 줄었는지를 보여달라
– 실제 무게 측정의 문제는?  무게를 측정하기 위해 인력배치 시 비용이 많이 든다
 시 의회가 요구하는 데이터를 구할 방법은?
• 직관 (한가지 가능성)  휴리스틱  최적화 (모든 가능성)
– 데이터 분석 문제를 해결하기 위한 선택은?
– 빠르고 검약적인 트리를 사용할 수 있다~~
– (일부이기는 하지만) 도시의 가장 큰 문제는 담배꽁초 ~~
– 쓰레기 처리업자가 처리하는 담배꽁초 수에 대한 의견 조사
(환경 미화원을 대상으로 한 설문 결과 정리)
비용 문제에 대한 언급을 시작으로 추가적인 객관적 자료(담배꽁초 수)를 추가한다.
그리고, 지속적인 교육이 향후 개선의 가능성을 높여줌을 제시

숫자의 모양 – 히스토그램(분포, 변동성, 중심 집중 경향)
• 실적 평가 시즌  임금 인상을 위한 협상 방법은?
– 지난 3년간 임금 인상 자료  연도별, 성별, 협상여부에 따른 임금 인상률 정보
– R의 hist() 명령을 사용한 히스토그램 출력 시각화 ( sd(), summary()  표준편차 및 요약통계 확인)
– 2개의 봉우리 발견  봉우리의 차이는? (연도? 성별? ….)
– 연도별, 성별, 협상여부에 따라 각각의 히스토그램 비교  협상여부에 따라 봉우리 위치가 다름
– 협상 여부에 따른 평균과 표준편차 비교  협상을 한 경우가 높은 임금!!!
 히스토그램의 봉우리는 집단이 나뉘어질 가능성!!!

예측 – 회귀 분석
• 임금협상 전문회사 설립  임금 인상을 위해 얼마나 요구해야 할까?
– 고객에게 제시할 내용 : 인상요구액 (기타, 복장, 논점 등등)
– 성공시 대가는  인상액의 일정 부분 요구
 인상 요구액에 따른 인상 결과를 예측하는 임금 인상 예측 모델 개발 필요
– 일반적으로 예측할 내용: 사람들 행동, 시장 움직임, 중요 이벤트, 실험 결과, 부족한 데이터
– 일반적으로 고민할 내용 : 충분한 데이터? 정확도? 정성 or 정량? 활용법? 한계는?
– 상관관계를 위한 데이터 필요  요구액 vs 인상액 의 산포도 분석에서 시작 (R의 plot())
– 점들에 가장 가까운 선 그리기  평균을 연결한 선  회귀선 (선형의 상관관계일때 유용)
(R의 cor() : 상관계수, lm() 함수로 회귀식 생성, coefficients 확인)
 일부는 성공적으로 예측하나, 일부는 많은 차이를 보임 !!!
 오차에 대한 대응 필요~~~

오차를 잘 처리하라 – 가능한 억제하고 예측
• 임금협상 전문회사  협상 결과에 대한 고객의 항의를 어떻게 줄일 수 있을까?
– 회귀식은 평균적인 결과  당연히 벗어나는 경우가 생김  어떻게 줄일까?
– 가장 크게 벗어난 25% 요구(0% 인상)는 모델 데이터의 범위 밖  대응 방법은?
1) 예측할 수 없음을 인정  형편없기 보다는 낫다
2) 가정을 사용하여 예측  가정의 신빙성에 의문이 있을 수 있다. (외삽)
– 상황의 변화(경제 환경, 회사 성과, 관리자 변경, ..)에 따라서 모델은 변한다
– 외삽의 상황에 대응하기 위해 유효범위 설정 (1)
– 데이터 범위 내에서의 분포를 설명하기 위해서 확률오차(chance error – residuals) 도입 (2)
– 확률오차의 계산은 R의 summary(lm(data))$sigma 확인
– 보다 정확한 오차 범위요구  범위에 따른 확률오차 분할 (3)
결과적으로 보다 정확한 회귀선 및 확률오차를 구함
 오차를 없앨 수는 없으나 관리할 수는 있음 !!!

관련지어 보자– 관계형 데이터베이스
• 데이터특보 사의 매출 분석 기사 수에 따른 매출 변화는?
– 관계형 데이터 베이스에서 테이블 간의 연관 관계 설명
– Excel을 이용하여 sheet간의 연관 관계를 산포도로 표현
 기사 10개 이상의 경우는 매출의 변화가 없음!! 따라서 기사는 10개로
• 기사 저자의 인기도 분석 누구의 기사가 인기가 높은가?
– Authors, Articles, Comments 테이블을 Join 검색
– R의 xyplot()을 이용하여 저자별 (댓글수~조회수)를 표시함
– 최고 인기 저자를 쉽게 확인 가능
 관계형 데이터베이스는 다양한 비교를 가능하게 함

순서를 부여하다– 분석을 위한 데이터 준비 작업
• 파산한 경쟁사의 고객 목록 분석 고객의 이름과 전화번호 추출 작업은?
– 필요한 필드를 정의  필드간의 규칙성에 따라 정규표현식 사용하여 변환 (1)
– R의 sub() 함수와 정규표현식으로 많은 작업이 자동화 됨
– R의 head() 명령은 몇개의 데이터를 확인시켜줌
– 변환 후, 중복 데이터 확인을 위해 순서대로 정렬 작업 (2)
– R의 order() 함수를 이용하여 항목을 정렬
– 정렬된 내용에서 중복데이터 제거 (3)
– R의 unique() 함수를 사용하여 중복 제거
– R의 write.csv() 함수로 저장
 정규 표현식은 데이터 정리를 빠르고 편하게 해줌.

Address
서울특별시 성동구 아차산로 17
11층 (성수동 1가, 서울숲엘타워)
우편번호 04789
Telephone
Tel : (02)575-0409
Fax: (02)6003-1987

IT 관리자가 필요한 것은 무엇일까?
• 시스템을 관리에서 대응할 수 있는 것과 대응할 수 없는 것은 무엇일까?
- 대응할 수 없는 것
1) 지진, 해일 등 자연재해 및 전력회사 문제로 인한 정전
2) 통신회사 의 문제로 인한 네트워크 장애
3) 기타 관리자의 역할을 벗어나는 것
- 대응할 수 있는 것
1) 애플리케이션 수정, 구성 변경, DB Index 수정 등의 변경에 의한 장애
2) 시간의 흐름에 따른 데이터 축척, 디스크 사용량 증가, 메모리 사용량 증가 등 자원의 부족
3) 예상되는 Peak에 대한 처리
4) 기타 예상 가능한 장애에 대한 대처
• 대응할 수 있는 장애에 대한 대응을 잘 하기 위한 방안은?
- 각 변화에 따른 시스템의 response time, 자원 사용량의 변화에 대한 예측 값 제공
• Open Source 고객에 대한 판매는?
- 유지보수 등급에 따른 Reporting  Premium 등급에 대한 변경 영향 평가 Reporting 사용권 부여 (self-reporting)
- 리포팅 횟수에 따른 과금  분기별 점검 및 Reporting 요금
- 사용기간에 따른 과금  개발기간 동안에 상주 평가 시스템 구축 및 컨설팅

변화에 따른 예측값 제공을 위해서는 필요한 것은?
• 시스템 자원 사용량의 시간적 변화 측정
1) 디스크, 메모리, CPU, DB Connection, Process 수, Cursor 갯수 등 자원의 변화를 기록
2) 기존 기록과 비교 평가 Reporting
• 각 변화에 따른 시스템 변화 예측값 제공  효과가 모이는 곳을 측정하여 평가
1) 각 Application 호출횟수, DB 테이블 access 횟수, Index 접근 횟수, 생성횟수, 등등 기초 변화의 평균을 구함
2) 애플리케이션 변화 시 response time의 변화를 측정하여 관련값(평균 호출수 등)과 연관하여 시스템 변화치(CPU, 메
모리,..) 등을 예측 ( 이 부분은 경험 혹은 기계학습 적용 가능성 확인 필요)
3) Index 추가 시 변화는, 해당 Index를 사용하는 application에 대한 확인 보다는 기존에 해당 테이블에 대한 CRUD의
평균횟수와 Index의 CRUD 등의 Operation의 평균값을 사용 평가 (
• IT 각 부분을 레고 블록화 할 수 있을까?
- IT의 각 부분(WebServer, Load Balancer, …)을 소프트웨어 Object화 할 수 있다면, 가상 시스템을 만들어 평가하기
좋지 않을까?

다른 중요한 예측은 어떤 게 있을까?
• 주가 예측이 가능하다면,
 자산 관리가 쉽고, 효율적이 될 수 있다
 Issue : (주식의) 거래는 사는 사람이 있어야 팔 수 있다.  누군가는 반대로 예측하여야 한다. 이 경우, 내 예측이 옳
을까?
 그렇다면, 한 회사의 미래를 예측할 수 있을까?
• 회사의 미래를 예측할 수 있다면,
 투자자는 투자가 편해진다. 은행은 신용 평가가 정확해 진다. B2B 거래 업체 선정에 도움이 된다.
 Issue : 회계 데이터 만으로 회사의 미래 예측이 가능한가?  과거 경영 상황이 미래에도 적용 가능한가?
 조금 욕심을 버려, 회계 데이터의 불안요소는 평가 가능할까?
• 회계 데이터의 불안요소(분식회계 요소)를 찾을 수 있다면,
 회계사에 의존하던 신용평가를 객관적 시각화 할 수 있다. 회계법인을 상대로 한 소송을 줄일 수 있다. 회계 감사 시
간을 줄일 수 있다.
 Issue : 회계사의 역할은 어떻게 바뀌어야 하는가?  찾아낸 불안요소를 실사하는 데에 집중 ~~ ^^
 Issue : 재무제표 평가시스템은 금감원의 인가가 필요할까?  소송의 증거가 되기 위해서는 금감원 인가가 있어야
할 듯
 Issue : 금감원 인가를 받은 시스템이 되기 전에 회계 법인과는 관계는?  감사의 효율성에 대한 appeal???
 ERP 시스템 업체와 협의가 필요한 일이 될까?

또 다른 중요한 예측은 어떤 게 있을까?
• 내가 살아가면서 해야 하는 예측은?
 부동산 가치 예측
 교통시간 예측
 필요 자금 예측…. ^^;
 ……. 무언가 더 있다….~~~~~

[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )

Recommended

Recommended

More Related Content

Similar to [도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )

Similar to [도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis ) (20)

More from Seung-Woo Kang

More from Seung-Woo Kang (20)

[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )