SlideShare a Scribd company logo
1 of 21
Download to read offline
데이터 분석
Head First Data Analysis
타임게이트 SW 연구소
강 승 우
목차
• 잘게 쪼개라 (ACME 화장품 매출)
• 이론을 검증하라 (스타버즈 커피)
• 최대한 가져가기 (목욕친구사)
• 그림은 여러분을 더 똑똑하게 만든다 (뉴 아미사)
• 그렇지 않다고 말해줘 (일렉트로스키니 사)
• 첫걸음을 내딛다 (도마뱀 독감)
• 숫자에 대한 믿음 (백워터 인베스트먼트사)
• 인간처럼 분석한다(쓰레기 무단투기 방지협회)
• 숫자의 모양(연말평가의 협상여부)
• 예측 (임금협상 컨설팅 회사)
• 오차를 잘 처리하다 (협상 컨설팅에 대한 컴플레인 처리)
• 관련지어보자 (데이터빌 특보사)
• 순서를 부여하다 (헤드퍼스트 헤드헌터사)
잘게 쪼개라 – divide & conquer
• ACME 화장품 매출 증대 방안 요청
– 목표를 명확히 한다 (가능한 수치화)
– 목표로 가능 방법을 분해한다
– 분해한 내용을 데이터 기반으로 평가한다
– 평가를 바탕으로 권고안을 낸다.
• ACME 화장품 매출 증대 경과
– 초기 분해는 TV 광고 vs SNS 광고 vs 가격인하
– 초기 Target 고객은 10 대 초반 여성
– 1차 권고는 가격인하 없이 TV 광고 늘리기
 신문 기사 : 10대 초반 시장 포화. ACME 화장품이 독과점 상태
– 모르는 부분을 확인하여 새로운 Target 선정  중년 남성이 면도후 구매
– 중년 남성을 위한 브랜드 개발 판매  매출 상승
이론을 검증하라 – 인과관계 검증
• 스타버즈 커피의 부진  매출 정상화 방안은?
– 스타버즈 고객에 대한 설문 분석  평균적으로 Valeu(가성비) 하락 확인  불황에 따른 수입 감소 영향?
– 소호점 매니저의 반대 의견(가치 하락은 없다)  지역별로 나누어 설문 분석  소호점외에는 모두 하락
 대처 방안은?
– 2가지 주장 : 1) 가격 인하 (CFO), 2)브랜드 이미지 강화 (마케팅)
• 1차 실험  1달간 전사적인 가격 인하
– 매출은 전달 대비 다소 상승  가격 인하를 하지 않았을 경우와의 비교는?
– 대조군이 없음  따라서 효과를 분석할 수 없음
– 대조군을 만들 수 있는 방법은?
• 2차 실험  한 지역(태평양)에서 인하하여, 다른 지역(소호, 미드 애틀란틱)과 비교
– 태평양 지역 매출 상승, 대조군은 유지  교란인자는 없는가? (지역의 날씨 등의 영향 가능)
• 3차 실험  각 지역을 소지역으로 나누어, 임의로 가격인하, 브랜드 강화, 대조군으로 3그룹화
– 3가지 대조군의 결과를 통해 브랜드 강화가 가장 효과가 있음을 증명
최대한 가져가기 – 최적화 솔루션 발견
• 목욕친구사의 최대 이익 만들기  고무 물고기와 고무 오리 최적의 생산 비율은?
– 통제할 수 있는 것과 통제할 수 없는 것에 대한 구체적인 숫자가 필요하다
– P = C1 * X1 + C2 * X2 ( 이익 = 오리 개당 이익 X 오리 갯수 + 물고기 개당 이익 X 물고기 갯수 )
– 제약 조건
 시간제약 : 물고기 300개, 오리 400개, 고무 제약 : 50000 알갱이(오리 : 100, 물고기 : 125 필요)
 Excel 의 Solver 사용을 통한 최적해 계산
 목표 Cell, 해의 조건, 값을 바꿀 Cell, 제한 조건 입력  실행 !!! (오리 400개, 물고기 80개)
 판매 이익은? : 바닥  물고기는 매진. 오리는 팔리지 않는다.
• 모든 모델은 틀렸다. 그러나 일부는 유용하다. -조지 막스
• 오리와 물고기의 판매량 통계치 분석  오리의 최대 판매량과 물고기의 최대 판매량 추정
– 오리 최대 판매량 추정 : 150 , 물고기의 최대 판매량 추정 : 50  제약 추가
– 오리 : 150개, 물고기 :50개 생산하여 여분의 고무를 남긴 상태가 최대 이익
 변수간의 관계가 바뀐다면 모델을 점검해야 한다 : 모델 변경에 대비!!!
그림은 여러분을 더 똑똑하게 만든다 – 데이터 시각화
• 뉴아미 사의 웹사이트 최적화  3가지 웹사이트 중에서 매출을 최대화하는 디자인은?
– 많은 데이터를 시각화할 경우 중요한 점은?  미려한 것이 아니다!!
 데이터 시각화란 ‘적절한 비교’
– 산포도는 탐색적 데이터 분석을 위한 훌륭한 도구  다양한 변수를 시각화할 수 있다면 최고!!!
– R의 xyplot()을 이용하면 각 홈페이지별 변수(체류시간, 조회수, 재방문횟수)에 따른 매출 비교 가능
시각화는 좋은데, 왜 #3 이 가장 매출이 높은지 인과관계는?
• 실험 계획 담당자의 테스트 데이터 추가
– 속도는 #2 -> #3 -> #1 순, 페이지 색상의 밝음은 #3 -> #2 -> #1
– 추가된 데이터를 바탕으로 #3을 중심으로 몇 가지 가설 및 추가적인 테스트 제안.
– 테스트를 위한 대조군 생성및 항목별 AB 테스트 제안!!!!
 시각화는 데이터, 적절한 비교, 다양한 변수를 보여준다. !!!
 시각화 정보를 다양한 가설을 통해 평가하고, 향후 검증할 항목 제시!!!
그렇지 않다고 말해줘 – 가설 검정
• 일렉트로스키니 사의 제품 출시 시기 결정  팟폰 사의 새 제품은 언제 출시되나?
– 팟폰사의 신기종 출시에 대한 정보 정리  강력한 증거는 없음
– 팟폰사의 단말기 출시 전략 메모 입수
 메모 상의 각 항목의 관계 도식화 ( 경쟁사 제품 출시 – (-) – 팟폰사 제품 출시 – (+) – 팟폰사 매출 …)
 다양한 변수들의 상관 관계는 네트워크 다이어그램으로 도식화
– 현실 세계의 인과관계는 선형이 아닌 네트워크 형
• 팟폰사의 가설 설정  내일, 다음달, 6개월후, 1년후, 출시 중지
– 각 가설을 초기 정보와 팟폰사의 출시 전략에 따라서 검증을 실시
– 반증을 사용  검증에 실패한 가설을 제거해 나감 ( ‘만족화’는 권장하지 않음 )
– 가능성 진단은 부정하는 가설을 찾는데 도움!!! (표 참조)
가장 가능성이 있는 가설은? H3(6개월)
• 새로운 증거  핏폰사의 파티(단말기 돌려보기)
– H2(다음달)을 뒷받침하는 강력한 증거
 새로운 증거에 의한 H2 가설 선정 !!!
핏폰 정보 H2(다음달) H3(6개월후) H4(1년후)
최대 투자 + + +
경쟁사출시 - ++ +
경제 호황 + + -
CEO 출시연기
(소문)
- - +
첫 걸음을 내딛다 – 베이즈 정리와 기준 비율
• 도마뱀 독감 양성 반응  도마뱀 독감에 걸렸을 확률은?
– 해당 검사의 정확도 : 독감의 경우 양성 확률은 90%, 독감이 아닌 경우 양성 확률은 9%
 독감일 확률은 얼마나 될까? 많은 경우 틀린 예상을 한다 !!!!!
– TP(True Positive), FP(False Positive), TN(True Negative), FN(False Negative) 양을 고려해야!!!
( 각각 P(+:L), P(+:~L), P(-:~L), P(-:L) 로 표시가 됨 )
– 독감 확률을 계산하기 위해 추가로 필요한 정보는  기준비율(base rate)
독감에 걸린 사람 vs 독감에 걸리지 않은 사람의 비율
 P(L:+) = P(L)*P(+:L)/ [ P(L)*P(+:L) + P(~L)*P(+:~L)]
– 기준 비율이 1% 라면, P(L:+) = 0.01*0.9/[0.01*0.9 + 0.99*0.09] = 0.09  9% !!! (일반사람 1%의 9배)
• 두번째 검사 음성 반응  도마뱀 독감에 걸렸을 확률은?
– 해당 검사의 정확도 : 독감의 경우 양성 확률은 99%, 독감이 아닌 경우 양성 확률은 1%
기준 비율은 무엇을 사용해야 할까? : 양성인 그룹의 기준 비율은 9%!!!
 P(L:-) = P(L)*P(-:L) / [ P(L)*P(-:L) + P(~L)*P(-:~L)] = 0.09*0.01/[0.09*0.01 + 0.91*0.91] = 0.001  0.1%
숫자에 대한 믿음 – 주관적 확률(믿음의 정도를 수치화)
• 백워터 인베스트먼트 사의 투자결정  Analyst 간의 이견을 어떻게 조정할까?
– 베트남, 러시아, 인도네시아의 정책 전망에 대한 의견 충돌  투자 결정 지연, 내분
– 확률을 나타내는 용어들 : 아마, 매우 가능성 높다, 어쩌면, 모른다, 확실히, 좋은 기회 등등…
– 각 용어를 수치화 하도록 한다면  각 진술에 대한 의견 차이의 정도를 알 수 있다
– 각 의견에 대한 분포도는 가설에 대한 평균적 판단 및 의견 차이를 보여줌  의견 차이가 많은 진술 확인
– 표준편차를 계산하여 의견 조율이 필요한 가설 확보
• 러시아 대통령의 담화  새롭게 변화된 Analyst 들의 전망은?
– 베이즈 정리에 따른 새로운 가능성 계산 필요  첫번째 Analyst의 의견을 기준비율로 사용.
– P(H:E) = P(H)*P(E:H) / [ P(H)*P(E:H) + P(~H)*P(E:~H)]
– 분석가들의 이전의 생각을 과도하게 수정하지 않도록 하는 효과
– 새로운 데이터를 분석가의 사고 체계에 통합하는 정확하고 공식적인 방법!!
인간처럼 분석한다 – 휴리스틱 분석(경험법칙을 사용)
• 쓰레기 무단투기 방지협회의 효과 증명  시의회에 캠페인의 효과 증명은?
– 기존의효과 측정은?  일반인을 대상으로한 인식 변화 조사(이전 vs 올해)
– 시의회 의원의 주장은?  실제로 쓰레기 양이 줄었는지를 보여달라
– 실제 무게 측정의 문제는?  무게를 측정하기 위해 인력배치 시 비용이 많이 든다
 시 의회가 요구하는 데이터를 구할 방법은?
• 직관 (한가지 가능성)  휴리스틱  최적화 (모든 가능성)
– 데이터 분석 문제를 해결하기 위한 선택은?
– 빠르고 검약적인 트리를 사용할 수 있다~~
– (일부이기는 하지만) 도시의 가장 큰 문제는 담배꽁초 ~~
– 쓰레기 처리업자가 처리하는 담배꽁초 수에 대한 의견 조사
(환경 미화원을 대상으로 한 설문 결과 정리)
비용 문제에 대한 언급을 시작으로 추가적인 객관적 자료(담배꽁초 수)를 추가한다.
그리고, 지속적인 교육이 향후 개선의 가능성을 높여줌을 제시
숫자의 모양 – 히스토그램(분포, 변동성, 중심 집중 경향)
• 실적 평가 시즌  임금 인상을 위한 협상 방법은?
– 지난 3년간 임금 인상 자료  연도별, 성별, 협상여부에 따른 임금 인상률 정보
– R의 hist() 명령을 사용한 히스토그램 출력 시각화 ( sd(), summary()  표준편차 및 요약통계 확인)
– 2개의 봉우리 발견  봉우리의 차이는? (연도? 성별? ….)
– 연도별, 성별, 협상여부에 따라 각각의 히스토그램 비교  협상여부에 따라 봉우리 위치가 다름
– 협상 여부에 따른 평균과 표준편차 비교  협상을 한 경우가 높은 임금!!!
 히스토그램의 봉우리는 집단이 나뉘어질 가능성!!!
예측 – 회귀 분석
• 임금협상 전문회사 설립  임금 인상을 위해 얼마나 요구해야 할까?
– 고객에게 제시할 내용 : 인상요구액 (기타, 복장, 논점 등등)
– 성공시 대가는  인상액의 일정 부분 요구
 인상 요구액에 따른 인상 결과를 예측하는 임금 인상 예측 모델 개발 필요
– 일반적으로 예측할 내용: 사람들 행동, 시장 움직임, 중요 이벤트, 실험 결과, 부족한 데이터
– 일반적으로 고민할 내용 : 충분한 데이터? 정확도? 정성 or 정량? 활용법? 한계는?
– 상관관계를 위한 데이터 필요  요구액 vs 인상액 의 산포도 분석에서 시작 (R의 plot())
– 점들에 가장 가까운 선 그리기  평균을 연결한 선  회귀선 (선형의 상관관계일때 유용)
(R의 cor() : 상관계수, lm() 함수로 회귀식 생성, coefficients 확인)
 일부는 성공적으로 예측하나, 일부는 많은 차이를 보임 !!!
 오차에 대한 대응 필요~~~
오차를 잘 처리하라 – 가능한 억제하고 예측
• 임금협상 전문회사  협상 결과에 대한 고객의 항의를 어떻게 줄일 수 있을까?
– 회귀식은 평균적인 결과  당연히 벗어나는 경우가 생김  어떻게 줄일까?
– 가장 크게 벗어난 25% 요구(0% 인상)는 모델 데이터의 범위 밖  대응 방법은?
1) 예측할 수 없음을 인정  형편없기 보다는 낫다
2) 가정을 사용하여 예측  가정의 신빙성에 의문이 있을 수 있다. (외삽)
– 상황의 변화(경제 환경, 회사 성과, 관리자 변경, ..)에 따라서 모델은 변한다
– 외삽의 상황에 대응하기 위해 유효범위 설정 (1)
– 데이터 범위 내에서의 분포를 설명하기 위해서 확률오차(chance error – residuals) 도입 (2)
– 확률오차의 계산은 R의 summary(lm(data))$sigma 확인
– 보다 정확한 오차 범위요구  범위에 따른 확률오차 분할 (3)
결과적으로 보다 정확한 회귀선 및 확률오차를 구함
 오차를 없앨 수는 없으나 관리할 수는 있음 !!!
관련지어 보자– 관계형 데이터베이스
• 데이터특보 사의 매출 분석 기사 수에 따른 매출 변화는?
– 관계형 데이터 베이스에서 테이블 간의 연관 관계 설명
– Excel을 이용하여 sheet간의 연관 관계를 산포도로 표현
 기사 10개 이상의 경우는 매출의 변화가 없음!! 따라서 기사는 10개로
• 기사 저자의 인기도 분석 누구의 기사가 인기가 높은가?
– Authors, Articles, Comments 테이블을 Join 검색
– R의 xyplot()을 이용하여 저자별 (댓글수~조회수)를 표시함
– 최고 인기 저자를 쉽게 확인 가능
 관계형 데이터베이스는 다양한 비교를 가능하게 함
순서를 부여하다– 분석을 위한 데이터 준비 작업
• 파산한 경쟁사의 고객 목록 분석 고객의 이름과 전화번호 추출 작업은?
– 필요한 필드를 정의  필드간의 규칙성에 따라 정규표현식 사용하여 변환 (1)
– R의 sub() 함수와 정규표현식으로 많은 작업이 자동화 됨
– R의 head() 명령은 몇개의 데이터를 확인시켜줌
– 변환 후, 중복 데이터 확인을 위해 순서대로 정렬 작업 (2)
– R의 order() 함수를 이용하여 항목을 정렬
– 정렬된 내용에서 중복데이터 제거 (3)
– R의 unique() 함수를 사용하여 중복 제거
– R의 write.csv() 함수로 저장
 정규 표현식은 데이터 정리를 빠르고 편하게 해줌.
Address
서울특별시 성동구 아차산로 17
11층 (성수동 1가, 서울숲엘타워)
우편번호 04789
Telephone
Tel : (02)575-0409
Fax: (02)6003-1987
예측 대상은 ?????
IT 관리자가 필요한 것은 무엇일까?
• 시스템을 관리에서 대응할 수 있는 것과 대응할 수 없는 것은 무엇일까?
- 대응할 수 없는 것
1) 지진, 해일 등 자연재해 및 전력회사 문제로 인한 정전
2) 통신회사 의 문제로 인한 네트워크 장애
3) 기타 관리자의 역할을 벗어나는 것
- 대응할 수 있는 것
1) 애플리케이션 수정, 구성 변경, DB Index 수정 등의 변경에 의한 장애
2) 시간의 흐름에 따른 데이터 축척, 디스크 사용량 증가, 메모리 사용량 증가 등 자원의 부족
3) 예상되는 Peak에 대한 처리
4) 기타 예상 가능한 장애에 대한 대처
• 대응할 수 있는 장애에 대한 대응을 잘 하기 위한 방안은?
- 각 변화에 따른 시스템의 response time, 자원 사용량의 변화에 대한 예측 값 제공
• Open Source 고객에 대한 판매는?
- 유지보수 등급에 따른 Reporting  Premium 등급에 대한 변경 영향 평가 Reporting 사용권 부여 (self-reporting)
- 리포팅 횟수에 따른 과금  분기별 점검 및 Reporting 요금
- 사용기간에 따른 과금  개발기간 동안에 상주 평가 시스템 구축 및 컨설팅
변화에 따른 예측값 제공을 위해서는 필요한 것은?
• 시스템 자원 사용량의 시간적 변화 측정
1) 디스크, 메모리, CPU, DB Connection, Process 수, Cursor 갯수 등 자원의 변화를 기록
2) 기존 기록과 비교 평가 Reporting
• 각 변화에 따른 시스템 변화 예측값 제공  효과가 모이는 곳을 측정하여 평가
1) 각 Application 호출횟수, DB 테이블 access 횟수, Index 접근 횟수, 생성횟수, 등등 기초 변화의 평균을 구함
2) 애플리케이션 변화 시 response time의 변화를 측정하여 관련값(평균 호출수 등)과 연관하여 시스템 변화치(CPU, 메
모리,..) 등을 예측 ( 이 부분은 경험 혹은 기계학습 적용 가능성 확인 필요)
3) Index 추가 시 변화는, 해당 Index를 사용하는 application에 대한 확인 보다는 기존에 해당 테이블에 대한 CRUD의
평균횟수와 Index의 CRUD 등의 Operation의 평균값을 사용 평가 (
• IT 각 부분을 레고 블록화 할 수 있을까?
- IT의 각 부분(WebServer, Load Balancer, …)을 소프트웨어 Object화 할 수 있다면, 가상 시스템을 만들어 평가하기
좋지 않을까?
다른 중요한 예측은 어떤 게 있을까?
• 주가 예측이 가능하다면,
 자산 관리가 쉽고, 효율적이 될 수 있다
 Issue : (주식의) 거래는 사는 사람이 있어야 팔 수 있다.  누군가는 반대로 예측하여야 한다. 이 경우, 내 예측이 옳
을까?
 그렇다면, 한 회사의 미래를 예측할 수 있을까?
• 회사의 미래를 예측할 수 있다면,
 투자자는 투자가 편해진다. 은행은 신용 평가가 정확해 진다. B2B 거래 업체 선정에 도움이 된다.
 Issue : 회계 데이터 만으로 회사의 미래 예측이 가능한가?  과거 경영 상황이 미래에도 적용 가능한가?
 조금 욕심을 버려, 회계 데이터의 불안요소는 평가 가능할까?
• 회계 데이터의 불안요소(분식회계 요소)를 찾을 수 있다면,
 회계사에 의존하던 신용평가를 객관적 시각화 할 수 있다. 회계법인을 상대로 한 소송을 줄일 수 있다. 회계 감사 시
간을 줄일 수 있다.
 Issue : 회계사의 역할은 어떻게 바뀌어야 하는가?  찾아낸 불안요소를 실사하는 데에 집중 ~~ ^^
 Issue : 재무제표 평가시스템은 금감원의 인가가 필요할까?  소송의 증거가 되기 위해서는 금감원 인가가 있어야
할 듯
 Issue : 금감원 인가를 받은 시스템이 되기 전에 회계 법인과는 관계는?  감사의 효율성에 대한 appeal???
 ERP 시스템 업체와 협의가 필요한 일이 될까?
또 다른 중요한 예측은 어떤 게 있을까?
• 내가 살아가면서 해야 하는 예측은?
 부동산 가치 예측
 교통시간 예측
 필요 자금 예측…. ^^;
 ……. 무언가 더 있다….~~~~~

More Related Content

Similar to [도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )

실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다승화 양
 
Pycon2016 파이썬으로똑똑한주식투자 김대현
Pycon2016 파이썬으로똑똑한주식투자 김대현Pycon2016 파이썬으로똑똑한주식투자 김대현
Pycon2016 파이썬으로똑똑한주식투자 김대현Daehyun (Damon) Kim
 
韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]fgf201213
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께백승민 Baek Seung Min
 
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...Jungmin Lee
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기승화 양
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입Hoon Park
 
보고서 작성 원리 : 실패와 성공 사례 비교
보고서 작성 원리 : 실패와 성공 사례 비교보고서 작성 원리 : 실패와 성공 사례 비교
보고서 작성 원리 : 실패와 성공 사례 비교길벗지기
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료Park Sungpil
 
[제3회 스포카콘] 도도 카트 자연스럽게 시장에 스며들기
[제3회 스포카콘] 도도 카트 자연스럽게 시장에 스며들기[제3회 스포카콘] 도도 카트 자연스럽게 시장에 스며들기
[제3회 스포카콘] 도도 카트 자연스럽게 시장에 스며들기JooHyup Lee
 
Learning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiLearning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiIsabel Myeongju Han
 
초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드NAVER Engineering
 
쫄투 강의 2014_시즌2
쫄투 강의 2014_시즌2쫄투 강의 2014_시즌2
쫄투 강의 2014_시즌2YJ Min
 
[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론Bokyung Choi
 
혁신의 완성을 위한 BM 실행법
혁신의 완성을 위한 BM 실행법혁신의 완성을 위한 BM 실행법
혁신의 완성을 위한 BM 실행법The Innovation Lab
 
장바구니를 든 데이터 사이언티스트
장바구니를 든 데이터 사이언티스트장바구니를 든 데이터 사이언티스트
장바구니를 든 데이터 사이언티스트Dennis Lee
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
 
더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기
더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기
더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기Hyunjung Kim
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data MiningSuHyun Jeon
 
파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석Heekyung Yoon
 

Similar to [도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis ) (20)

실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
Pycon2016 파이썬으로똑똑한주식투자 김대현
Pycon2016 파이썬으로똑똑한주식투자 김대현Pycon2016 파이썬으로똑똑한주식투자 김대현
Pycon2016 파이썬으로똑똑한주식투자 김대현
 
韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
데이터 사이언티스트를 꿈꾸는 분들을 위한 개인적인 데이터 사이언스 경험과 소회 - what I experienced as a data sc...
 
서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기서비스 기획자를 위한 데이터분석 시작하기
서비스 기획자를 위한 데이터분석 시작하기
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
 
보고서 작성 원리 : 실패와 성공 사례 비교
보고서 작성 원리 : 실패와 성공 사례 비교보고서 작성 원리 : 실패와 성공 사례 비교
보고서 작성 원리 : 실패와 성공 사례 비교
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료
 
[제3회 스포카콘] 도도 카트 자연스럽게 시장에 스며들기
[제3회 스포카콘] 도도 카트 자연스럽게 시장에 스며들기[제3회 스포카콘] 도도 카트 자연스럽게 시장에 스며들기
[제3회 스포카콘] 도도 카트 자연스럽게 시장에 스며들기
 
Learning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonseiLearning dataanalyst 2020oct_yonsei
Learning dataanalyst 2020oct_yonsei
 
초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드초단타매매 전략 소개 및 트렌드
초단타매매 전략 소개 및 트렌드
 
쫄투 강의 2014_시즌2
쫄투 강의 2014_시즌2쫄투 강의 2014_시즌2
쫄투 강의 2014_시즌2
 
[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론[Causal Inference KR] 스타트업에서의 인과추론
[Causal Inference KR] 스타트업에서의 인과추론
 
혁신의 완성을 위한 BM 실행법
혁신의 완성을 위한 BM 실행법혁신의 완성을 위한 BM 실행법
혁신의 완성을 위한 BM 실행법
 
장바구니를 든 데이터 사이언티스트
장바구니를 든 데이터 사이언티스트장바구니를 든 데이터 사이언티스트
장바구니를 든 데이터 사이언티스트
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
 
더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기
더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기
더 나은 사용자 경험과 비즈니스를 만들기 위한 프로덕트 매니저로 일하기
 
Big Data Analytics and Data Mining
Big Data Analytics and Data MiningBig Data Analytics and Data Mining
Big Data Analytics and Data Mining
 
파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석
 

More from Seung-Woo Kang

[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)Seung-Woo Kang
 
[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차Seung-Woo Kang
 
[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?Seung-Woo Kang
 
[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가Seung-Woo Kang
 
[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영Seung-Woo Kang
 
차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약Seung-Woo Kang
 
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)Seung-Woo Kang
 
소음과 투자 (도서 요약)
소음과 투자 (도서 요약)소음과 투자 (도서 요약)
소음과 투자 (도서 요약)Seung-Woo Kang
 
피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)Seung-Woo Kang
 
현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)Seung-Woo Kang
 
세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)Seung-Woo Kang
 
확률을 높이는 확률
확률을 높이는 확률확률을 높이는 확률
확률을 높이는 확률Seung-Woo Kang
 
캐리커처 생성기 테스트
캐리커처 생성기 테스트캐리커처 생성기 테스트
캐리커처 생성기 테스트Seung-Woo Kang
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)Seung-Woo Kang
 
시계열 분석의 이해와 활용
시계열 분석의 이해와 활용시계열 분석의 이해와 활용
시계열 분석의 이해와 활용Seung-Woo Kang
 
스플렁크 머신러닝 연동
스플렁크 머신러닝 연동스플렁크 머신러닝 연동
스플렁크 머신러닝 연동Seung-Woo Kang
 
하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요Seung-Woo Kang
 
Azure ml studio_fraud_detection
Azure ml studio_fraud_detectionAzure ml studio_fraud_detection
Azure ml studio_fraud_detectionSeung-Woo Kang
 
MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기Seung-Woo Kang
 
통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)Seung-Woo Kang
 

More from Seung-Woo Kang (20)

[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)[도서 리뷰] 디스럽트(Disrupt)
[도서 리뷰] 디스럽트(Disrupt)
 
[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차[도서 리뷰] 인센티브와 무임승차
[도서 리뷰] 인센티브와 무임승차
 
[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?[도서 리뷰] 왜 지금 핀테크인가?
[도서 리뷰] 왜 지금 핀테크인가?
 
[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가[도서 리뷰] 어떻게 돌파할 것인가
[도서 리뷰] 어떻게 돌파할 것인가
 
[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영[도서 리뷰] 이나모리 가즈오의 회계경영
[도서 리뷰] 이나모리 가즈오의 회계경영
 
차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약차이의 붕괴(Collapse of Distinction) - 도서 요약
차이의 붕괴(Collapse of Distinction) - 도서 요약
 
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
일본 기업은 AI를 어떻게 활용하고 있을까(도서 정리)
 
소음과 투자 (도서 요약)
소음과 투자 (도서 요약)소음과 투자 (도서 요약)
소음과 투자 (도서 요약)
 
피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)피케티의 21세기 자본론(도서요약)
피케티의 21세기 자본론(도서요약)
 
현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)현명한 초보 투자자(도서 요약)
현명한 초보 투자자(도서 요약)
 
세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)세상에서 가장 쉬운 회계학 입문(도서 요약)
세상에서 가장 쉬운 회계학 입문(도서 요약)
 
확률을 높이는 확률
확률을 높이는 확률확률을 높이는 확률
확률을 높이는 확률
 
캐리커처 생성기 테스트
캐리커처 생성기 테스트캐리커처 생성기 테스트
캐리커처 생성기 테스트
 
주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)주가_변화시점탐지(Change point Detection)
주가_변화시점탐지(Change point Detection)
 
시계열 분석의 이해와 활용
시계열 분석의 이해와 활용시계열 분석의 이해와 활용
시계열 분석의 이해와 활용
 
스플렁크 머신러닝 연동
스플렁크 머신러닝 연동스플렁크 머신러닝 연동
스플렁크 머신러닝 연동
 
하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요하이퍼레저 프로젝트 개요
하이퍼레저 프로젝트 개요
 
Azure ml studio_fraud_detection
Azure ml studio_fraud_detectionAzure ml studio_fraud_detection
Azure ml studio_fraud_detection
 
MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기MS_QnA_Maker_챗봇만들기
MS_QnA_Maker_챗봇만들기
 
통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)통계의 힘 (스터디 자료)
통계의 힘 (스터디 자료)
 

[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )

  • 1. 데이터 분석 Head First Data Analysis 타임게이트 SW 연구소 강 승 우
  • 2. 목차 • 잘게 쪼개라 (ACME 화장품 매출) • 이론을 검증하라 (스타버즈 커피) • 최대한 가져가기 (목욕친구사) • 그림은 여러분을 더 똑똑하게 만든다 (뉴 아미사) • 그렇지 않다고 말해줘 (일렉트로스키니 사) • 첫걸음을 내딛다 (도마뱀 독감) • 숫자에 대한 믿음 (백워터 인베스트먼트사) • 인간처럼 분석한다(쓰레기 무단투기 방지협회) • 숫자의 모양(연말평가의 협상여부) • 예측 (임금협상 컨설팅 회사) • 오차를 잘 처리하다 (협상 컨설팅에 대한 컴플레인 처리) • 관련지어보자 (데이터빌 특보사) • 순서를 부여하다 (헤드퍼스트 헤드헌터사)
  • 3. 잘게 쪼개라 – divide & conquer • ACME 화장품 매출 증대 방안 요청 – 목표를 명확히 한다 (가능한 수치화) – 목표로 가능 방법을 분해한다 – 분해한 내용을 데이터 기반으로 평가한다 – 평가를 바탕으로 권고안을 낸다. • ACME 화장품 매출 증대 경과 – 초기 분해는 TV 광고 vs SNS 광고 vs 가격인하 – 초기 Target 고객은 10 대 초반 여성 – 1차 권고는 가격인하 없이 TV 광고 늘리기  신문 기사 : 10대 초반 시장 포화. ACME 화장품이 독과점 상태 – 모르는 부분을 확인하여 새로운 Target 선정  중년 남성이 면도후 구매 – 중년 남성을 위한 브랜드 개발 판매  매출 상승
  • 4. 이론을 검증하라 – 인과관계 검증 • 스타버즈 커피의 부진  매출 정상화 방안은? – 스타버즈 고객에 대한 설문 분석  평균적으로 Valeu(가성비) 하락 확인  불황에 따른 수입 감소 영향? – 소호점 매니저의 반대 의견(가치 하락은 없다)  지역별로 나누어 설문 분석  소호점외에는 모두 하락  대처 방안은? – 2가지 주장 : 1) 가격 인하 (CFO), 2)브랜드 이미지 강화 (마케팅) • 1차 실험  1달간 전사적인 가격 인하 – 매출은 전달 대비 다소 상승  가격 인하를 하지 않았을 경우와의 비교는? – 대조군이 없음  따라서 효과를 분석할 수 없음 – 대조군을 만들 수 있는 방법은? • 2차 실험  한 지역(태평양)에서 인하하여, 다른 지역(소호, 미드 애틀란틱)과 비교 – 태평양 지역 매출 상승, 대조군은 유지  교란인자는 없는가? (지역의 날씨 등의 영향 가능) • 3차 실험  각 지역을 소지역으로 나누어, 임의로 가격인하, 브랜드 강화, 대조군으로 3그룹화 – 3가지 대조군의 결과를 통해 브랜드 강화가 가장 효과가 있음을 증명
  • 5. 최대한 가져가기 – 최적화 솔루션 발견 • 목욕친구사의 최대 이익 만들기  고무 물고기와 고무 오리 최적의 생산 비율은? – 통제할 수 있는 것과 통제할 수 없는 것에 대한 구체적인 숫자가 필요하다 – P = C1 * X1 + C2 * X2 ( 이익 = 오리 개당 이익 X 오리 갯수 + 물고기 개당 이익 X 물고기 갯수 ) – 제약 조건  시간제약 : 물고기 300개, 오리 400개, 고무 제약 : 50000 알갱이(오리 : 100, 물고기 : 125 필요)  Excel 의 Solver 사용을 통한 최적해 계산  목표 Cell, 해의 조건, 값을 바꿀 Cell, 제한 조건 입력  실행 !!! (오리 400개, 물고기 80개)  판매 이익은? : 바닥  물고기는 매진. 오리는 팔리지 않는다. • 모든 모델은 틀렸다. 그러나 일부는 유용하다. -조지 막스 • 오리와 물고기의 판매량 통계치 분석  오리의 최대 판매량과 물고기의 최대 판매량 추정 – 오리 최대 판매량 추정 : 150 , 물고기의 최대 판매량 추정 : 50  제약 추가 – 오리 : 150개, 물고기 :50개 생산하여 여분의 고무를 남긴 상태가 최대 이익  변수간의 관계가 바뀐다면 모델을 점검해야 한다 : 모델 변경에 대비!!!
  • 6. 그림은 여러분을 더 똑똑하게 만든다 – 데이터 시각화 • 뉴아미 사의 웹사이트 최적화  3가지 웹사이트 중에서 매출을 최대화하는 디자인은? – 많은 데이터를 시각화할 경우 중요한 점은?  미려한 것이 아니다!!  데이터 시각화란 ‘적절한 비교’ – 산포도는 탐색적 데이터 분석을 위한 훌륭한 도구  다양한 변수를 시각화할 수 있다면 최고!!! – R의 xyplot()을 이용하면 각 홈페이지별 변수(체류시간, 조회수, 재방문횟수)에 따른 매출 비교 가능 시각화는 좋은데, 왜 #3 이 가장 매출이 높은지 인과관계는? • 실험 계획 담당자의 테스트 데이터 추가 – 속도는 #2 -> #3 -> #1 순, 페이지 색상의 밝음은 #3 -> #2 -> #1 – 추가된 데이터를 바탕으로 #3을 중심으로 몇 가지 가설 및 추가적인 테스트 제안. – 테스트를 위한 대조군 생성및 항목별 AB 테스트 제안!!!!  시각화는 데이터, 적절한 비교, 다양한 변수를 보여준다. !!!  시각화 정보를 다양한 가설을 통해 평가하고, 향후 검증할 항목 제시!!!
  • 7. 그렇지 않다고 말해줘 – 가설 검정 • 일렉트로스키니 사의 제품 출시 시기 결정  팟폰 사의 새 제품은 언제 출시되나? – 팟폰사의 신기종 출시에 대한 정보 정리  강력한 증거는 없음 – 팟폰사의 단말기 출시 전략 메모 입수  메모 상의 각 항목의 관계 도식화 ( 경쟁사 제품 출시 – (-) – 팟폰사 제품 출시 – (+) – 팟폰사 매출 …)  다양한 변수들의 상관 관계는 네트워크 다이어그램으로 도식화 – 현실 세계의 인과관계는 선형이 아닌 네트워크 형 • 팟폰사의 가설 설정  내일, 다음달, 6개월후, 1년후, 출시 중지 – 각 가설을 초기 정보와 팟폰사의 출시 전략에 따라서 검증을 실시 – 반증을 사용  검증에 실패한 가설을 제거해 나감 ( ‘만족화’는 권장하지 않음 ) – 가능성 진단은 부정하는 가설을 찾는데 도움!!! (표 참조) 가장 가능성이 있는 가설은? H3(6개월) • 새로운 증거  핏폰사의 파티(단말기 돌려보기) – H2(다음달)을 뒷받침하는 강력한 증거  새로운 증거에 의한 H2 가설 선정 !!! 핏폰 정보 H2(다음달) H3(6개월후) H4(1년후) 최대 투자 + + + 경쟁사출시 - ++ + 경제 호황 + + - CEO 출시연기 (소문) - - +
  • 8. 첫 걸음을 내딛다 – 베이즈 정리와 기준 비율 • 도마뱀 독감 양성 반응  도마뱀 독감에 걸렸을 확률은? – 해당 검사의 정확도 : 독감의 경우 양성 확률은 90%, 독감이 아닌 경우 양성 확률은 9%  독감일 확률은 얼마나 될까? 많은 경우 틀린 예상을 한다 !!!!! – TP(True Positive), FP(False Positive), TN(True Negative), FN(False Negative) 양을 고려해야!!! ( 각각 P(+:L), P(+:~L), P(-:~L), P(-:L) 로 표시가 됨 ) – 독감 확률을 계산하기 위해 추가로 필요한 정보는  기준비율(base rate) 독감에 걸린 사람 vs 독감에 걸리지 않은 사람의 비율  P(L:+) = P(L)*P(+:L)/ [ P(L)*P(+:L) + P(~L)*P(+:~L)] – 기준 비율이 1% 라면, P(L:+) = 0.01*0.9/[0.01*0.9 + 0.99*0.09] = 0.09  9% !!! (일반사람 1%의 9배) • 두번째 검사 음성 반응  도마뱀 독감에 걸렸을 확률은? – 해당 검사의 정확도 : 독감의 경우 양성 확률은 99%, 독감이 아닌 경우 양성 확률은 1% 기준 비율은 무엇을 사용해야 할까? : 양성인 그룹의 기준 비율은 9%!!!  P(L:-) = P(L)*P(-:L) / [ P(L)*P(-:L) + P(~L)*P(-:~L)] = 0.09*0.01/[0.09*0.01 + 0.91*0.91] = 0.001  0.1%
  • 9. 숫자에 대한 믿음 – 주관적 확률(믿음의 정도를 수치화) • 백워터 인베스트먼트 사의 투자결정  Analyst 간의 이견을 어떻게 조정할까? – 베트남, 러시아, 인도네시아의 정책 전망에 대한 의견 충돌  투자 결정 지연, 내분 – 확률을 나타내는 용어들 : 아마, 매우 가능성 높다, 어쩌면, 모른다, 확실히, 좋은 기회 등등… – 각 용어를 수치화 하도록 한다면  각 진술에 대한 의견 차이의 정도를 알 수 있다 – 각 의견에 대한 분포도는 가설에 대한 평균적 판단 및 의견 차이를 보여줌  의견 차이가 많은 진술 확인 – 표준편차를 계산하여 의견 조율이 필요한 가설 확보 • 러시아 대통령의 담화  새롭게 변화된 Analyst 들의 전망은? – 베이즈 정리에 따른 새로운 가능성 계산 필요  첫번째 Analyst의 의견을 기준비율로 사용. – P(H:E) = P(H)*P(E:H) / [ P(H)*P(E:H) + P(~H)*P(E:~H)] – 분석가들의 이전의 생각을 과도하게 수정하지 않도록 하는 효과 – 새로운 데이터를 분석가의 사고 체계에 통합하는 정확하고 공식적인 방법!!
  • 10. 인간처럼 분석한다 – 휴리스틱 분석(경험법칙을 사용) • 쓰레기 무단투기 방지협회의 효과 증명  시의회에 캠페인의 효과 증명은? – 기존의효과 측정은?  일반인을 대상으로한 인식 변화 조사(이전 vs 올해) – 시의회 의원의 주장은?  실제로 쓰레기 양이 줄었는지를 보여달라 – 실제 무게 측정의 문제는?  무게를 측정하기 위해 인력배치 시 비용이 많이 든다  시 의회가 요구하는 데이터를 구할 방법은? • 직관 (한가지 가능성)  휴리스틱  최적화 (모든 가능성) – 데이터 분석 문제를 해결하기 위한 선택은? – 빠르고 검약적인 트리를 사용할 수 있다~~ – (일부이기는 하지만) 도시의 가장 큰 문제는 담배꽁초 ~~ – 쓰레기 처리업자가 처리하는 담배꽁초 수에 대한 의견 조사 (환경 미화원을 대상으로 한 설문 결과 정리) 비용 문제에 대한 언급을 시작으로 추가적인 객관적 자료(담배꽁초 수)를 추가한다. 그리고, 지속적인 교육이 향후 개선의 가능성을 높여줌을 제시
  • 11. 숫자의 모양 – 히스토그램(분포, 변동성, 중심 집중 경향) • 실적 평가 시즌  임금 인상을 위한 협상 방법은? – 지난 3년간 임금 인상 자료  연도별, 성별, 협상여부에 따른 임금 인상률 정보 – R의 hist() 명령을 사용한 히스토그램 출력 시각화 ( sd(), summary()  표준편차 및 요약통계 확인) – 2개의 봉우리 발견  봉우리의 차이는? (연도? 성별? ….) – 연도별, 성별, 협상여부에 따라 각각의 히스토그램 비교  협상여부에 따라 봉우리 위치가 다름 – 협상 여부에 따른 평균과 표준편차 비교  협상을 한 경우가 높은 임금!!!  히스토그램의 봉우리는 집단이 나뉘어질 가능성!!!
  • 12. 예측 – 회귀 분석 • 임금협상 전문회사 설립  임금 인상을 위해 얼마나 요구해야 할까? – 고객에게 제시할 내용 : 인상요구액 (기타, 복장, 논점 등등) – 성공시 대가는  인상액의 일정 부분 요구  인상 요구액에 따른 인상 결과를 예측하는 임금 인상 예측 모델 개발 필요 – 일반적으로 예측할 내용: 사람들 행동, 시장 움직임, 중요 이벤트, 실험 결과, 부족한 데이터 – 일반적으로 고민할 내용 : 충분한 데이터? 정확도? 정성 or 정량? 활용법? 한계는? – 상관관계를 위한 데이터 필요  요구액 vs 인상액 의 산포도 분석에서 시작 (R의 plot()) – 점들에 가장 가까운 선 그리기  평균을 연결한 선  회귀선 (선형의 상관관계일때 유용) (R의 cor() : 상관계수, lm() 함수로 회귀식 생성, coefficients 확인)  일부는 성공적으로 예측하나, 일부는 많은 차이를 보임 !!!  오차에 대한 대응 필요~~~
  • 13. 오차를 잘 처리하라 – 가능한 억제하고 예측 • 임금협상 전문회사  협상 결과에 대한 고객의 항의를 어떻게 줄일 수 있을까? – 회귀식은 평균적인 결과  당연히 벗어나는 경우가 생김  어떻게 줄일까? – 가장 크게 벗어난 25% 요구(0% 인상)는 모델 데이터의 범위 밖  대응 방법은? 1) 예측할 수 없음을 인정  형편없기 보다는 낫다 2) 가정을 사용하여 예측  가정의 신빙성에 의문이 있을 수 있다. (외삽) – 상황의 변화(경제 환경, 회사 성과, 관리자 변경, ..)에 따라서 모델은 변한다 – 외삽의 상황에 대응하기 위해 유효범위 설정 (1) – 데이터 범위 내에서의 분포를 설명하기 위해서 확률오차(chance error – residuals) 도입 (2) – 확률오차의 계산은 R의 summary(lm(data))$sigma 확인 – 보다 정확한 오차 범위요구  범위에 따른 확률오차 분할 (3) 결과적으로 보다 정확한 회귀선 및 확률오차를 구함  오차를 없앨 수는 없으나 관리할 수는 있음 !!!
  • 14. 관련지어 보자– 관계형 데이터베이스 • 데이터특보 사의 매출 분석 기사 수에 따른 매출 변화는? – 관계형 데이터 베이스에서 테이블 간의 연관 관계 설명 – Excel을 이용하여 sheet간의 연관 관계를 산포도로 표현  기사 10개 이상의 경우는 매출의 변화가 없음!! 따라서 기사는 10개로 • 기사 저자의 인기도 분석 누구의 기사가 인기가 높은가? – Authors, Articles, Comments 테이블을 Join 검색 – R의 xyplot()을 이용하여 저자별 (댓글수~조회수)를 표시함 – 최고 인기 저자를 쉽게 확인 가능  관계형 데이터베이스는 다양한 비교를 가능하게 함
  • 15. 순서를 부여하다– 분석을 위한 데이터 준비 작업 • 파산한 경쟁사의 고객 목록 분석 고객의 이름과 전화번호 추출 작업은? – 필요한 필드를 정의  필드간의 규칙성에 따라 정규표현식 사용하여 변환 (1) – R의 sub() 함수와 정규표현식으로 많은 작업이 자동화 됨 – R의 head() 명령은 몇개의 데이터를 확인시켜줌 – 변환 후, 중복 데이터 확인을 위해 순서대로 정렬 작업 (2) – R의 order() 함수를 이용하여 항목을 정렬 – 정렬된 내용에서 중복데이터 제거 (3) – R의 unique() 함수를 사용하여 중복 제거 – R의 write.csv() 함수로 저장  정규 표현식은 데이터 정리를 빠르고 편하게 해줌.
  • 16. Address 서울특별시 성동구 아차산로 17 11층 (성수동 1가, 서울숲엘타워) 우편번호 04789 Telephone Tel : (02)575-0409 Fax: (02)6003-1987
  • 18. IT 관리자가 필요한 것은 무엇일까? • 시스템을 관리에서 대응할 수 있는 것과 대응할 수 없는 것은 무엇일까? - 대응할 수 없는 것 1) 지진, 해일 등 자연재해 및 전력회사 문제로 인한 정전 2) 통신회사 의 문제로 인한 네트워크 장애 3) 기타 관리자의 역할을 벗어나는 것 - 대응할 수 있는 것 1) 애플리케이션 수정, 구성 변경, DB Index 수정 등의 변경에 의한 장애 2) 시간의 흐름에 따른 데이터 축척, 디스크 사용량 증가, 메모리 사용량 증가 등 자원의 부족 3) 예상되는 Peak에 대한 처리 4) 기타 예상 가능한 장애에 대한 대처 • 대응할 수 있는 장애에 대한 대응을 잘 하기 위한 방안은? - 각 변화에 따른 시스템의 response time, 자원 사용량의 변화에 대한 예측 값 제공 • Open Source 고객에 대한 판매는? - 유지보수 등급에 따른 Reporting  Premium 등급에 대한 변경 영향 평가 Reporting 사용권 부여 (self-reporting) - 리포팅 횟수에 따른 과금  분기별 점검 및 Reporting 요금 - 사용기간에 따른 과금  개발기간 동안에 상주 평가 시스템 구축 및 컨설팅
  • 19. 변화에 따른 예측값 제공을 위해서는 필요한 것은? • 시스템 자원 사용량의 시간적 변화 측정 1) 디스크, 메모리, CPU, DB Connection, Process 수, Cursor 갯수 등 자원의 변화를 기록 2) 기존 기록과 비교 평가 Reporting • 각 변화에 따른 시스템 변화 예측값 제공  효과가 모이는 곳을 측정하여 평가 1) 각 Application 호출횟수, DB 테이블 access 횟수, Index 접근 횟수, 생성횟수, 등등 기초 변화의 평균을 구함 2) 애플리케이션 변화 시 response time의 변화를 측정하여 관련값(평균 호출수 등)과 연관하여 시스템 변화치(CPU, 메 모리,..) 등을 예측 ( 이 부분은 경험 혹은 기계학습 적용 가능성 확인 필요) 3) Index 추가 시 변화는, 해당 Index를 사용하는 application에 대한 확인 보다는 기존에 해당 테이블에 대한 CRUD의 평균횟수와 Index의 CRUD 등의 Operation의 평균값을 사용 평가 ( • IT 각 부분을 레고 블록화 할 수 있을까? - IT의 각 부분(WebServer, Load Balancer, …)을 소프트웨어 Object화 할 수 있다면, 가상 시스템을 만들어 평가하기 좋지 않을까?
  • 20. 다른 중요한 예측은 어떤 게 있을까? • 주가 예측이 가능하다면,  자산 관리가 쉽고, 효율적이 될 수 있다  Issue : (주식의) 거래는 사는 사람이 있어야 팔 수 있다.  누군가는 반대로 예측하여야 한다. 이 경우, 내 예측이 옳 을까?  그렇다면, 한 회사의 미래를 예측할 수 있을까? • 회사의 미래를 예측할 수 있다면,  투자자는 투자가 편해진다. 은행은 신용 평가가 정확해 진다. B2B 거래 업체 선정에 도움이 된다.  Issue : 회계 데이터 만으로 회사의 미래 예측이 가능한가?  과거 경영 상황이 미래에도 적용 가능한가?  조금 욕심을 버려, 회계 데이터의 불안요소는 평가 가능할까? • 회계 데이터의 불안요소(분식회계 요소)를 찾을 수 있다면,  회계사에 의존하던 신용평가를 객관적 시각화 할 수 있다. 회계법인을 상대로 한 소송을 줄일 수 있다. 회계 감사 시 간을 줄일 수 있다.  Issue : 회계사의 역할은 어떻게 바뀌어야 하는가?  찾아낸 불안요소를 실사하는 데에 집중 ~~ ^^  Issue : 재무제표 평가시스템은 금감원의 인가가 필요할까?  소송의 증거가 되기 위해서는 금감원 인가가 있어야 할 듯  Issue : 금감원 인가를 받은 시스템이 되기 전에 회계 법인과는 관계는?  감사의 효율성에 대한 appeal???  ERP 시스템 업체와 협의가 필요한 일이 될까?
  • 21. 또 다른 중요한 예측은 어떤 게 있을까? • 내가 살아가면서 해야 하는 예측은?  부동산 가치 예측  교통시간 예측  필요 자금 예측…. ^^;  ……. 무언가 더 있다….~~~~~