INTO
the
DATA
ANALYTICS
- 황준식 / Senior Analyst at ZOYI
2011 ~ 2013 초
정성(Qualitative)의 시대:
• Steve Jobs & iPhone
• IDEO & Design Research
• User Interface & User Experience
• Booming App Business
by me
정성 (Qualitative)
• 통계학입문(B0)
• 경영과학(B0)
• (유사) 회계원리(A+!!!)
• (유사) 기업재무(B0)
정량 (Quantitative)
• 제품과 서비스 혁신
• HCI 개론
• 조직구조와 설계
• 중국경영론
• 전략 경영
• 경영컨설팅의 이해
• 비즈니스커뮤니케이션
…
데이터 분석과 담을 쌓은 대학생활
사회생활의 시작:
장님이 코끼리 만지기
어떻게 만져야 잘 만진 것일까.
꼬리가 아닌 머리를 잡으려면?
이건 머리일 것이다.
왜냐하면 x...y...
전략
실행평가
여길 잡아보자!잡아보니 또 꼬리네..ㅜㅜ
데이터 분석을 해야겠구나...
꼬리가 꼬리인 줄 알려면
러닝커브: 일단 문은 열었는데...
통계
미적분 프로그래밍
딥러닝
머신러닝?데이터분석
알고리즘
자료구조
하둡
파이썬
러닝커브: 일단 간단한 것부터
• 업무나 취미에서 시작하자
• 처음부터 끝까지 다할 필요 없다
• 멋지거나 뛰어나지 않아도 좋다
• 자신감을 불어넣어줄 무언가 필요
파이썬으로 풀었던 문제 번호 (1)
다음과 같이 인물들로 구성된 리스트(list)가 있을 때,
이들이 구성할 수 있는 모든 가능한 중복되지 않는 2인 페어를 출력하라 (생각보다 어렵습니다..ㅠ)
인풋:
[정도전, 이성계, 정몽주]
아웃풋:
[정도전, 이성계], [이성계, 정몽주], [정몽주, 정도전]
러닝커브: 간단한 문제를 통한 자신감 -> 전투력 상승
모든 가능한 2인 페어 만들기
CSV파일 읽고 쓰기
라이브러리 임포트 및 사용법 익히기
타 프로그램이 읽을 수 있는 형태로 자료형 만들기
파이썬을 사용해서 데이터 분석하기
러닝커브: 개인프로젝트 완성
http://www.slideshare.net/jdjmania/jdj-network-analysisvf
배움과 실행: 더 무엇을 해야 할까-
개발자 형들의 업무를 조금만 가져와보자
슬라이드 작업
복잡한
데이터 시각화
데이터
프로세싱 및
분석
데이터
크롤링
개발자형들 나
간단한
Python
D3.jsR
Python
웹크롤링
인터랙티브
차트 만들기
뭔가
고도화된 분석
네이버 댓글
인스타그램 파싱
배움과 실행: 더 무엇을 해야 할까-
뭔가 고도화된 분석 -> 개발문법을 넘어선 무언가
뭔가
고도화된 분석
• 좀 더 엄정한 통계 기반 데이터 분석을 하고 싶다
• 머신러닝이라는게 뜨고 있다던데 어떻게 하는걸까
• 미적분도 모르는데 머신러닝 들어도 되나?
• 문자열 파싱은 할 줄 아는데 이 정도 수준으로 될까
됩니다
FAST CAMPUS
머신러닝 CAMP BY 강필성 교수님
배움과 실행: 어떻게 써먹을까
다양한 알고리즘들
연관규칙분석
다중선형회귀분석
의사결정나무
로지스틱회귀
나이브 베이즈
계층적 군집화
k-means clustering
자기조직화지도
텍스트 마이닝
…
결국
input을 넣으면
output이 나온다
그렇다면 무엇을 할 수 있을까
=> 개인 프로젝트
(여자친구가 가장 싫어하는 말)
배움과 실행: 냉장고를 부탁해 (R + D3.js + 잉여력)
배움과 실행: 냉장고를 부탁해 (R + D3.js + 잉여력)
공개된 데이터:
• 게스트 냉장고 속 재료들
• 셰프가 선택한 재료들
• 셰프의 승패
어떤 문제를 풀 수 있을까(분석 가설):
• 셰프들의 레시피는 특정한 재료 선택 규칙이 있다 -> 연관규칙분석
• A 셰프와 B 셰프는 재료에 대한 취향이 유사하다 -> 계층적군집화
• 게스트 C의 냉장고는 D의 냉장고와 비슷하다 -> 계층적군집화
배움과 실행: 냉장고를 부탁해 (R + D3.js + 잉여력)
• 게스트 C의 냉장고는 D의 냉장고와 비슷하다 -> 계층적 군집화
게스트 달걀 김치 배추 레드와인 양송이버섯 닭고기 …
문희준 1 0 1 0 0 0 …
사유리 0 1 0 0 1 1 …
박준형 0 0 0 0 1 0 …
지누 1 0 1 0 0 1 …
2) 냉장고 속 재료 개수만큼의 벡터차원에서 각 게스트(벡터)간의 거리를 구함
3) 가장 거리가 짧은 게스트끼리 묶어서 최종적으로 모두 묶일때까지 연산을 반복
4) 계층적 군집화 결과를 Dendrogram으로 시각화
1) 게스트의 냉장고 데이터를 매트릭스 형태의 데이터로 변환
배움과 실행: 냉장고를 부탁해 (R + D3.js + 잉여력)
• 게스트 C의 냉장고는 D의 냉장고와 비슷하다 -> 계층적 군집화
재료기준 군집화에 인적사항 기준 군집화를 대입
=> 인적사항 구분과 유사하게 재료 군집화가 이루어짐
배움과 실행: 비전공자(나)가 배우는 방식
알고리즘 및 활용 사례 정보 습득
동일한 형태의 다른 인풋 데이터로 코드 연습
알고리즘에 대한 이해 확대 + 코드 수정
원하는 목적에 맞게 활용 (개인 프로젝트)
수학적 / 프로그래밍적 이해 확대
다가온 미래: 데이터 기반 / 자동화
반복적 노동이 기계로
대체되는 현실
우리는 무엇을
해야하는가
다가온 미래: 1년 전 제 자신을 위한 간단한 조언
1. 주변의 간단한 문제부터 시작할 것
2. 작은 성취라도 꾸준히 기록할 것 (블로그)
3. 적절히 계획하고 적절히 충동적일 것
감사합니다
좋은 공부 소스:
FASTCAMPUS / Khan Academy / Coursera / Udemy / Youtube

[데이터를 부탁해] 비전공자가 데이터 분석가로 거듭나기 by 황준식

  • 1.
  • 2.
    2011 ~ 2013초 정성(Qualitative)의 시대: • Steve Jobs & iPhone • IDEO & Design Research • User Interface & User Experience • Booming App Business by me
  • 3.
    정성 (Qualitative) • 통계학입문(B0) •경영과학(B0) • (유사) 회계원리(A+!!!) • (유사) 기업재무(B0) 정량 (Quantitative) • 제품과 서비스 혁신 • HCI 개론 • 조직구조와 설계 • 중국경영론 • 전략 경영 • 경영컨설팅의 이해 • 비즈니스커뮤니케이션 … 데이터 분석과 담을 쌓은 대학생활
  • 4.
  • 5.
    어떻게 만져야 잘만진 것일까. 꼬리가 아닌 머리를 잡으려면? 이건 머리일 것이다. 왜냐하면 x...y... 전략 실행평가 여길 잡아보자!잡아보니 또 꼬리네..ㅜㅜ 데이터 분석을 해야겠구나... 꼬리가 꼬리인 줄 알려면
  • 6.
    러닝커브: 일단 문은열었는데... 통계 미적분 프로그래밍 딥러닝 머신러닝?데이터분석 알고리즘 자료구조 하둡 파이썬
  • 7.
    러닝커브: 일단 간단한것부터 • 업무나 취미에서 시작하자 • 처음부터 끝까지 다할 필요 없다 • 멋지거나 뛰어나지 않아도 좋다 • 자신감을 불어넣어줄 무언가 필요 파이썬으로 풀었던 문제 번호 (1) 다음과 같이 인물들로 구성된 리스트(list)가 있을 때, 이들이 구성할 수 있는 모든 가능한 중복되지 않는 2인 페어를 출력하라 (생각보다 어렵습니다..ㅠ) 인풋: [정도전, 이성계, 정몽주] 아웃풋: [정도전, 이성계], [이성계, 정몽주], [정몽주, 정도전]
  • 8.
    러닝커브: 간단한 문제를통한 자신감 -> 전투력 상승 모든 가능한 2인 페어 만들기 CSV파일 읽고 쓰기 라이브러리 임포트 및 사용법 익히기 타 프로그램이 읽을 수 있는 형태로 자료형 만들기 파이썬을 사용해서 데이터 분석하기
  • 9.
  • 10.
    배움과 실행: 더무엇을 해야 할까- 개발자 형들의 업무를 조금만 가져와보자 슬라이드 작업 복잡한 데이터 시각화 데이터 프로세싱 및 분석 데이터 크롤링 개발자형들 나 간단한 Python D3.jsR Python 웹크롤링 인터랙티브 차트 만들기 뭔가 고도화된 분석 네이버 댓글 인스타그램 파싱
  • 11.
    배움과 실행: 더무엇을 해야 할까- 뭔가 고도화된 분석 -> 개발문법을 넘어선 무언가 뭔가 고도화된 분석 • 좀 더 엄정한 통계 기반 데이터 분석을 하고 싶다 • 머신러닝이라는게 뜨고 있다던데 어떻게 하는걸까 • 미적분도 모르는데 머신러닝 들어도 되나? • 문자열 파싱은 할 줄 아는데 이 정도 수준으로 될까 됩니다 FAST CAMPUS 머신러닝 CAMP BY 강필성 교수님
  • 12.
    배움과 실행: 어떻게써먹을까 다양한 알고리즘들 연관규칙분석 다중선형회귀분석 의사결정나무 로지스틱회귀 나이브 베이즈 계층적 군집화 k-means clustering 자기조직화지도 텍스트 마이닝 … 결국 input을 넣으면 output이 나온다 그렇다면 무엇을 할 수 있을까 => 개인 프로젝트 (여자친구가 가장 싫어하는 말)
  • 13.
    배움과 실행: 냉장고를부탁해 (R + D3.js + 잉여력)
  • 14.
    배움과 실행: 냉장고를부탁해 (R + D3.js + 잉여력) 공개된 데이터: • 게스트 냉장고 속 재료들 • 셰프가 선택한 재료들 • 셰프의 승패 어떤 문제를 풀 수 있을까(분석 가설): • 셰프들의 레시피는 특정한 재료 선택 규칙이 있다 -> 연관규칙분석 • A 셰프와 B 셰프는 재료에 대한 취향이 유사하다 -> 계층적군집화 • 게스트 C의 냉장고는 D의 냉장고와 비슷하다 -> 계층적군집화
  • 15.
    배움과 실행: 냉장고를부탁해 (R + D3.js + 잉여력) • 게스트 C의 냉장고는 D의 냉장고와 비슷하다 -> 계층적 군집화 게스트 달걀 김치 배추 레드와인 양송이버섯 닭고기 … 문희준 1 0 1 0 0 0 … 사유리 0 1 0 0 1 1 … 박준형 0 0 0 0 1 0 … 지누 1 0 1 0 0 1 … 2) 냉장고 속 재료 개수만큼의 벡터차원에서 각 게스트(벡터)간의 거리를 구함 3) 가장 거리가 짧은 게스트끼리 묶어서 최종적으로 모두 묶일때까지 연산을 반복 4) 계층적 군집화 결과를 Dendrogram으로 시각화 1) 게스트의 냉장고 데이터를 매트릭스 형태의 데이터로 변환
  • 16.
    배움과 실행: 냉장고를부탁해 (R + D3.js + 잉여력) • 게스트 C의 냉장고는 D의 냉장고와 비슷하다 -> 계층적 군집화 재료기준 군집화에 인적사항 기준 군집화를 대입 => 인적사항 구분과 유사하게 재료 군집화가 이루어짐
  • 17.
    배움과 실행: 비전공자(나)가배우는 방식 알고리즘 및 활용 사례 정보 습득 동일한 형태의 다른 인풋 데이터로 코드 연습 알고리즘에 대한 이해 확대 + 코드 수정 원하는 목적에 맞게 활용 (개인 프로젝트) 수학적 / 프로그래밍적 이해 확대
  • 18.
    다가온 미래: 데이터기반 / 자동화 반복적 노동이 기계로 대체되는 현실 우리는 무엇을 해야하는가
  • 19.
    다가온 미래: 1년전 제 자신을 위한 간단한 조언 1. 주변의 간단한 문제부터 시작할 것 2. 작은 성취라도 꾸준히 기록할 것 (블로그) 3. 적절히 계획하고 적절히 충동적일 것 감사합니다 좋은 공부 소스: FASTCAMPUS / Khan Academy / Coursera / Udemy / Youtube