1. 데이터 과학자는 답을 알고 있다
Big Data
April 2015/ ISP/ Yonsei univ.
2010147158 이병은
2012147044 박준성
2012147048 이준영
2012147022 김동욱
2012147043 최재림
2012253081 조동헌
2. 목차
• 빅데이터 개념 소개
• Data science의 흐름 3단계
• 빅데이터 수집 – 컴퓨터 공학
• 빅데이터 분석 – 통계학
• 빅데이터 활용 – 활용 분야 전문성
• 빅데이터의 사례
• 데이터 과학자
• 빅데이터의 한계점
• 결론
Big Data
April 2015/ ISP/ Yonsei univ.
6. Bigdata
빅데이터와 클라우드의 만남
➢ 대용량 데이터를 다루는 특성상 한 대의 컴퓨터에 모든 데이터를 저장하는 것은 불가능. 여러 대의 컴퓨터에 저
장하는 분산 환경의 저장 시스템 필요
➢ 데이터 분석 또한 한 대의 컴퓨터로 수행 불가능. 빅데이터 플랫폼은 여러 대의 컴퓨터가 유기적으로 상호 연
결되어 수행되는 분산 컴퓨팅을 기반으로 구성되어어야 함.
➢ 빅데이터는 분산 컴퓨팅의 하드웨어 구성 문제를 클라우드 가상화 기술과 서비스를 통해 해결하고자 함.
• 필요한 만큼만 하드웨어 사용하고 반납
• 클라우드 저장 서비스는 사용 공간 및 시간 선택 가능
Big Data란?
데이터와 클라우드와의 만남을 통해서 이전에는 불가능했던
수십 TB, PB까지의 빅데이터를 저장하고
이를 분석하기 위한 컴퓨터를 원하는 만큼 손쉽게 제공 받을 수 있게 됨
7. Bigdata
공공 민간의 지식 개방, 공유 확대를 위한 빅데이터 활용 공통 기술 확보
데이터 마트 활성화로 빅데이터 활용성 증대 및 창조적 응용 분야 창출
Big Data란?
빅데이터와 클라우드의 만남
12. Bigdata
빅데이터의 세 가지 특징
2010년 IBM이 최초 정의
전 세계 데이터 중 90%가 최근 3년 이내에 생성
<빅데이터의 3요소> Volume
Large volume of data
terabytes or petabytes
Size, records, transactions, or tables
Variety
Number and type of data sources
Structured
Unstructured
Velocity
Frequency of updates
Real-time or streams
Batch processing
Big Data란?
17. BigdataData Science
KDD (Knowledge Discovery in Database) Process
Data
Target
data
Preprocessed
data
Transformed
data
Pattern/Model
Knowledge
수집된 데이터
목표 데이터 추출
데이터 가공
데이터 분류
데이터 패턴화
지식 창출
데이터 수집
데이터 분석
데이터 활용
18. BigdataData Science – 데이터 수집
내부데이터
- 기업의 활동으로 업무 과정 중에 생산된 데이터
- 로그 기록
외부데이터
- 인터넷에 연결되어 구할 수 있는 데이터
- 정부, 데이터 회사가 보유
- API를 통해 일부 접근
27. BigdataData Science – 데이터 분류&패턴화
가공된 데이터를 분류시키고 의미를 발견하는 과정 =>
Data
Mining
Predictive
Methods Descriptive
Methods
가설 확인 중심 데이터 분석 패턴 발견 중심 데이터 분석
Classification
-‐
데이터를 미리 지정된 부류나 등급으로 나눔
Clustering
-‐
데이터 수집 후 유사한 데이터끼리 분할
38. Bigdata
• 계란은 팔 아프다, 소고기는 비싸다
“멍 빼야 할 땐 – 베노플러스”
• 무릎에 메이크업? 가리지 말고 빼자.
“멍 빼야 할 땐 - 베노플러스"
• “계란은 드세요. 멍은 베노플러스가 뺄게요.”
• ‘멍 빨리 없애는 법’의 키워드는 전년 동기
대비 33% 감소한 반면, ‘베노플러스겔’은
557% 증가함
• ‘멍 빨리 없애는 법’의 검색 감소분이 ‘베노
플러스겔’로 전이됨
• 전년대비 매출 46% 성장!
빅데이터 집중 분석 (베노플러스)
검색량 변화광고 전략
39. Bigdata빅데이터 집중 분석 (GIS분석사례)
송규봉
GIS United 대표
연세대 생활환경대학원 겸임 교수
2호선 홍대입구역 일일 평균이용객 : 12만 3,800명
홍대입구역에서 홍대 정문으로 이어지는 곳에 많은 유동인구 형성
2호선 합정역 일일 평균이용객 : 5만 1,300명
’홍대정문점' ‘홍대거리점' ‘합정역' 중
가장 매출이 높은 곳은??
답 : 합정역
홍대정문점보다 매출이 3배가 많았다.
사용자의 특징과
지리적 분포 분석!!
40. Bigdata빅데이터 집중 분석 (GIS분석사례)
홍대전문점 합정역점
주 고객층 20대 (매출의 61%)
40-50대 (매출
의 32%)
평균 카드 사용 금액 3558원 1만 928원
주 매출 시간
9pm-6am동안 매출
의 50%
오전 출근시간에
만 매출의 25%
매출이 높은 이유는 고객특성
- ‘합정역점’에는 경제활동에 참여 중인
40~50대 고객이 두드러짐, 상대적
으로 20대보다 구매력이 높음
- 자택지에서 출발한 고객들이 직장으
로 가기 위한 중간지점에 ’합정역점’
위치 (카드회사 데이터) 퇴근길에도
마찬가지.
41.
42. BigdataDATA SCIENTIST
“데이터를 얻는 능력, 이해하는 능력, 처리하는 능력,
가치를 뽑아내는 능력, 시각화하는 능력,전달하는 능력이야말로
앞으로 10년간 엄청나게 중요한 능력이 될 것이다.”
- 구글 수석 경제학자 할 베리언(Hal Varian).
43. BigdataDATA SCIENTIST
Data scientist?
대량의 데이터에 관한 통계학적 분석, 데이터 마이닝, 그
리고 복구 프로세스를 진행하여 트렌드 및 수치 등의 정
보를 확인하는 개인 및 조직, 혹은 애플리케이션
- technopedia
Data scientist의 역할
• 데이터 수집→ 비정형 데이터 처리 기술
• 데이터 분석→ 전략 수립 관점에서 Data선택 및 결합,
통계적 방법, 프로그래밍을 통한 분석
• 데이터 활용→ 각각의 활용 분야에서 전략적 적용
44. BigdataDATA SCIENTIST
데이터 수집
타격영상
타자의 타율, 주루 플레이
40년간의 수첩 기록(그 날의 상
황, 상대 투수,선수의 자세, 경기 결과)
데이터 분석
모션 캡쳐, ESPN HOT ZONE 분석
마르코브 체인
상황에 따른 상대방의 경향 분석
데이터 활용
약점을 공략하는 결정구
모든 타선 조합의 예상 점수 산출
→ 효율적인 라인업
대비책 제시, 데이터에 따른 전략
구상→ “데이터 야구”
“데이터가 머릿속에 있으니까 직감으로 결정하고 판단할 수 있다. 직감이라
는 것은 운이 아니고 근거가 있어야 한다. 그건 데이터와 경험에서 나온다.”
-김성근 감독
46. BigdataDATA SCIENTIST
• Berkley 대학의 MIDS 과정을 비롯해 Stanford, NYU와 같은 미국 유수 대학에서는
Data Science에 관한 커리큘럼을 갖춰가고 있다.
• 웹 2.0의 선구자로 잘 알려진 팀 오 라일리는 지난 2월 포브스에 ‘가장 영향력 있는
데이터 과학자'로 구글 CEO 래리 페이지를 비롯해 MIT 교수, 메사추세츠 상원의원,
보건 복지부 CTO 등 정・재계와 학계 7명을 소개했다. 오 라일리는 실리콘 밸리에서
가장 뜨고 있는 직업(the hottest job title)으로 데이터 과학자를 꼽았다.
• 미국은 IT 산업계 뿐만 아니라 미국 정부에서도 DJ Patil 박사를 최고데이터과학자
(Chief Data Scientist, CDS)로 임명하는 등 공공 분야에서도 민간 분야의 데이터 과
학자들을 영입하는데 노력을 기울이고 있다.
master of
information
and Data
Science
47. Bigdata빅데이터 한계점
1. 개인정보 유출
• Netflix - 좋아하는 영화를 통해 개인정보를 역추적 가능
• 미국 ‘target’ , 개인 데이터 남용
• 페이스북, 블로그를 통한 사생활 유출
48. Bigdata빅데이터 한계점
2. 현업 사용자의 외면(CRM을 기억하자)
• 실무자들이 사용하기 어려운 시스템
• 시스템 사용을 강제하지 않는 기업 문화와 업무 프로세스
• 데이터 ‘분석’이 아닌 집계에 불과했다는 점
49. Bigdata빅데이터 한계점
3. 목적 없는 분석의 위험
빅데이터 분석시 빅데이터 분석으로 무엇을 얻을 수 있는지 확신과, 무엇을
얻으려 하는지 구체적 목표가 부재하기 때문에 어려움을 겪는 중