SlideShare a Scribd company logo
1 of 82
빅데이터 교육
이강욱
The leading expert in Data Science
data@nipa.kr
VICDATA
VALUE
데이터
데이터의 정의
“ Data are values of qualitative or
quantitative variables, belong to a
set of items.”
Set of items : Sometimes called the population; the set of objects you are interested in.
Variables : A measurement or characteristic of an item
Qualitative : Country of origin, treatment, gender ...
Quantitative : Height, weight, blood pressure...
데이터
존재적 특성
존재적 특성에는 정성적 데이터(qualitative data) 와 정량적 데이터(quantitative
data) 로 구분한다.
정성적 데이터 : 언어, 문자 등으로 이루어짐 – 오늘 날씨가 좋다
정량적 데이터 : 수치, 도형, 기호 등으로 이루어짐 – 나이, 몸무게
데이터
목적론적 특성
우리의 인식체계에서 어떤 사실에 대해 “데이터”라고 인식하게 되는 객체가 가지
고 있는 존재 목적.
수요조사, 실험 검사 측정 등을 통해 데이터를 수집 축적 다양한 방법으로 분석 하
여 논문 예측 경영전략 정책을 수립하는 일련의 가치 창출.
암묵지 형식지
경험을 통해
습득된 무형의
지식
형상화된 지식
데이터베이스
개요
동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이
터를 받아 들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집
합
히스토리
 1950년대 미국 군수목적으로 데이터의 기지라는 이름으로 개념 출발
 1960년대 디지털 컴퓨팅 발달로 계층구조의 데이터베이스 탄생
 1970년대 관계형 데이터베이스 이론 (코드-1981 튜링상)
 1980년대 관계형 데이터베이스 시스템 출시
 1990년대 ~ 현재 관계형 데이터베이스 시스템 전성기
 2010년대 big data이론의 대두로 NoSql 기반의 데이터 베이스 시스템 개발
데이터베이스
ACID이론
 원자성(Atomicity) : 트랜잭션의 처리는
완전히 끝마치지 않을 경우에는 전혀
이루어지지 않은 것과 같아야 한다.
이러한 특성을 All or Nothing"이라 한다.
 일관성(Consistency) : 트랜잭션들간의
영향이 한 방향으로만 전달되어야 한다.
 고립성(Isolation) : 트랜잭션의 부분적인
상태를 다른 트랜잭션에 제공해서는 안된다.
 지속성(Durability) : 성공적인 트랜잭션의
수행 후에는 반드시 데이터베이스
(디스크)에 반영하여야 한다.
데이터베이스
CAP이론
2000년 에릭 브루어(Eric Brewer)가 주창한 이론으로, CAP정리(CAP Theorem), 혹
은 브루어 정리(Brewer’s theorem) 등으로 불리운다. 주요 내용은 분산 컴퓨터 시
스템에서, 분산된 시스템이 가지는 세가지 특성을 동시에 충족시키는 것은 불가능
하며, 이 중 두가지만을 취할 수 있다는 것을 정리한 내용이다
일관성 (Consistency)
각각의 사용자가 같은 데이터를 볼 수 있다 = 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다.
가용성 (Availability)
모든 사용자가 항상 읽고 쓸 수 있다 = 몇몇 노드가 다운되어도 다른 노드들에게 영향을 주지 않아야 한
다.
분단가용성 (Partition Tolerance)
물리적으로 분리된 분산 환경에서도 작동한다 = 일부 메시지를 손실하더라도 시스템은 정상 동작을 해
야 한다.
데이터베이스
CAP이론
CP 분류 (동일성 + 생존성 = 모든 노드가 함께 퍼포먼스를 내야하는 성능형)
AP 분류 (독립성 + 생존성 = 비동기화된 서비스 스토어에 적합)
CA 분류 (동일성 + 독립성 = 일반적인 RDB)
데이터베이스
NoSql
Not-Only-SQL 빅데이터 분산처리 및 저장 기술과 함께 발달된 분산 데이터베이스
기술
 Key-Value : 가장 기초적이며 다른 데이터 모델의 기본이 됨. Dynamo, Redis
 Ordered KeyValue : 키밸류 모델에 데이터간 연속성을 더해 스캔에 힘을 더함. BerkeleyDB
 Big Table : 순차적 키밸류 모델에 데이터 모델링이 가능하도록 변경된 모델 : Hbase
 Documnet : 오브젝트형 이 NoSql형태로 파생 오브젝트대신 XML,JSON등 문서형 사용
: MongoDB, Cloudant
데이터베이스
NoSql
그만 따라해 !!!
빅데이터
정의
클 가능성을
가진 모든
디지털 형태
의 데이터
빅데이터
데이터용량 추이
PC 시대
인터넷/
모바일 시대
메인프레임
컴퓨터
디지털 정보량
증가 추이
• 2011년 전세계 디지털 정보량은 약 1.8ZB(제타바이트)
※ 1.8제타바이트 = 1.8조 기가바이트
• 2020년에 관리해야 할 정보의 양은 50배에 이상 증가
SNS
Web2.0
브로드밴드
1인 1PC
모바일혁명
www
사물정보통신
증강현실
인공지능
(IDC & EMC, ‘Digital Universe Study 2011’)
<전세계 정보량 증가 추이>
IT
everywhere
빅데이터
시대 도래
* Byte, Kilo, Mega, Giga, Tera, Peta, Exa, Zetta
1ZB(제타바이트) = 1021 Byte = 1조 GB
빅데이터
데이터용량 추이
빅데이터
빅데이터의 전망
빅데이터
빅데이터의 전망
빅데이터
빅데이터의 전망
ICE BREAKE
다음 중 빅데이터라고 생각되는 것은?
미의회
도서관 자료
한국고용정보원
자료
싸이월드
자료
빅데이터의 활용
시장예측
빅데이터의 활용
선호분석
빅데이터의 활용
사회적분위기 파악
빅데이터의 활용
트렌드 감지 및 예측
빅데이터의 활용
빅데이터가 변화시킨 것들
사전처리  사후처리(표준화된 문서포맷)
표본조사  전수조사(잉여력)
질  양(번역시스템)
인과관계  상관관계(Aviva)
빅데이터의 활용
사전처리사후처리
사전처리  사후처리(표준화된 문서포맷)
표본조사  전수조사(잉여력)
질  양(번역시스템)
인과관계  상관관계(Aviva)
빅데이터 사례
해외사례(월마트)
• Polaris
– 소비자가 희망할 것으로 추정되는 것 검색
– 월마트 ‘social genom’ 프로젝트
– Fast data의 개념 도입
– 소비자의 수 15% 증가, 온라인 리뷰 20% 증가
– 기존 검색업체들을 통해 제휴하려 했지만, 거부당해 자체 솔루션 개발
– 오프라인 매장과 온라인 매장의 연결고리 마련
– 불필요한 물품을 각 매장에 보낼 필요가 없어져 유통 구조를 개선할 수
있으며 각 매장 공간 효율성 상승
– 검색통계를 활용해 특정 제품에 관심이 많은 지역 점포의 상품구성 조
정을 한다
빅데이터 사례
해외사례(월마트)
빅데이터 사례
해외사례
Google flu Trends
빅데이터 사례
해외사례
Google flu Trends
구글이 지난 2008년 11월부터 선보인 '독감 트렌드' 서비스는 전 세계 각지에서 '독감증세', '독감치료' 등 독감과 관련된 검
색어의 입력 빈도를 지역별로 파악해 독감 유행 수준을 ‘매우 낮음’부터 ‘매우 높음’까지 5개 등급으로 구분해 표시한다.
특정 지역에서 발열이나 기침 등 독감 관련 검색이 늘어나면 검색어와 관련된 IP주소를 지도에 추가해 해당 지역의 독감 유
행 수준 등급이 거의 실시간으로 표시된다.
구글의 독감 트렌드가 지난 2009년 2월 대서양 연안 중부지역 주에서 감기가 확산될 것이란 정보를 미국 CDC보다 2주 먼
저 예측한 것은 지금도 화제가 되고 있다.
앞서 구글은 미국 CDC의 관련 보고서보다 1주에서 2주 정도 더 빨리 독감 바이러스의 활성을 정확히 예측하는 실시간 감
시 시스템으로 변환시켜주는 컴퓨터 모델을 제시했으며, 그 결과가 네이처(Nature)지에도 게재됐다.
이번에도 구글의 독감 트렌드는 미국 CDC의 독감 감시 리포터와 거의 일치하고 있다. 게다가 CDC보다 앞서 독감의 확산
경로를 보여주고 있다.
빅데이터 사례
해외사례
Google flu Trends 반론
"구글 독감 동향 (GFT)은 공학의 놀라운 부분이고 매우 유용한 도구이지만, ' 빅 데이터 ' 분석이 어떤 곳에서 잘못 활용
될 수 있는지도 보여준다."라고 휴스턴 대학의 정치학 교수인 라이언 케네디는 말했다. 케네디와 공동 연구자들은 구글
과 같은 수집기로부터 얻어진 빅 데이터의 잘못된 사용에 대한 새로운 연구를 자세히 설명했다.
수 년 간 GFT 에 대한 수정에도 불구하고, 독감 유행에 대한 대응을 개선하기 위해 설정된 도구는 지난 2 년 동안 미국
에서 최대 독감 증례들을 과대 평가해왔다. "'빅 데이터' 의 대부분의 원천은, 구글 처럼 지속적으로 자신의 비즈니스 모
델에 따라 해당 서비스를 변경하고 있는 민간 기업들에서 온다."고 케네디 는 말했다. "우리는 이것이 그들이 생산하는
데이터에 어떻게 영향을 끼치는지에 대해 이해할 필요가 있습니다. 그렇지 않으면 우리는 잘못된 결론을 도출하고 잘
못된 정책을 채택할 위험을 가지게 됩니다."라고 케네디 는 말했다.
이 연구에 따르면, 구글 독감 동향 (GFT)은 2011-2012, 2012-2013 시즌의 독감 유병률 (prevalence)을 50%가 넘게 과대
평가했다. 또한 , 2011년 8월 부터 2013년 9월 사이에, 구글 독감 동향 (GFT)은 108주 중 100주 동안 독감 의 유병률
(prevalence)을 과도하게 예측했다.
빅데이터 사례
해외사례
Google flu Trends 변명
지난 달, 사이언스 지에 실린 “구글트렌드가 준 교훈: 빅데이터 분석의 함정(The Parable of Google Flu: Traps in Big
Data Analysis)”이라는 논문은 독감 트렌드의 예측 능력 실패를 다루며, 독감 트렌드가 2011년 8월 이후 108 주 중에
서 100 주 동안 실제 독감발병보다 더 높은 값을 예측했다고 발표했습니다.
그리고 다시 많은 매체들이 이를 다루었습니다. 포브스는 “왜 구글 독감 트렌드는 실패했나”라는 제목을, 타임즈는
“구글 독감 트렌드의 실패가 보여주는 빅 데이터의 단점”이라는 제목을 뽑았았습니다. 마치 이들의 기사 제목을 보면
구글의 독감 트렌드가 전혀 엉뚱한 결과를 만들어 내는 것처럼 보입니다.
그러나 논문을 잘 살펴보면, 비록 독감 트렌드 자체는 좋은 결과를 주지 않았지만, 독감 트렌드와 CDC의 표준예측결
과를 조합했을 때는 실제로 더 나은 결과를 준다는 것을 볼 수 있습니다. 논문의 저자는 이렇게 말합니다.
“구글 독감 트렌드는 그 자체로 다른 전통적인 방법을 대체하도록 만들어졌다기 보다는 다른 방법을 보완하는 용도
로 만들어졌습니다. 다른 감시 시스템과 마찬가지로, 이 데이터를 바탕으로 추가적인 실제 조사활동을 하기 위해 사
용될 때 가장 유용할 수 있습니다.”
만약 독감 트렌드가 실제로 CDC 의 방법들을 보완할 목표를 가졌다면, 이를 독감 트렌드의 실패라고 부르는 것이 맞
는 표현일까요? 실제로 2004년, 독감 트렌드를 지금은 거의 사문화된 구글의 20% 법칙을 통해 만든 매트 모헤비
(Matt Mohebbi)와 제레미 깅스버그(Jeremy Ginsberg)는 당시 독감 트렌드를 완성한 직후 CDC 에 연락을 취해 그들
이 보완적인 용도로 사용할 수 있도록 그들과 협력했습니다.
그리고 독감 트렌드는 기존의 방법을 보완했을 때, 기존의 방법보다 더 나은 결과를 만들어 내고 있습니다. 이런 상황
에서 독감 트렌드를, 그리고 이를 빅 데이터의 실패라고 부르는 것이 맞는 표현일까요?
새로운 기술이 등장할 때마다 사람들은 과도한 환호성을 보냅니다. 그리고 그 기술이 자신들의 기대에 미치지 못했을
때, 다시 이를 실패로 쉽게 규정짓습니다.
다행히, 이런 대중과 언론의 호들갑을 신경쓰지 않는 사람들이 있습니다. 과학자들은 이 독감 트렌드의 방법론이 역
학(epidemiology)분야에 중요한 역할을 한다고 생각하고 있으며 2009년 깅스버그의 네이처 논문은 지금까지 다양한
분야에서 1,000번 이상 인용되며 과학의 발전에 기여하고 있습니다. (Atlantic)
빅데이터 사례
국내사례 (SKT)
• 주요 포털 뉴스 등 온라인 버즈 분석
• SNS상의 최신 핫이슈 분석
• 기업의 평판을 실시간으로 모니터링하여 기업의 대응전략 마련
빅데이터 사례
국내기업의 한계점
데이터, 텍스트 마이닝을 하는 것 보다 모니터링에 그침
한국의 형태소 근원에 대한 명확한 텍스트 마이닝 기술 어려움
SNS의 활동 등이 facebook, twitter 가 크지 않음
빅데이터분석기법
빅데이터 활용 분석 기본 테크닉
1. 연관규칙학습(Association Rule Learning)
2. 유전 알고리즘(Genetic Algorithms)
3. 회귀분석(Regression Analysis)
4. 유형분석(Classification Tree Analysis)
5. 기계학습(Machine Learning)
6. 소셜네트워크 분석(Social Network Analysis)
7. 감정분석(Sentiment Analysis)
빅데이터분석기법
연관규칙학습
상품 혹은 서비스간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때
이용될 수 있는 기법. 연관성측정(Associations)은 어떤 특정 문제에 대해 아직은
일어나지 않은 답(예를 들어, 부도 · 건전)을 얻고자 하는 예측(Prediction)의 문제
나 고객들을 특정목적에 따라 분류(Segmentation)하는 문제가 아니라, 상품 혹은
서비스(이하 상품)의 거래기록(Historical)데이터로부터 상품간의 연관성 정도를 측
정하여 관성이 많은 상품들을 그룹화하는 클러스터링(clustering)의 일종.
If A Then B
빅데이터분석기법
유전알고리즘
유전 알고리즘은 자연계의 생물 유전학에 기본 이론을 두며, 병렬적이고 전역적인
탐색 알고리즘으로서, 다윈의 적자생존 이론을 기본 개념으로 한다. 유전 알고리즘
은 풀고자 하는 문제에 대한 가능한 해들을 정해진 형태의 자료구조로 표현한 다
음, 이들을 점차적으로 변형함으로써 점점 더 좋은 해들을 만들어 낸다. 여기에서
해들을 나타내는 자료구조는 유전자, 이들을 변형함으로써 점점 더 좋은 해를 만
들어 내는 과정은 진화로 표현할 수 있다.
빅데이터분석기법
회귀분석
변수들 간의 상호 관련성을 규명하고 어떤 변수들의 변화로부터 다른 변수들의 변
화를 예측하는 기법
- 상관분석
두 변수의 역할이 서로 대등할 때 사용. ex)키와 몸무게
목적(target)변수의 역할이 서로 바뀔 수 있을 때역할의 구분이 없을 때
두 변수간의 직선적(linear) 관련성의 강도(strength)를 하나의 값, 상관계수
(correlation coefficient)
- 회귀분석
두 변수의 관계에 분명한 방향(direction)이 있을 때 ex)혈압과 체질량 지수
반응변수와 설명변수(종속변수와 독립변수) 회귀계수(Regression coefficients)
빅데이터분석기법
유형분석
이 사용자는 어떤 특성을 가진 집단에 속하는가? 와 같은 문제를 해결하고자 할
때 사용한다. 통계적 분류는 새로운 사건이 속하게 될 범주를 찾아내는 일이다. 이
를 위해서는 기존 자료를 바탕으로 만들어진 Training Set이 있어야 한다. 이 기법
은 문서를 분류하거나 조직을 그룹으로 나눌 때, 혹은 온라인으로 지원한 수강생
들을 특성에 따라 분류할 때 사용할 수 있다.
Classifier
Testing
Data
NAM E RANK YEARS TENURED
Tom Assistant Prof 2 no
M erlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes
Unseen Data
(Jeff, Professor, 4)
Tenured?
빅데이터분석기법
소셜네트워크분석
사회관계망 분석이라 불리는 소셜네트워크분석은 특정인과 다른 사람이 몇 촌 정
도 인가?를 파악할 때 사용한다. 이를 통해 오피니언 리더, 즉 영향력 있는 사람을
찾아낼 수 있으며, 고객들 간의 소셜 관계를 파악할 수 있다.
A
B
CD
E
F
G
A B
C
D
E
F
G
빅데이터분석기법
감정 분석
특정 주제에 관하여 말하거나 글을 쓴 사람의 감정을 분석한다.
빅데이터분석기법
기계학습
기계학습은 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤
것을 가장 보고 싶어할까? 와 같은 문제를 해결할 때 사용된다. 이를 위해 기계학
습은 데이터를 통해 학습할 수 있는 소프트웨어를 포함하고 있다. 기계학습은 훈
련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 일에 초점을 맞춘다.
주위 환경
(Environment)
학습 요소
(Learning
Element)
지식베이스
실행 요소
(Performance
Element)
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
기계학습
빅데이터분석기법
통계적 기법과 차이점
 가설확인 중심의 통계적 방식
 가설 발견 중심의 데이터마이닝 방식
질의도구
시각화도구
OLAP도구
DATA
가설
고객의 직업과 수입
정도가 신용불량 여
부와 관련이 많다.
데이터마이닝
DATA
어떤 사람들이 신용불량
자(잠재)일까?
가설
*직업이 자영업,무직
등에 속한 사람들
*수입이 XXX만원이
하이고, 지역이 A지
역에 거주하는 경우
신용불량 확률높음
검증 정보
빅데이터분석기법
결론
데이터 분석은 결국 앞서 소개한 기법으로 데이터를 분석해 흥미로운 상관관계를
발견하거나, 사용자를 특정한 유형으로 분류하고, 보유한 자원을 적당하게 할당하
거나, 서비스나 상품의 가치를 책정하는데 도움을 받을 수 있다. 나아가 여러기법
을 결합해 다양한 비즈니스 모델을 개발할 수 있다. 데이터뿐 아니라 분석 테크닉
까지 창의적으로 재 조합해 활용하면, 기존에 없던 비즈니스 모델 개발이 가능할
수도 있고 새로운 가치도 창출할 수 있게 된다.
데이터사이언스
분석 vs. 과학
Data 분석
Data Science
데이터사이언스
마케팅부서의 항의
“애널리틱스/IT 부서는 ‘비즈니스 구상에
관해 설명한 내용과 전혀 관련 없는 결과
만을 전달하는’ 이들이다. 이들이 수만 가
지 말을 하더라도, 마케팅 사업부에겐 아
무런 영양가가 없기 십상이다”
데이터사이언스
애널리틱스/IT부서의 변명
무엇을 분석할 것인지가 애매하고
데이터 자체가 경영과 연결되지 않고 있다.
또한 경영문화 자체가 데이터에 적합하지
않으니 데이터에 아무리 투자해도
성과가 부진할 수밖에 없다
데이터사이언스
데이터사이언스 핵심구성요소
Analytics
비즈니스
분석IT
(Data Mgmt)
데이터사이언스
전문가가 본 데이터 사이언티스트의 역량
데이터사이언스
전문가가 본 데이터 사이언티스트의 역량
데이터사이언스
데이터 사이언티스트의 역량
Analytics
비즈니스
분석IT
(Data Mgmt)
Hard Skill
Soft Skill
데이터사이언스
참고자료
OO원의 BIG DATA 커리큘럼 도출사례
데이터사이언스
참고자료
ㅇ빅데이터 특성 3V 및 가치 (Value) 이해
ㅇ기존 데이터와 빅데이터의 차이점
ㅇ빅데이터 최신 이슈들에 대한 사례 연구
ㅇ빅데이터 관련 시장과신규성장분야현황 및성장
률 전망분석
ㅇ소셜 미디어 및 스마트폰을 활용한 빅데이터 적
용방법 연구
ㅇ빅데이터 자원, 기술, 인력에 대한 상호 관계 학습
ㅇ데이터 사이언티스트의 필요역량 이해 및 강화방안
연구
ㅇ데이터 사이언스의 상세 분야 탐구
ㅇ데이터 사이언스의 학제성과 실제 프로젝트
수행에 필요한 역할 학습
ㅇ데이터 과학자의 향후 인력수급 전망 분석
데이터사이언스
참고자료
ㅇIT의 기본개념 이해
ㅇ클라우드 컴퓨팅의 기본개념 이해
ㅇSystem & Server의 핵심 개념 이해
ㅇNetwork를 활용한 빅데이터 인프라 구축
ㅇDataBase 인프라 구축 기본 개념 이해
ㅇ데이터베이스 설계 시 요구사항 분석 및 실습
ㅇ논리적 설계 개념의 이해
ㅇ개념적 설계 개념의 이해
ㅇ물리적 설계 개념의 이해
ㅇER 모델 개념 학습
데이터사이언스
참고자료
ㅇ신뢰도와 타당도 점검방법 학습
ㅇ가설과 가설검증의 과정 학습
ㅇ확률적 의사결정의 개념 이해
ㅇ통계적 추론법 학습
ㅇ통계적 문제해결의 문제점 및 보완방법 도출
ㅇ통계의 기초가 되는 분석기법의 개념 이해
ㅇ기술통계분석, 빈도분석, 교차분석의 이해와
ㅇ다중응답분석, 상관분석, 신뢰도 분석의 이해
ㅇT검정, 분산분석, 회귀분석, 요인분석의 이해
ㅇ산업별 빅데이터 분석에 활용되는 통계 분석
기법의 이해
빅데이터의 한계와 반론
빅데이터미신
빅데이터의 한계와 반론
빅데이터미신
빅데이터의 한계와 반론
빅데이터미신
빅데이터의 한계와 반론
빅데이터미신
빅데이터의 한계와 반론
빅데이터미신
빅데이터의 한계와 반론
빅데이터미신
빅데이터의 한계와 반론
빅데이터미신
빅데이터의 한계와 반론
빅데이터미신
빅데이터의 한계와 반론
빅데이터미신
마치며
The data is the second most important thing
 The most important thing in data science is the question
 The second most important is data
 Often the data will limit or enable the question
 But having data can’t save you if you don’t have a
question

More Related Content

What's hot

[정보 디자인 교과서] 2-1 정보의 조직화
[정보 디자인 교과서] 2-1 정보의 조직화[정보 디자인 교과서] 2-1 정보의 조직화
[정보 디자인 교과서] 2-1 정보의 조직화sunhee kim
 
「指標」を支えるエンジニアリング: DataOpsNight #1
「指標」を支えるエンジニアリング: DataOpsNight #1「指標」を支えるエンジニアリング: DataOpsNight #1
「指標」を支えるエンジニアリング: DataOpsNight #1株式会社MonotaRO Tech Team
 
FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法
FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法
FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法Nobuho Hashimoto
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
座談会資料(当日メモ付き)_20230909.pdf
座談会資料(当日メモ付き)_20230909.pdf座談会資料(当日メモ付き)_20230909.pdf
座談会資料(当日メモ付き)_20230909.pdf知礼 八子
 
Mcollective orchestration tool 소개
Mcollective orchestration tool 소개Mcollective orchestration tool 소개
Mcollective orchestration tool 소개태준 문
 
Databricks for Dummies
Databricks for DummiesDatabricks for Dummies
Databricks for DummiesRodney Joyce
 
나 혼자 한다: 개발자가 창업을 하면 벌어지는 일
나 혼자 한다: 개발자가 창업을 하면 벌어지는 일나 혼자 한다: 개발자가 창업을 하면 벌어지는 일
나 혼자 한다: 개발자가 창업을 하면 벌어지는 일Hyeonjong Gim
 
인포그래픽스 정보 디자인의 관점과 표현 (Infographics)
인포그래픽스 정보 디자인의 관점과 표현 (Infographics)인포그래픽스 정보 디자인의 관점과 표현 (Infographics)
인포그래픽스 정보 디자인의 관점과 표현 (Infographics)유정 김
 
빅데이터 분석 시각화 분석 : 4장 빅데이터와 시각화 디자인
빅데이터 분석 시각화 분석 : 4장 빅데이터와 시각화 디자인빅데이터 분석 시각화 분석 : 4장 빅데이터와 시각화 디자인
빅데이터 분석 시각화 분석 : 4장 빅데이터와 시각화 디자인Ji Lee
 
20201023 Builders Box 2nd Enterprise Architect
20201023 Builders Box 2nd Enterprise Architect20201023 Builders Box 2nd Enterprise Architect
20201023 Builders Box 2nd Enterprise Architectkounan13
 
Elasticsearch勉強会#44 20210624
Elasticsearch勉強会#44 20210624Elasticsearch勉強会#44 20210624
Elasticsearch勉強会#44 20210624Tetsuya Sodo
 

What's hot (14)

[정보 디자인 교과서] 2-1 정보의 조직화
[정보 디자인 교과서] 2-1 정보의 조직화[정보 디자인 교과서] 2-1 정보의 조직화
[정보 디자인 교과서] 2-1 정보의 조직화
 
「指標」を支えるエンジニアリング: DataOpsNight #1
「指標」を支えるエンジニアリング: DataOpsNight #1「指標」を支えるエンジニアリング: DataOpsNight #1
「指標」を支えるエンジニアリング: DataOpsNight #1
 
Proposta de Inovação (1)
Proposta de Inovação (1)Proposta de Inovação (1)
Proposta de Inovação (1)
 
FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法
FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法
FPGAを用いたフルパイプラインによるバイラテラルフィルタの高速化手法
 
Big data in telecom
Big data in telecomBig data in telecom
Big data in telecom
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
座談会資料(当日メモ付き)_20230909.pdf
座談会資料(当日メモ付き)_20230909.pdf座談会資料(当日メモ付き)_20230909.pdf
座談会資料(当日メモ付き)_20230909.pdf
 
Mcollective orchestration tool 소개
Mcollective orchestration tool 소개Mcollective orchestration tool 소개
Mcollective orchestration tool 소개
 
Databricks for Dummies
Databricks for DummiesDatabricks for Dummies
Databricks for Dummies
 
나 혼자 한다: 개발자가 창업을 하면 벌어지는 일
나 혼자 한다: 개발자가 창업을 하면 벌어지는 일나 혼자 한다: 개발자가 창업을 하면 벌어지는 일
나 혼자 한다: 개발자가 창업을 하면 벌어지는 일
 
인포그래픽스 정보 디자인의 관점과 표현 (Infographics)
인포그래픽스 정보 디자인의 관점과 표현 (Infographics)인포그래픽스 정보 디자인의 관점과 표현 (Infographics)
인포그래픽스 정보 디자인의 관점과 표현 (Infographics)
 
빅데이터 분석 시각화 분석 : 4장 빅데이터와 시각화 디자인
빅데이터 분석 시각화 분석 : 4장 빅데이터와 시각화 디자인빅데이터 분석 시각화 분석 : 4장 빅데이터와 시각화 디자인
빅데이터 분석 시각화 분석 : 4장 빅데이터와 시각화 디자인
 
20201023 Builders Box 2nd Enterprise Architect
20201023 Builders Box 2nd Enterprise Architect20201023 Builders Box 2nd Enterprise Architect
20201023 Builders Box 2nd Enterprise Architect
 
Elasticsearch勉強会#44 20210624
Elasticsearch勉強会#44 20210624Elasticsearch勉強会#44 20210624
Elasticsearch勉強会#44 20210624
 

Similar to 빅데이터

건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안메가트렌드랩 megatrendlab
 
병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략Digital Initiative Group
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해수보 김
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기Kangwook Lee
 
의료에서의 인공지능 정리 파일 김치원 V5
의료에서의 인공지능 정리 파일 김치원 V5의료에서의 인공지능 정리 파일 김치원 V5
의료에서의 인공지능 정리 파일 김치원 V5Chiweon Kim
 
빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1Kangwook Lee
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programmingSeongWan Son
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
디지털 트윈과 핼스케어 Digital Twin and Healthcare
디지털 트윈과 핼스케어  Digital Twin and Healthcare디지털 트윈과 핼스케어  Digital Twin and Healthcare
디지털 트윈과 핼스케어 Digital Twin and HealthcareJahee Lee
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출SRCDSC
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기iron han
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형datasciencekorea
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께백승민 Baek Seung Min
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선datasciencekorea
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.Byounghee Kim
 
이미 와있는 미래와 소프트웨어씽킹
이미 와있는 미래와 소프트웨어씽킹이미 와있는 미래와 소프트웨어씽킹
이미 와있는 미래와 소프트웨어씽킹JeongHeon Lee
 
Data for project text mining
Data for project text miningData for project text mining
Data for project text mining호준 김
 

Similar to 빅데이터 (20)

건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
 
병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략병원 의료 및 제약 Bigdata 활용 마케팅전략
병원 의료 및 제약 Bigdata 활용 마케팅전략
 
빅데이터의 이해
빅데이터의 이해빅데이터의 이해
빅데이터의 이해
 
빅데이터전문가교육 2학기
빅데이터전문가교육 2학기빅데이터전문가교육 2학기
빅데이터전문가교육 2학기
 
의료에서의 인공지능 정리 파일 김치원 V5
의료에서의 인공지능 정리 파일 김치원 V5의료에서의 인공지능 정리 파일 김치원 V5
의료에서의 인공지능 정리 파일 김치원 V5
 
빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1빅데이터전문가교육 3학기 1
빅데이터전문가교육 3학기 1
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
디지털 트윈과 핼스케어 Digital Twin and Healthcare
디지털 트윈과 핼스케어  Digital Twin and Healthcare디지털 트윈과 핼스케어  Digital Twin and Healthcare
디지털 트윈과 핼스케어 Digital Twin and Healthcare
 
데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출데이터과학의 정의와 대표과제 도출
데이터과학의 정의와 대표과제 도출
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께[통계페스티발] 무덤에서 요람까지 통계와 함께
[통계페스티발] 무덤에서 요람까지 통계와 함께
 
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
2015-4 혁신기술로서의 빅데이터 국내 기술수용 초기 특성연구- 김정선
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.
 
이미 와있는 미래와 소프트웨어씽킹
이미 와있는 미래와 소프트웨어씽킹이미 와있는 미래와 소프트웨어씽킹
이미 와있는 미래와 소프트웨어씽킹
 
Big data2
Big data2Big data2
Big data2
 
Data for project text mining
Data for project text miningData for project text mining
Data for project text mining
 

More from Kangwook Lee

More from Kangwook Lee (20)

분석8기 4조
분석8기 4조분석8기 4조
분석8기 4조
 
분석7기 5조
분석7기 5조분석7기 5조
분석7기 5조
 
분석6기 4조
분석6기 4조분석6기 4조
분석6기 4조
 
분석5기 4조
분석5기 4조분석5기 4조
분석5기 4조
 
기술8기 2조
기술8기 2조기술8기 2조
기술8기 2조
 
기술7기 2조
기술7기 2조기술7기 2조
기술7기 2조
 
기술6기 3조
기술6기 3조기술6기 3조
기술6기 3조
 
기술5기 1조
기술5기 1조기술5기 1조
기술5기 1조
 
Apply교육
Apply교육Apply교육
Apply교육
 
빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)빅데이터 분석활용 가이드 (1)
빅데이터 분석활용 가이드 (1)
 
Editing textvariables
Editing textvariablesEditing textvariables
Editing textvariables
 
Summarizing data
Summarizing dataSummarizing data
Summarizing data
 
Subsetting andsorting
Subsetting andsortingSubsetting andsorting
Subsetting andsorting
 
Readingfromothersources
ReadingfromothersourcesReadingfromothersources
Readingfromothersources
 
Readingfromapis
ReadingfromapisReadingfromapis
Readingfromapis
 
Reading files4
Reading files4Reading files4
Reading files4
 
Reading files3
Reading files3Reading files3
Reading files3
 
Reading files2
Reading files2Reading files2
Reading files2
 
Reading files1
Reading files1Reading files1
Reading files1
 
Down loadingfiles
Down loadingfilesDown loadingfiles
Down loadingfiles
 

빅데이터

  • 1. 빅데이터 교육 이강욱 The leading expert in Data Science data@nipa.kr VICDATA VALUE
  • 2. 데이터 데이터의 정의 “ Data are values of qualitative or quantitative variables, belong to a set of items.” Set of items : Sometimes called the population; the set of objects you are interested in. Variables : A measurement or characteristic of an item Qualitative : Country of origin, treatment, gender ... Quantitative : Height, weight, blood pressure...
  • 3. 데이터 존재적 특성 존재적 특성에는 정성적 데이터(qualitative data) 와 정량적 데이터(quantitative data) 로 구분한다. 정성적 데이터 : 언어, 문자 등으로 이루어짐 – 오늘 날씨가 좋다 정량적 데이터 : 수치, 도형, 기호 등으로 이루어짐 – 나이, 몸무게
  • 4. 데이터 목적론적 특성 우리의 인식체계에서 어떤 사실에 대해 “데이터”라고 인식하게 되는 객체가 가지 고 있는 존재 목적. 수요조사, 실험 검사 측정 등을 통해 데이터를 수집 축적 다양한 방법으로 분석 하 여 논문 예측 경영전략 정책을 수립하는 일련의 가치 창출. 암묵지 형식지 경험을 통해 습득된 무형의 지식 형상화된 지식
  • 5. 데이터베이스 개요 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이 터를 받아 들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집 합 히스토리  1950년대 미국 군수목적으로 데이터의 기지라는 이름으로 개념 출발  1960년대 디지털 컴퓨팅 발달로 계층구조의 데이터베이스 탄생  1970년대 관계형 데이터베이스 이론 (코드-1981 튜링상)  1980년대 관계형 데이터베이스 시스템 출시  1990년대 ~ 현재 관계형 데이터베이스 시스템 전성기  2010년대 big data이론의 대두로 NoSql 기반의 데이터 베이스 시스템 개발
  • 6. 데이터베이스 ACID이론  원자성(Atomicity) : 트랜잭션의 처리는 완전히 끝마치지 않을 경우에는 전혀 이루어지지 않은 것과 같아야 한다. 이러한 특성을 All or Nothing"이라 한다.  일관성(Consistency) : 트랜잭션들간의 영향이 한 방향으로만 전달되어야 한다.  고립성(Isolation) : 트랜잭션의 부분적인 상태를 다른 트랜잭션에 제공해서는 안된다.  지속성(Durability) : 성공적인 트랜잭션의 수행 후에는 반드시 데이터베이스 (디스크)에 반영하여야 한다.
  • 7. 데이터베이스 CAP이론 2000년 에릭 브루어(Eric Brewer)가 주창한 이론으로, CAP정리(CAP Theorem), 혹 은 브루어 정리(Brewer’s theorem) 등으로 불리운다. 주요 내용은 분산 컴퓨터 시 스템에서, 분산된 시스템이 가지는 세가지 특성을 동시에 충족시키는 것은 불가능 하며, 이 중 두가지만을 취할 수 있다는 것을 정리한 내용이다 일관성 (Consistency) 각각의 사용자가 같은 데이터를 볼 수 있다 = 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다. 가용성 (Availability) 모든 사용자가 항상 읽고 쓸 수 있다 = 몇몇 노드가 다운되어도 다른 노드들에게 영향을 주지 않아야 한 다. 분단가용성 (Partition Tolerance) 물리적으로 분리된 분산 환경에서도 작동한다 = 일부 메시지를 손실하더라도 시스템은 정상 동작을 해 야 한다.
  • 8. 데이터베이스 CAP이론 CP 분류 (동일성 + 생존성 = 모든 노드가 함께 퍼포먼스를 내야하는 성능형) AP 분류 (독립성 + 생존성 = 비동기화된 서비스 스토어에 적합) CA 분류 (동일성 + 독립성 = 일반적인 RDB)
  • 9. 데이터베이스 NoSql Not-Only-SQL 빅데이터 분산처리 및 저장 기술과 함께 발달된 분산 데이터베이스 기술  Key-Value : 가장 기초적이며 다른 데이터 모델의 기본이 됨. Dynamo, Redis  Ordered KeyValue : 키밸류 모델에 데이터간 연속성을 더해 스캔에 힘을 더함. BerkeleyDB  Big Table : 순차적 키밸류 모델에 데이터 모델링이 가능하도록 변경된 모델 : Hbase  Documnet : 오브젝트형 이 NoSql형태로 파생 오브젝트대신 XML,JSON등 문서형 사용 : MongoDB, Cloudant
  • 12. 빅데이터 데이터용량 추이 PC 시대 인터넷/ 모바일 시대 메인프레임 컴퓨터 디지털 정보량 증가 추이 • 2011년 전세계 디지털 정보량은 약 1.8ZB(제타바이트) ※ 1.8제타바이트 = 1.8조 기가바이트 • 2020년에 관리해야 할 정보의 양은 50배에 이상 증가 SNS Web2.0 브로드밴드 1인 1PC 모바일혁명 www 사물정보통신 증강현실 인공지능 (IDC & EMC, ‘Digital Universe Study 2011’) <전세계 정보량 증가 추이> IT everywhere 빅데이터 시대 도래 * Byte, Kilo, Mega, Giga, Tera, Peta, Exa, Zetta 1ZB(제타바이트) = 1021 Byte = 1조 GB
  • 17. ICE BREAKE 다음 중 빅데이터라고 생각되는 것은? 미의회 도서관 자료 한국고용정보원 자료 싸이월드 자료
  • 22. 빅데이터의 활용 빅데이터가 변화시킨 것들 사전처리  사후처리(표준화된 문서포맷) 표본조사  전수조사(잉여력) 질  양(번역시스템) 인과관계  상관관계(Aviva)
  • 23. 빅데이터의 활용 사전처리사후처리 사전처리  사후처리(표준화된 문서포맷) 표본조사  전수조사(잉여력) 질  양(번역시스템) 인과관계  상관관계(Aviva)
  • 24. 빅데이터 사례 해외사례(월마트) • Polaris – 소비자가 희망할 것으로 추정되는 것 검색 – 월마트 ‘social genom’ 프로젝트 – Fast data의 개념 도입 – 소비자의 수 15% 증가, 온라인 리뷰 20% 증가 – 기존 검색업체들을 통해 제휴하려 했지만, 거부당해 자체 솔루션 개발 – 오프라인 매장과 온라인 매장의 연결고리 마련 – 불필요한 물품을 각 매장에 보낼 필요가 없어져 유통 구조를 개선할 수 있으며 각 매장 공간 효율성 상승 – 검색통계를 활용해 특정 제품에 관심이 많은 지역 점포의 상품구성 조 정을 한다
  • 27. 빅데이터 사례 해외사례 Google flu Trends 구글이 지난 2008년 11월부터 선보인 '독감 트렌드' 서비스는 전 세계 각지에서 '독감증세', '독감치료' 등 독감과 관련된 검 색어의 입력 빈도를 지역별로 파악해 독감 유행 수준을 ‘매우 낮음’부터 ‘매우 높음’까지 5개 등급으로 구분해 표시한다. 특정 지역에서 발열이나 기침 등 독감 관련 검색이 늘어나면 검색어와 관련된 IP주소를 지도에 추가해 해당 지역의 독감 유 행 수준 등급이 거의 실시간으로 표시된다. 구글의 독감 트렌드가 지난 2009년 2월 대서양 연안 중부지역 주에서 감기가 확산될 것이란 정보를 미국 CDC보다 2주 먼 저 예측한 것은 지금도 화제가 되고 있다. 앞서 구글은 미국 CDC의 관련 보고서보다 1주에서 2주 정도 더 빨리 독감 바이러스의 활성을 정확히 예측하는 실시간 감 시 시스템으로 변환시켜주는 컴퓨터 모델을 제시했으며, 그 결과가 네이처(Nature)지에도 게재됐다. 이번에도 구글의 독감 트렌드는 미국 CDC의 독감 감시 리포터와 거의 일치하고 있다. 게다가 CDC보다 앞서 독감의 확산 경로를 보여주고 있다.
  • 28. 빅데이터 사례 해외사례 Google flu Trends 반론 "구글 독감 동향 (GFT)은 공학의 놀라운 부분이고 매우 유용한 도구이지만, ' 빅 데이터 ' 분석이 어떤 곳에서 잘못 활용 될 수 있는지도 보여준다."라고 휴스턴 대학의 정치학 교수인 라이언 케네디는 말했다. 케네디와 공동 연구자들은 구글 과 같은 수집기로부터 얻어진 빅 데이터의 잘못된 사용에 대한 새로운 연구를 자세히 설명했다. 수 년 간 GFT 에 대한 수정에도 불구하고, 독감 유행에 대한 대응을 개선하기 위해 설정된 도구는 지난 2 년 동안 미국 에서 최대 독감 증례들을 과대 평가해왔다. "'빅 데이터' 의 대부분의 원천은, 구글 처럼 지속적으로 자신의 비즈니스 모 델에 따라 해당 서비스를 변경하고 있는 민간 기업들에서 온다."고 케네디 는 말했다. "우리는 이것이 그들이 생산하는 데이터에 어떻게 영향을 끼치는지에 대해 이해할 필요가 있습니다. 그렇지 않으면 우리는 잘못된 결론을 도출하고 잘 못된 정책을 채택할 위험을 가지게 됩니다."라고 케네디 는 말했다. 이 연구에 따르면, 구글 독감 동향 (GFT)은 2011-2012, 2012-2013 시즌의 독감 유병률 (prevalence)을 50%가 넘게 과대 평가했다. 또한 , 2011년 8월 부터 2013년 9월 사이에, 구글 독감 동향 (GFT)은 108주 중 100주 동안 독감 의 유병률 (prevalence)을 과도하게 예측했다.
  • 29. 빅데이터 사례 해외사례 Google flu Trends 변명 지난 달, 사이언스 지에 실린 “구글트렌드가 준 교훈: 빅데이터 분석의 함정(The Parable of Google Flu: Traps in Big Data Analysis)”이라는 논문은 독감 트렌드의 예측 능력 실패를 다루며, 독감 트렌드가 2011년 8월 이후 108 주 중에 서 100 주 동안 실제 독감발병보다 더 높은 값을 예측했다고 발표했습니다. 그리고 다시 많은 매체들이 이를 다루었습니다. 포브스는 “왜 구글 독감 트렌드는 실패했나”라는 제목을, 타임즈는 “구글 독감 트렌드의 실패가 보여주는 빅 데이터의 단점”이라는 제목을 뽑았았습니다. 마치 이들의 기사 제목을 보면 구글의 독감 트렌드가 전혀 엉뚱한 결과를 만들어 내는 것처럼 보입니다. 그러나 논문을 잘 살펴보면, 비록 독감 트렌드 자체는 좋은 결과를 주지 않았지만, 독감 트렌드와 CDC의 표준예측결 과를 조합했을 때는 실제로 더 나은 결과를 준다는 것을 볼 수 있습니다. 논문의 저자는 이렇게 말합니다. “구글 독감 트렌드는 그 자체로 다른 전통적인 방법을 대체하도록 만들어졌다기 보다는 다른 방법을 보완하는 용도 로 만들어졌습니다. 다른 감시 시스템과 마찬가지로, 이 데이터를 바탕으로 추가적인 실제 조사활동을 하기 위해 사 용될 때 가장 유용할 수 있습니다.” 만약 독감 트렌드가 실제로 CDC 의 방법들을 보완할 목표를 가졌다면, 이를 독감 트렌드의 실패라고 부르는 것이 맞 는 표현일까요? 실제로 2004년, 독감 트렌드를 지금은 거의 사문화된 구글의 20% 법칙을 통해 만든 매트 모헤비 (Matt Mohebbi)와 제레미 깅스버그(Jeremy Ginsberg)는 당시 독감 트렌드를 완성한 직후 CDC 에 연락을 취해 그들 이 보완적인 용도로 사용할 수 있도록 그들과 협력했습니다. 그리고 독감 트렌드는 기존의 방법을 보완했을 때, 기존의 방법보다 더 나은 결과를 만들어 내고 있습니다. 이런 상황 에서 독감 트렌드를, 그리고 이를 빅 데이터의 실패라고 부르는 것이 맞는 표현일까요? 새로운 기술이 등장할 때마다 사람들은 과도한 환호성을 보냅니다. 그리고 그 기술이 자신들의 기대에 미치지 못했을 때, 다시 이를 실패로 쉽게 규정짓습니다. 다행히, 이런 대중과 언론의 호들갑을 신경쓰지 않는 사람들이 있습니다. 과학자들은 이 독감 트렌드의 방법론이 역 학(epidemiology)분야에 중요한 역할을 한다고 생각하고 있으며 2009년 깅스버그의 네이처 논문은 지금까지 다양한 분야에서 1,000번 이상 인용되며 과학의 발전에 기여하고 있습니다. (Atlantic)
  • 30. 빅데이터 사례 국내사례 (SKT) • 주요 포털 뉴스 등 온라인 버즈 분석 • SNS상의 최신 핫이슈 분석 • 기업의 평판을 실시간으로 모니터링하여 기업의 대응전략 마련
  • 31. 빅데이터 사례 국내기업의 한계점 데이터, 텍스트 마이닝을 하는 것 보다 모니터링에 그침 한국의 형태소 근원에 대한 명확한 텍스트 마이닝 기술 어려움 SNS의 활동 등이 facebook, twitter 가 크지 않음
  • 32. 빅데이터분석기법 빅데이터 활용 분석 기본 테크닉 1. 연관규칙학습(Association Rule Learning) 2. 유전 알고리즘(Genetic Algorithms) 3. 회귀분석(Regression Analysis) 4. 유형분석(Classification Tree Analysis) 5. 기계학습(Machine Learning) 6. 소셜네트워크 분석(Social Network Analysis) 7. 감정분석(Sentiment Analysis)
  • 33. 빅데이터분석기법 연관규칙학습 상품 혹은 서비스간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용될 수 있는 기법. 연관성측정(Associations)은 어떤 특정 문제에 대해 아직은 일어나지 않은 답(예를 들어, 부도 · 건전)을 얻고자 하는 예측(Prediction)의 문제 나 고객들을 특정목적에 따라 분류(Segmentation)하는 문제가 아니라, 상품 혹은 서비스(이하 상품)의 거래기록(Historical)데이터로부터 상품간의 연관성 정도를 측 정하여 관성이 많은 상품들을 그룹화하는 클러스터링(clustering)의 일종. If A Then B
  • 34. 빅데이터분석기법 유전알고리즘 유전 알고리즘은 자연계의 생물 유전학에 기본 이론을 두며, 병렬적이고 전역적인 탐색 알고리즘으로서, 다윈의 적자생존 이론을 기본 개념으로 한다. 유전 알고리즘 은 풀고자 하는 문제에 대한 가능한 해들을 정해진 형태의 자료구조로 표현한 다 음, 이들을 점차적으로 변형함으로써 점점 더 좋은 해들을 만들어 낸다. 여기에서 해들을 나타내는 자료구조는 유전자, 이들을 변형함으로써 점점 더 좋은 해를 만 들어 내는 과정은 진화로 표현할 수 있다.
  • 35. 빅데이터분석기법 회귀분석 변수들 간의 상호 관련성을 규명하고 어떤 변수들의 변화로부터 다른 변수들의 변 화를 예측하는 기법 - 상관분석 두 변수의 역할이 서로 대등할 때 사용. ex)키와 몸무게 목적(target)변수의 역할이 서로 바뀔 수 있을 때역할의 구분이 없을 때 두 변수간의 직선적(linear) 관련성의 강도(strength)를 하나의 값, 상관계수 (correlation coefficient) - 회귀분석 두 변수의 관계에 분명한 방향(direction)이 있을 때 ex)혈압과 체질량 지수 반응변수와 설명변수(종속변수와 독립변수) 회귀계수(Regression coefficients)
  • 36. 빅데이터분석기법 유형분석 이 사용자는 어떤 특성을 가진 집단에 속하는가? 와 같은 문제를 해결하고자 할 때 사용한다. 통계적 분류는 새로운 사건이 속하게 될 범주를 찾아내는 일이다. 이 를 위해서는 기존 자료를 바탕으로 만들어진 Training Set이 있어야 한다. 이 기법 은 문서를 분류하거나 조직을 그룹으로 나눌 때, 혹은 온라인으로 지원한 수강생 들을 특성에 따라 분류할 때 사용할 수 있다. Classifier Testing Data NAM E RANK YEARS TENURED Tom Assistant Prof 2 no M erlisa Associate Prof 7 no George Professor 5 yes Joseph Assistant Prof 7 yes Unseen Data (Jeff, Professor, 4) Tenured?
  • 37. 빅데이터분석기법 소셜네트워크분석 사회관계망 분석이라 불리는 소셜네트워크분석은 특정인과 다른 사람이 몇 촌 정 도 인가?를 파악할 때 사용한다. 이를 통해 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객들 간의 소셜 관계를 파악할 수 있다. A B CD E F G A B C D E F G
  • 38. 빅데이터분석기법 감정 분석 특정 주제에 관하여 말하거나 글을 쓴 사람의 감정을 분석한다.
  • 39. 빅데이터분석기법 기계학습 기계학습은 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? 와 같은 문제를 해결할 때 사용된다. 이를 위해 기계학 습은 데이터를 통해 학습할 수 있는 소프트웨어를 포함하고 있다. 기계학습은 훈 련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 일에 초점을 맞춘다. 주위 환경 (Environment) 학습 요소 (Learning Element) 지식베이스 실행 요소 (Performance Element)
  • 60. 빅데이터분석기법 통계적 기법과 차이점  가설확인 중심의 통계적 방식  가설 발견 중심의 데이터마이닝 방식 질의도구 시각화도구 OLAP도구 DATA 가설 고객의 직업과 수입 정도가 신용불량 여 부와 관련이 많다. 데이터마이닝 DATA 어떤 사람들이 신용불량 자(잠재)일까? 가설 *직업이 자영업,무직 등에 속한 사람들 *수입이 XXX만원이 하이고, 지역이 A지 역에 거주하는 경우 신용불량 확률높음 검증 정보
  • 61. 빅데이터분석기법 결론 데이터 분석은 결국 앞서 소개한 기법으로 데이터를 분석해 흥미로운 상관관계를 발견하거나, 사용자를 특정한 유형으로 분류하고, 보유한 자원을 적당하게 할당하 거나, 서비스나 상품의 가치를 책정하는데 도움을 받을 수 있다. 나아가 여러기법 을 결합해 다양한 비즈니스 모델을 개발할 수 있다. 데이터뿐 아니라 분석 테크닉 까지 창의적으로 재 조합해 활용하면, 기존에 없던 비즈니스 모델 개발이 가능할 수도 있고 새로운 가치도 창출할 수 있게 된다.
  • 63. 데이터사이언스 마케팅부서의 항의 “애널리틱스/IT 부서는 ‘비즈니스 구상에 관해 설명한 내용과 전혀 관련 없는 결과 만을 전달하는’ 이들이다. 이들이 수만 가 지 말을 하더라도, 마케팅 사업부에겐 아 무런 영양가가 없기 십상이다”
  • 64. 데이터사이언스 애널리틱스/IT부서의 변명 무엇을 분석할 것인지가 애매하고 데이터 자체가 경영과 연결되지 않고 있다. 또한 경영문화 자체가 데이터에 적합하지 않으니 데이터에 아무리 투자해도 성과가 부진할 수밖에 없다
  • 66. 데이터사이언스 전문가가 본 데이터 사이언티스트의 역량
  • 67. 데이터사이언스 전문가가 본 데이터 사이언티스트의 역량
  • 70. 데이터사이언스 참고자료 ㅇ빅데이터 특성 3V 및 가치 (Value) 이해 ㅇ기존 데이터와 빅데이터의 차이점 ㅇ빅데이터 최신 이슈들에 대한 사례 연구 ㅇ빅데이터 관련 시장과신규성장분야현황 및성장 률 전망분석 ㅇ소셜 미디어 및 스마트폰을 활용한 빅데이터 적 용방법 연구 ㅇ빅데이터 자원, 기술, 인력에 대한 상호 관계 학습 ㅇ데이터 사이언티스트의 필요역량 이해 및 강화방안 연구 ㅇ데이터 사이언스의 상세 분야 탐구 ㅇ데이터 사이언스의 학제성과 실제 프로젝트 수행에 필요한 역할 학습 ㅇ데이터 과학자의 향후 인력수급 전망 분석
  • 71. 데이터사이언스 참고자료 ㅇIT의 기본개념 이해 ㅇ클라우드 컴퓨팅의 기본개념 이해 ㅇSystem & Server의 핵심 개념 이해 ㅇNetwork를 활용한 빅데이터 인프라 구축 ㅇDataBase 인프라 구축 기본 개념 이해 ㅇ데이터베이스 설계 시 요구사항 분석 및 실습 ㅇ논리적 설계 개념의 이해 ㅇ개념적 설계 개념의 이해 ㅇ물리적 설계 개념의 이해 ㅇER 모델 개념 학습
  • 72. 데이터사이언스 참고자료 ㅇ신뢰도와 타당도 점검방법 학습 ㅇ가설과 가설검증의 과정 학습 ㅇ확률적 의사결정의 개념 이해 ㅇ통계적 추론법 학습 ㅇ통계적 문제해결의 문제점 및 보완방법 도출 ㅇ통계의 기초가 되는 분석기법의 개념 이해 ㅇ기술통계분석, 빈도분석, 교차분석의 이해와 ㅇ다중응답분석, 상관분석, 신뢰도 분석의 이해 ㅇT검정, 분산분석, 회귀분석, 요인분석의 이해 ㅇ산업별 빅데이터 분석에 활용되는 통계 분석 기법의 이해
  • 82. 마치며 The data is the second most important thing  The most important thing in data science is the question  The second most important is data  Often the data will limit or enable the question  But having data can’t save you if you don’t have a question