빅데이터

빅데이터 교육
이강욱
The leading expert in Data Science
data@nipa.kr
VICDATA
VALUE

데이터
데이터의 정의
“ Data are values of qualitative or
quantitative variables, belong to a
set of items.”
Set of items : Sometimes called the population; the set of objects you are interested in.
Variables : A measurement or characteristic of an item
Qualitative : Country of origin, treatment, gender ...
Quantitative : Height, weight, blood pressure...

데이터
존재적 특성
존재적 특성에는 정성적 데이터(qualitative data) 와 정량적 데이터(quantitative
data) 로 구분한다.
정성적 데이터 : 언어, 문자 등으로 이루어짐 – 오늘 날씨가 좋다
정량적 데이터 : 수치, 도형, 기호 등으로 이루어짐 – 나이, 몸무게

데이터
목적론적 특성
우리의 인식체계에서 어떤 사실에 대해 “데이터”라고 인식하게 되는 객체가 가지
고 있는 존재 목적.
수요조사, 실험 검사 측정 등을 통해 데이터를 수집 축적 다양한 방법으로 분석 하
여 논문 예측 경영전략 정책을 수립하는 일련의 가치 창출.
암묵지 형식지
경험을 통해
습득된 무형의
지식
형상화된 지식

데이터베이스
개요
동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이
터를 받아 들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집
합
히스토리
 1950년대 미국 군수목적으로 데이터의 기지라는 이름으로 개념 출발
 1960년대 디지털 컴퓨팅 발달로 계층구조의 데이터베이스 탄생
 1970년대 관계형 데이터베이스 이론 (코드-1981 튜링상)
 1980년대 관계형 데이터베이스 시스템 출시
 1990년대 ~ 현재 관계형 데이터베이스 시스템 전성기
 2010년대 big data이론의 대두로 NoSql 기반의 데이터 베이스 시스템 개발

데이터베이스
ACID이론
 원자성(Atomicity) : 트랜잭션의 처리는
완전히 끝마치지 않을 경우에는 전혀
이루어지지 않은 것과 같아야 한다.
이러한 특성을 All or Nothing"이라 한다.
 일관성(Consistency) : 트랜잭션들간의
영향이 한 방향으로만 전달되어야 한다.
 고립성(Isolation) : 트랜잭션의 부분적인
상태를 다른 트랜잭션에 제공해서는 안된다.
 지속성(Durability) : 성공적인 트랜잭션의
수행 후에는 반드시 데이터베이스
(디스크)에 반영하여야 한다.

데이터베이스
CAP이론
2000년 에릭 브루어(Eric Brewer)가 주창한 이론으로, CAP정리(CAP Theorem), 혹
은 브루어 정리(Brewer’s theorem) 등으로 불리운다. 주요 내용은 분산 컴퓨터 시
스템에서, 분산된 시스템이 가지는 세가지 특성을 동시에 충족시키는 것은 불가능
하며, 이 중 두가지만을 취할 수 있다는 것을 정리한 내용이다
일관성 (Consistency)
각각의 사용자가 같은 데이터를 볼 수 있다 = 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다.
가용성 (Availability)
모든 사용자가 항상 읽고 쓸 수 있다 = 몇몇 노드가 다운되어도 다른 노드들에게 영향을 주지 않아야 한
다.
분단가용성 (Partition Tolerance)
물리적으로 분리된 분산 환경에서도 작동한다 = 일부 메시지를 손실하더라도 시스템은 정상 동작을 해
야 한다.

데이터베이스
CAP이론
CP 분류 (동일성 + 생존성 = 모든 노드가 함께 퍼포먼스를 내야하는 성능형)
AP 분류 (독립성 + 생존성 = 비동기화된 서비스 스토어에 적합)
CA 분류 (동일성 + 독립성 = 일반적인 RDB)

데이터베이스
NoSql
Not-Only-SQL 빅데이터 분산처리 및 저장 기술과 함께 발달된 분산 데이터베이스
기술
 Key-Value : 가장 기초적이며 다른 데이터 모델의 기본이 됨. Dynamo, Redis
 Ordered KeyValue : 키밸류 모델에 데이터간 연속성을 더해 스캔에 힘을 더함. BerkeleyDB
 Big Table : 순차적 키밸류 모델에 데이터 모델링이 가능하도록 변경된 모델 : Hbase
 Documnet : 오브젝트형 이 NoSql형태로 파생 오브젝트대신 XML,JSON등 문서형 사용
: MongoDB, Cloudant

데이터베이스
NoSql
그만 따라해 !!!

빅데이터
정의
클 가능성을
가진 모든
디지털 형태
의 데이터

빅데이터
데이터용량 추이
PC 시대
인터넷/
모바일 시대
메인프레임
컴퓨터
디지털 정보량
증가 추이
• 2011년 전세계 디지털 정보량은 약 1.8ZB(제타바이트)
※ 1.8제타바이트 = 1.8조 기가바이트
• 2020년에 관리해야 할 정보의 양은 50배에 이상 증가
SNS
Web2.0
브로드밴드
1인 1PC
모바일혁명
www
사물정보통신
증강현실
인공지능
(IDC & EMC, ‘Digital Universe Study 2011’)
<전세계 정보량 증가 추이>
IT
everywhere
빅데이터
시대 도래
* Byte, Kilo, Mega, Giga, Tera, Peta, Exa, Zetta
1ZB(제타바이트) = 1021 Byte = 1조 GB

빅데이터
데이터용량 추이

빅데이터
빅데이터의 전망

ICE BREAKE
다음 중 빅데이터라고 생각되는 것은?
미의회
도서관 자료
한국고용정보원
자료
싸이월드
자료

빅데이터의 활용
시장예측

선호분석

사회적분위기 파악

트렌드 감지 및 예측

빅데이터가 변화시킨 것들
사전처리  사후처리(표준화된 문서포맷)
표본조사  전수조사(잉여력)
질  양(번역시스템)
인과관계  상관관계(Aviva)

사전처리사후처리
사전처리  사후처리(표준화된 문서포맷)
표본조사  전수조사(잉여력)
질  양(번역시스템)
인과관계  상관관계(Aviva)

빅데이터 사례
해외사례(월마트)
• Polaris
– 소비자가 희망할 것으로 추정되는 것 검색
– 월마트 ‘social genom’ 프로젝트
– Fast data의 개념 도입
– 소비자의 수 15% 증가, 온라인 리뷰 20% 증가
– 기존 검색업체들을 통해 제휴하려 했지만, 거부당해 자체 솔루션 개발
– 오프라인 매장과 온라인 매장의 연결고리 마련
– 불필요한 물품을 각 매장에 보낼 필요가 없어져 유통 구조를 개선할 수
있으며 각 매장 공간 효율성 상승
– 검색통계를 활용해 특정 제품에 관심이 많은 지역 점포의 상품구성 조
정을 한다

빅데이터 사례
해외사례(월마트)

빅데이터 사례
해외사례
Google flu Trends

빅데이터 사례
해외사례
Google flu Trends
구글이 지난 2008년 11월부터 선보인 '독감 트렌드' 서비스는 전 세계 각지에서 '독감증세', '독감치료' 등 독감과 관련된 검
색어의 입력 빈도를 지역별로 파악해 독감 유행 수준을 ‘매우 낮음’부터 ‘매우 높음’까지 5개 등급으로 구분해 표시한다.
특정 지역에서 발열이나 기침 등 독감 관련 검색이 늘어나면 검색어와 관련된 IP주소를 지도에 추가해 해당 지역의 독감 유
행 수준 등급이 거의 실시간으로 표시된다.
구글의 독감 트렌드가 지난 2009년 2월 대서양 연안 중부지역 주에서 감기가 확산될 것이란 정보를 미국 CDC보다 2주 먼
저 예측한 것은 지금도 화제가 되고 있다.
앞서 구글은 미국 CDC의 관련 보고서보다 1주에서 2주 정도 더 빨리 독감 바이러스의 활성을 정확히 예측하는 실시간 감
시 시스템으로 변환시켜주는 컴퓨터 모델을 제시했으며, 그 결과가 네이처(Nature)지에도 게재됐다.
이번에도 구글의 독감 트렌드는 미국 CDC의 독감 감시 리포터와 거의 일치하고 있다. 게다가 CDC보다 앞서 독감의 확산
경로를 보여주고 있다.

빅데이터 사례
해외사례
Google flu Trends 반론
"구글 독감 동향 (GFT)은 공학의 놀라운 부분이고 매우 유용한 도구이지만, ' 빅 데이터 ' 분석이 어떤 곳에서 잘못 활용
될 수 있는지도 보여준다."라고 휴스턴 대학의 정치학 교수인 라이언 케네디는 말했다. 케네디와 공동 연구자들은 구글
과 같은 수집기로부터 얻어진 빅 데이터의 잘못된 사용에 대한 새로운 연구를 자세히 설명했다.
수 년 간 GFT 에 대한 수정에도 불구하고, 독감 유행에 대한 대응을 개선하기 위해 설정된 도구는 지난 2 년 동안 미국
에서 최대 독감 증례들을 과대 평가해왔다. "'빅 데이터' 의 대부분의 원천은, 구글 처럼 지속적으로 자신의 비즈니스 모
델에 따라 해당 서비스를 변경하고 있는 민간 기업들에서 온다."고 케네디 는 말했다. "우리는 이것이 그들이 생산하는
데이터에 어떻게 영향을 끼치는지에 대해 이해할 필요가 있습니다. 그렇지 않으면 우리는 잘못된 결론을 도출하고 잘
못된 정책을 채택할 위험을 가지게 됩니다."라고 케네디 는 말했다.
이 연구에 따르면, 구글 독감 동향 (GFT)은 2011-2012, 2012-2013 시즌의 독감 유병률 (prevalence)을 50%가 넘게 과대
평가했다. 또한 , 2011년 8월 부터 2013년 9월 사이에, 구글 독감 동향 (GFT)은 108주 중 100주 동안 독감 의 유병률
(prevalence)을 과도하게 예측했다.

빅데이터 사례
해외사례
Google flu Trends 변명
지난 달, 사이언스 지에 실린 “구글트렌드가 준 교훈: 빅데이터 분석의 함정(The Parable of Google Flu: Traps in Big
Data Analysis)”이라는 논문은 독감 트렌드의 예측 능력 실패를 다루며, 독감 트렌드가 2011년 8월 이후 108 주 중에
서 100 주 동안 실제 독감발병보다 더 높은 값을 예측했다고 발표했습니다.
그리고 다시 많은 매체들이 이를 다루었습니다. 포브스는 “왜 구글 독감 트렌드는 실패했나”라는 제목을, 타임즈는
“구글 독감 트렌드의 실패가 보여주는 빅 데이터의 단점”이라는 제목을 뽑았았습니다. 마치 이들의 기사 제목을 보면
구글의 독감 트렌드가 전혀 엉뚱한 결과를 만들어 내는 것처럼 보입니다.
그러나 논문을 잘 살펴보면, 비록 독감 트렌드 자체는 좋은 결과를 주지 않았지만, 독감 트렌드와 CDC의 표준예측결
과를 조합했을 때는 실제로 더 나은 결과를 준다는 것을 볼 수 있습니다. 논문의 저자는 이렇게 말합니다.
“구글 독감 트렌드는 그 자체로 다른 전통적인 방법을 대체하도록 만들어졌다기 보다는 다른 방법을 보완하는 용도
로 만들어졌습니다. 다른 감시 시스템과 마찬가지로, 이 데이터를 바탕으로 추가적인 실제 조사활동을 하기 위해 사
용될 때 가장 유용할 수 있습니다.”
만약 독감 트렌드가 실제로 CDC 의 방법들을 보완할 목표를 가졌다면, 이를 독감 트렌드의 실패라고 부르는 것이 맞
는 표현일까요? 실제로 2004년, 독감 트렌드를 지금은 거의 사문화된 구글의 20% 법칙을 통해 만든 매트 모헤비
(Matt Mohebbi)와 제레미 깅스버그(Jeremy Ginsberg)는 당시 독감 트렌드를 완성한 직후 CDC 에 연락을 취해 그들
이 보완적인 용도로 사용할 수 있도록 그들과 협력했습니다.
그리고 독감 트렌드는 기존의 방법을 보완했을 때, 기존의 방법보다 더 나은 결과를 만들어 내고 있습니다. 이런 상황
에서 독감 트렌드를, 그리고 이를 빅 데이터의 실패라고 부르는 것이 맞는 표현일까요?
새로운 기술이 등장할 때마다 사람들은 과도한 환호성을 보냅니다. 그리고 그 기술이 자신들의 기대에 미치지 못했을
때, 다시 이를 실패로 쉽게 규정짓습니다.
다행히, 이런 대중과 언론의 호들갑을 신경쓰지 않는 사람들이 있습니다. 과학자들은 이 독감 트렌드의 방법론이 역
학(epidemiology)분야에 중요한 역할을 한다고 생각하고 있으며 2009년 깅스버그의 네이처 논문은 지금까지 다양한
분야에서 1,000번 이상 인용되며 과학의 발전에 기여하고 있습니다. (Atlantic)

빅데이터 사례
국내사례 (SKT)
• 주요 포털 뉴스 등 온라인 버즈 분석
• SNS상의 최신 핫이슈 분석
• 기업의 평판을 실시간으로 모니터링하여 기업의 대응전략 마련

빅데이터 사례
국내기업의 한계점
데이터, 텍스트 마이닝을 하는 것 보다 모니터링에 그침
한국의 형태소 근원에 대한 명확한 텍스트 마이닝 기술 어려움
SNS의 활동 등이 facebook, twitter 가 크지 않음

빅데이터분석기법
빅데이터 활용 분석 기본 테크닉
1. 연관규칙학습(Association Rule Learning)
2. 유전 알고리즘(Genetic Algorithms)
3. 회귀분석(Regression Analysis)
4. 유형분석(Classification Tree Analysis)
5. 기계학습(Machine Learning)
6. 소셜네트워크 분석(Social Network Analysis)
7. 감정분석(Sentiment Analysis)

연관규칙학습
상품 혹은 서비스간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때
이용될 수 있는 기법. 연관성측정(Associations)은 어떤 특정 문제에 대해 아직은
일어나지 않은 답(예를 들어, 부도 · 건전)을 얻고자 하는 예측(Prediction)의 문제
나 고객들을 특정목적에 따라 분류(Segmentation)하는 문제가 아니라, 상품 혹은
서비스(이하 상품)의 거래기록(Historical)데이터로부터 상품간의 연관성 정도를 측
정하여 관성이 많은 상품들을 그룹화하는 클러스터링(clustering)의 일종.
If A Then B

유전알고리즘
유전 알고리즘은 자연계의 생물 유전학에 기본 이론을 두며, 병렬적이고 전역적인
탐색 알고리즘으로서, 다윈의 적자생존 이론을 기본 개념으로 한다. 유전 알고리즘
은 풀고자 하는 문제에 대한 가능한 해들을 정해진 형태의 자료구조로 표현한 다
음, 이들을 점차적으로 변형함으로써 점점 더 좋은 해들을 만들어 낸다. 여기에서
해들을 나타내는 자료구조는 유전자, 이들을 변형함으로써 점점 더 좋은 해를 만
들어 내는 과정은 진화로 표현할 수 있다.

회귀분석
변수들 간의 상호 관련성을 규명하고 어떤 변수들의 변화로부터 다른 변수들의 변
화를 예측하는 기법
- 상관분석
두 변수의 역할이 서로 대등할 때 사용. ex)키와 몸무게
목적(target)변수의 역할이 서로 바뀔 수 있을 때역할의 구분이 없을 때
두 변수간의 직선적(linear) 관련성의 강도(strength)를 하나의 값, 상관계수
(correlation coefficient)
- 회귀분석
두 변수의 관계에 분명한 방향(direction)이 있을 때 ex)혈압과 체질량 지수
반응변수와 설명변수(종속변수와 독립변수) 회귀계수(Regression coefficients)

유형분석
이 사용자는 어떤 특성을 가진 집단에 속하는가? 와 같은 문제를 해결하고자 할
때 사용한다. 통계적 분류는 새로운 사건이 속하게 될 범주를 찾아내는 일이다. 이
를 위해서는 기존 자료를 바탕으로 만들어진 Training Set이 있어야 한다. 이 기법
은 문서를 분류하거나 조직을 그룹으로 나눌 때, 혹은 온라인으로 지원한 수강생
들을 특성에 따라 분류할 때 사용할 수 있다.
Classifier
Testing
Data
NAM E RANK YEARS TENURED
Tom Assistant Prof 2 no
M erlisa Associate Prof 7 no
George Professor 5 yes
Joseph Assistant Prof 7 yes
Unseen Data
(Jeff, Professor, 4)
Tenured?

소셜네트워크분석
사회관계망 분석이라 불리는 소셜네트워크분석은 특정인과 다른 사람이 몇 촌 정
도 인가?를 파악할 때 사용한다. 이를 통해 오피니언 리더, 즉 영향력 있는 사람을
찾아낼 수 있으며, 고객들 간의 소셜 관계를 파악할 수 있다.
A
B
CD
E
F
G
A B
C
D
E
F
G

감정 분석
특정 주제에 관하여 말하거나 글을 쓴 사람의 감정을 분석한다.

기계학습
기계학습은 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤
것을 가장 보고 싶어할까? 와 같은 문제를 해결할 때 사용된다. 이를 위해 기계학
습은 데이터를 통해 학습할 수 있는 소프트웨어를 포함하고 있다. 기계학습은 훈
련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 일에 초점을 맞춘다.
주위 환경
(Environment)
학습 요소
(Learning
Element)
지식베이스
실행 요소
(Performance
Element)

기계학습

통계적 기법과 차이점
 가설확인 중심의 통계적 방식
 가설 발견 중심의 데이터마이닝 방식
질의도구
시각화도구
OLAP도구
DATA
가설
고객의 직업과 수입
정도가 신용불량 여
부와 관련이 많다.
데이터마이닝
DATA
어떤 사람들이 신용불량
자(잠재)일까?
가설
*직업이 자영업,무직
등에 속한 사람들
*수입이 XXX만원이
하이고, 지역이 A지
역에 거주하는 경우
신용불량 확률높음
검증 정보

결론
데이터 분석은 결국 앞서 소개한 기법으로 데이터를 분석해 흥미로운 상관관계를
발견하거나, 사용자를 특정한 유형으로 분류하고, 보유한 자원을 적당하게 할당하
거나, 서비스나 상품의 가치를 책정하는데 도움을 받을 수 있다. 나아가 여러기법
을 결합해 다양한 비즈니스 모델을 개발할 수 있다. 데이터뿐 아니라 분석 테크닉
까지 창의적으로 재 조합해 활용하면, 기존에 없던 비즈니스 모델 개발이 가능할
수도 있고 새로운 가치도 창출할 수 있게 된다.

데이터사이언스
분석 vs. 과학
Data 분석
Data Science

마케팅부서의 항의
“애널리틱스/IT 부서는 ‘비즈니스 구상에
관해 설명한 내용과 전혀 관련 없는 결과
만을 전달하는’ 이들이다. 이들이 수만 가
지 말을 하더라도, 마케팅 사업부에겐 아
무런 영양가가 없기 십상이다”

애널리틱스/IT부서의 변명
무엇을 분석할 것인지가 애매하고
데이터 자체가 경영과 연결되지 않고 있다.
또한 경영문화 자체가 데이터에 적합하지
않으니 데이터에 아무리 투자해도
성과가 부진할 수밖에 없다

데이터사이언스 핵심구성요소
Analytics
비즈니스
분석IT
(Data Mgmt)

전문가가 본 데이터 사이언티스트의 역량

데이터 사이언티스트의 역량
Analytics
비즈니스
분석IT
(Data Mgmt)
Hard Skill
Soft Skill

참고자료
OO원의 BIG DATA 커리큘럼 도출사례

참고자료
ㅇ빅데이터 특성 3V 및 가치 (Value) 이해
ㅇ기존 데이터와 빅데이터의 차이점
ㅇ빅데이터 최신 이슈들에 대한 사례 연구
ㅇ빅데이터 관련 시장과신규성장분야현황 및성장
률 전망분석
ㅇ소셜 미디어 및 스마트폰을 활용한 빅데이터 적
용방법 연구
ㅇ빅데이터 자원, 기술, 인력에 대한 상호 관계 학습
ㅇ데이터 사이언티스트의 필요역량 이해 및 강화방안
연구
ㅇ데이터 사이언스의 상세 분야 탐구
ㅇ데이터 사이언스의 학제성과 실제 프로젝트
수행에 필요한 역할 학습
ㅇ데이터 과학자의 향후 인력수급 전망 분석

참고자료
ㅇIT의 기본개념 이해
ㅇ클라우드 컴퓨팅의 기본개념 이해
ㅇSystem & Server의 핵심 개념 이해
ㅇNetwork를 활용한 빅데이터 인프라 구축
ㅇDataBase 인프라 구축 기본 개념 이해
ㅇ데이터베이스 설계 시 요구사항 분석 및 실습
ㅇ논리적 설계 개념의 이해
ㅇ개념적 설계 개념의 이해
ㅇ물리적 설계 개념의 이해
ㅇER 모델 개념 학습

참고자료
ㅇ신뢰도와 타당도 점검방법 학습
ㅇ가설과 가설검증의 과정 학습
ㅇ확률적 의사결정의 개념 이해
ㅇ통계적 추론법 학습
ㅇ통계적 문제해결의 문제점 및 보완방법 도출
ㅇ통계의 기초가 되는 분석기법의 개념 이해
ㅇ기술통계분석, 빈도분석, 교차분석의 이해와
ㅇ다중응답분석, 상관분석, 신뢰도 분석의 이해
ㅇT검정, 분산분석, 회귀분석, 요인분석의 이해
ㅇ산업별 빅데이터 분석에 활용되는 통계 분석
기법의 이해

빅데이터의 한계와 반론
빅데이터미신

마치며
The data is the second most important thing
 The most important thing in data science is the question
 The second most important is data
 Often the data will limit or enable the question
 But having data can’t save you if you don’t have a
question

빅데이터

Recommended

Recommended

More Related Content

What's hot

What's hot (14)

Similar to 빅데이터

Similar to 빅데이터 (20)

More from Kangwook Lee

More from Kangwook Lee (20)

빅데이터