[SSA] 01.bigdata database technology (2014.02.05)

[SSA] Big Data Analytics

Big Data Database Technology
민형기
hg.min@samsung.com
2014. 2. 5.

Contents
I. 빅데이터 출현배경
II. 빅데이터 정의
III. 빅데이터 데이터베이스 기술

1

빅 데이터 출현배경
○데이터 저장기술의 발달로 용량 증가 및 비용 감소
 1956년 IBM 데이터 저장장치(RAMAC) 5MB에 5만 달러, 2011년 2TB용량의 드라이
버는 70달러 미만의 가격에 판매

○CPU 성능의 발전과 클라우드 컴퓨팅의 발달로 대용량
데이터의 관리와 분석이 가능
○페이스북, 트위터와 같은 소셜 미디어의 부상
○스마트 기기의 다양화와 보급 증가
 2010년 전세계 핸드폰 50억대
 N 스크린 (PC, 스마트폰, 태블릿, TV)
 웨어러블 디바이스의 증가로 네트웍 접속이 가능한 스마트 기기의 증가

○오픈소스 운동
 구글, 페이스북, 아마존, 트위터 등의 주도로 오픈소스 운동이 활성화
출처: 1) http://en.wikipedia.org/wiki/Memory_storage_density#Effects_on_price
2) MGI(McKinsey Global Institute) 2011.06 – Big data: the next frontier for innovation, competition, and productivity

3

데이터의 대 폭발
 매달 페이스북에서 주고받는 컨텐츠: 300억건(McKinsey, 2011)
 매년 전세계 데이터 40% 씩 증가 (McKinsey, 2011)
 ’10년~’15년까지 전세계 모바일 데이터 트래픽은 연평균 92%,
인터넷 트래픽은 연평균 34% 증가할 것으로 예상(Cisco, 2011)
 트위터(twitter)는 전 세계 1억명의 월간 이용자(active user)들이
이용하고 있으며, 하루 평균 2억 개의 트윗이 발생(Twitter, 2011)
 오늘날 11억 인구가 소셜 네트워크를 이용하고 있고 2억
5000만명이 매일 페이스북에 사진을 업로드하고 있다(인텔 CEO
폴 오텔리니, 2011)
출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013)

4

ICT 발전에 따른 데이터의 변화 방향


5

빅 데이터 역사 (1/2)
 1944: Fremont Rider, 빅 데이터에 대한 첫번째 인식, Wesleyan University
Librarian, “미 대학 전체의 라이브러리가 지수적으로 증가할 것을 예측”
 1949: Claud Shannon, “정보의 아버지”, 대용량 스토리지 기술에 대한 연구를
수행
 1961: Derek Price , “과학 저널은 매 15년마다 두배로 증가”, “law of
exponential increase”
 1996: 디지털 스토리지가 종이보다 저렴해짐
 1997: M.Cox, D.Ellsworth, “빅 데이터” 용어가 처음 사용됨 – “ApplicationControlled Demand Paging for Out-of-Core Visualization”

출처: http://www.hcltech.com/blogs/enterprise-application-services/history-big-data, http://biggdata.weebly.com/

6

빅 데이터 역사 (2/2)
 2001: Doug Laney(Meta Group), Volume, Velocity, Variety 개념 사용, “3D
Data Management: Controlling Data Volume, Velocity, and Variety”
 2005: Tim O’Reilly, “데이터는 다음 번 ‘인텔 인사이드’이다”, “What is Web
2.0”
 2008: Bret Swanson & George Glider, “미국 인터넷 트래픽은 2015년까지 1
ZB(제타바이트)에 도달할 것이고, 이는 2006년 보다 최소 50배에 이를
것이다.”, “Estimating the Exaflood”
 2011: Martin Hillbert & Priscila Lopez, 세계 정보 저장량은 1986~2007까지
매년 25%씩 증가하고 있다. 또한, 1986년까지는 99.2%의 스토리지가
아날로그였지만, 2007년부터는 94%의 스토리지가 디지털이다.

출처: http://www.hcltech.com/blogs/enterprise-application-services/history-big-data, http://biggdata.weebly.com/

7

데이터
 이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료
관찰이나 실험, 조사로 얻은 사실이나 정보.

- [네이버 국어사전]

 재료 ·자료 ·논거(論據)라는 뜻인 datum의 복수형.
컴퓨터 용어로는 정보를 작성하기 위해 필요한 자료를 뜻한다.
컴퓨터에 입력하는 기호 ·숫자 ·문자를 말하며, 그 자체는 단순한 사실에
불과하지만, 컴퓨터에 의해서 일정한 프로그램에 따라 처리되어 특정한 목적에
소용되는 정보를 만들어낸다.
- [네이버 지식백과]
 컴퓨터 분야에서의 데이터는 옮기거나 처리하기에 좀더 편리한 형태로 바뀌어져 있는
정보를 말한다. 오늘날의 컴퓨터나 전송매체에 관련하여, 데이터는 바이너리나 디지털
형태로 변환되어 있는 정보를 말한다.
- [텀즈]

출처: http://www.terms.co.kr/data.htm, http://www.diffen.com/difference/Data_vs_Information

9

정보
 관찰이나 측정을 통하여 수집한 자료를 실제 문제에 도움이 될 수 있도록 정리한 지식
. 또는 그 자료.
- [네이버 국어사전]
 "정보란 잡음(noise)이 배제된 메시지 신호(signal)“ by Claude Shannon

 "다름을 만드는 모든 차이가 정보다“ by Gregory Bateson
 정보는 어떤 사물이나 사태에 대한 정황을 반영하고 있다. 정보에 대해서는 여러 가지
차원에서 다양한 정의를 내릴 수 있다. 기술적인 차원에서 정보는 잡음이 배제된
메시지의 신호이지만 의미론의 차원에서는 대상이 표출하고 인간이 의도하는 목적과
방법을 담기도 한다.
- [네이버 지식백과]

출처: http://terms.naver.com/entry.nhn?docId=1526261&cid=3619&categoryId=3623

10

데이터 vs. 정보
데이터
 Raw, unorganized facts
 No context
 Just numbers and text

정보
 Processed data
 Data with context
 Value added to data
summarized
origanized
analyzed

 Example: 51007

 Example
5/10/07 The date of your final
exam.
$51,007 The average starting
salary of an account manager.

출처: http://www.slideshare.net/EinsteinX2/data-vs-information, http://www.diffen.com/difference/Data_vs_Information

11

빅데이터 정의
 빅 데이터는 통상적으로 사용되는 데이터 수집 및 관리, 처리 소프트웨어의 수용
한계를 넘어서는 크기의 데이터를 말한다.[5]
- [위키피디아]
 ‘빅데이터’란 기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의
집합을 지칭(SERI, 2010)
– 대규모 데이터와 관계된 기술 및 도구(수집·저장·검색·공유·분석·시각화 등)도 빅데이터의 범주
에 포함
– 과거 빅데이터는 천문·항공·우주 정보, 인간게놈 정보 등 특수 분야에 한정 됐으나 ICT의 발달
에 따라 전분야로 확산

 빅데이터의 정의는 데이터 규모와 기술 측면에서 출발했으나, 빅 데이터의 가치와
활용효과 측면으로 의미가 확대되는 추세
– 빅데이터는 고객정보와 같은 정형화된 자산정보(내부) 뿐만 아니라 외부 데이터, 비정형, 소셜,
실시간 데이터 등이 복합적으로 구성
– 빅데이터는 규모, 다양성, 복잡성, 속도의 증가 특성을 갖고 있으며, 4개의 요소가 충족될수록
빅데이터에 적합
– 특정 규모(big volume) 이상을 빅데이터로 칭하기 보다는 원하는 가치(big value)를 얻을 수 있
는 정도로 상대적인 해석이 가능


12

빅데이터 구성요소

출처: http://smartdatacollective.com/yellowfin/75616/why-big-data-and-business-intelligence-one-direction

13

빅데이터 처리 흐름

출처: Gruter BigData를 위한 아키텍처 및 기술(2011)

14

2013년도 가트너 이머징 기술 하이프 사이클

출처: Gartner -Hype Cycle for Emerging Technologies, 2013, http://www.alibabaoglan.com/blog/gartner-hype-cycle-2014/

15

Big Data Landscape (2012, Forbes)

출처: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/

16

Big Data Landscape (v 2.0)

출처: http://www.slideshare.net/mjft01/big-data-landscape-version-20

17

빅데이터 데이터베이스

18

데이터베이스
 데이터베이스는 그 내용을 쉽게 접근하여 처리하고 갱신할 수 있도록 구성된
데이터의 집합체이다.
- [텀즈]

 여러 사람들이 공유하고 사용할 목적으로 통합 관리되는 정보의 집합이다.
논리적으로 연관된 하나 이상의 자료의 모음으로 그 내용을 고도로 구조화함으로써
검색과 갱신의 효율화를 꾀한 것이다.
- [위키피디아]

 데이터베이스의 특징
실시간 접근성
지속적인 변화
동시 공유
내용에 대한 참조

출처: http://www.terms.co.kr/database.htm

19

데이터베이스 역사 (1/2)
 Persistent Storage 역사
천공카드
자기 테이프
플로피 디스크
하드 드라이브
플래시 메모리

 데이터베이스의 의의
데이터와 응용 프로그램의 독립
데이터 공유 & 중복의 최소화
데이터 관련 이슈 처리 (ACID)

20

데이터베이스 역사 (2/2)

•
•
•

데이터 종속
데이터 중복
데이터 불일치 문제
구조적 문제

출처: http://4840895.blogspot.kr/2009/04/history-of-dbms.html

21

Database Landscape

출처: 451 Group, http://gigaom.com/2012/12/20/confused-by-the-glut-of-new-databases-heres-a-map-for-you/

22

빅데이터 데이터베이스 기술
③

SQL on Hadoop
(Impala, Hive, Tajo, Drill)

Hadoop

Analytics

Spark

In-memory Analytics

Shark(SQL on Spark), SAP HANA

Streaming / CEP
(Esper, S4, Storm, HStreaming)

Realtime Analytics
(Streaming Processing)

Streaming SQL
(StreamSQL etc)

①

NoSQL
(MongoDB, Hbase, Cassandra)

Online Transactions

②

NewSQL
(MySQL Cluster, Tokutek,
VoltDB, dbShards)
23

구글 빅데이터 관련 기술
기술

연도

GFS

2003

내용
Google File System: A Distributed Storage

MapReduce 2004

Simplified Data Processing on Large Clusters

Sawzall

2005

Interpreting the Data: Parallel Analysis with Sawzall

Chubby

2006

The Chubby Lock Service for Loosely-Coupled Distributed Systems

BigTable

2006

A Distributed Storage System for Structured Data

Paxos

2007

Paxos Made Live - An Engineering Perspective

Colossus

2009

GFS II

Percolator

2010

Large-scale Incremental Processing Using Distributed Transactions and Notifications

Pregel

2010

A System for Large-Scale Graph Processing

Dremel

2010

Interactive Analysis of Web-Scale Datasets

Tenzing

2011

A SQL Implementation On The MapReduce Framework

Megastore

2011

Providing Scalable, Highly Available Storage for Interactive Services

Spanner

2012

Google's Globally-Distributed Database

F1

2012

The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business

출처: Google researchs

24

구글과 빅데이터 데이터베이스 기술
 구글에서 자신들의 빅데이터 기술을 논문으로 발표 -> 오픈소스로 개발

구분

연도

오픈소스

설명

BigTable

2006

Apache HBase

NoSQL

Megastore

2011

-

BigTable + transaction + schema

Spanner

2012

-

NewSQL

Dremel

Online
Transaction

기술

2010

Cloudera Impala,
Apache Drill

SQL on Hadoop

Tenzing

2011

Apache Hive

An SQL implementation on
mapreduce framework

Analytics

25

Hadoop Ecosystem

출처: Platformday 2012

27

BigData Software Stack (Hadoop)

28

BDAS(Berkeley Data Analytics Stack)

출처: https://amplab.cs.berkeley.edu/software/

29

데이터베이스 역사

출처: http://www.benstopford.com/2012/06/30/thoughts-on-big-data-technologies-part-1/

30

[SSA] 01.bigdata database technology (2014.02.05)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to [SSA] 01.bigdata database technology (2014.02.05)

Similar to [SSA] 01.bigdata database technology (2014.02.05) (20)

[SSA] 01.bigdata database technology (2014.02.05)