Your SlideShare is downloading. ×
[SSA] 01.bigdata database technology (2014.02.05)
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

[SSA] 01.bigdata database technology (2014.02.05)

759
views

Published on

Published in: Technology

1 Comment
3 Likes
Statistics
Notes
No Downloads
Views
Total Views
759
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
50
Comments
1
Likes
3
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. [SSA] Big Data Analytics Big Data Database Technology 민형기 hg.min@samsung.com 2014. 2. 5.
  • 2. Contents I. 빅데이터 출현배경 II. 빅데이터 정의 III. 빅데이터 데이터베이스 기술 1
  • 3. 빅 데이터 출현배경 2
  • 4. 빅 데이터 출현배경 ○데이터 저장기술의 발달로 용량 증가 및 비용 감소  1956년 IBM 데이터 저장장치(RAMAC) 5MB에 5만 달러, 2011년 2TB용량의 드라이 버는 70달러 미만의 가격에 판매 ○CPU 성능의 발전과 클라우드 컴퓨팅의 발달로 대용량 데이터의 관리와 분석이 가능 ○페이스북, 트위터와 같은 소셜 미디어의 부상 ○스마트 기기의 다양화와 보급 증가  2010년 전세계 핸드폰 50억대  N 스크린 (PC, 스마트폰, 태블릿, TV)  웨어러블 디바이스의 증가로 네트웍 접속이 가능한 스마트 기기의 증가 ○오픈소스 운동  구글, 페이스북, 아마존, 트위터 등의 주도로 오픈소스 운동이 활성화 출처: 1) http://en.wikipedia.org/wiki/Memory_storage_density#Effects_on_price 2) MGI(McKinsey Global Institute) 2011.06 – Big data: the next frontier for innovation, competition, and productivity 3
  • 5. 데이터의 대 폭발  매달 페이스북에서 주고받는 컨텐츠: 300억건(McKinsey, 2011)  매년 전세계 데이터 40% 씩 증가 (McKinsey, 2011)  ’10년~’15년까지 전세계 모바일 데이터 트래픽은 연평균 92%, 인터넷 트래픽은 연평균 34% 증가할 것으로 예상(Cisco, 2011)  트위터(twitter)는 전 세계 1억명의 월간 이용자(active user)들이 이용하고 있으며, 하루 평균 2억 개의 트윗이 발생(Twitter, 2011)  오늘날 11억 인구가 소셜 네트워크를 이용하고 있고 2억 5000만명이 매일 페이스북에 사진을 업로드하고 있다(인텔 CEO 폴 오텔리니, 2011) 출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013) 4
  • 6. ICT 발전에 따른 데이터의 변화 방향 출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013) 5
  • 7. 빅 데이터 역사 (1/2)  1944: Fremont Rider, 빅 데이터에 대한 첫번째 인식, Wesleyan University Librarian, “미 대학 전체의 라이브러리가 지수적으로 증가할 것을 예측”  1949: Claud Shannon, “정보의 아버지”, 대용량 스토리지 기술에 대한 연구를 수행  1961: Derek Price , “과학 저널은 매 15년마다 두배로 증가”, “law of exponential increase”  1996: 디지털 스토리지가 종이보다 저렴해짐  1997: M.Cox, D.Ellsworth, “빅 데이터” 용어가 처음 사용됨 – “ApplicationControlled Demand Paging for Out-of-Core Visualization” 출처: http://www.hcltech.com/blogs/enterprise-application-services/history-big-data, http://biggdata.weebly.com/ 6
  • 8. 빅 데이터 역사 (2/2)  2001: Doug Laney(Meta Group), Volume, Velocity, Variety 개념 사용, “3D Data Management: Controlling Data Volume, Velocity, and Variety”  2005: Tim O’Reilly, “데이터는 다음 번 ‘인텔 인사이드’이다”, “What is Web 2.0”  2008: Bret Swanson & George Glider, “미국 인터넷 트래픽은 2015년까지 1 ZB(제타바이트)에 도달할 것이고, 이는 2006년 보다 최소 50배에 이를 것이다.”, “Estimating the Exaflood”  2011: Martin Hillbert & Priscila Lopez, 세계 정보 저장량은 1986~2007까지 매년 25%씩 증가하고 있다. 또한, 1986년까지는 99.2%의 스토리지가 아날로그였지만, 2007년부터는 94%의 스토리지가 디지털이다. 출처: http://www.hcltech.com/blogs/enterprise-application-services/history-big-data, http://biggdata.weebly.com/ 7
  • 9. 빅데이터 정의 8
  • 10. 데이터  이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료 관찰이나 실험, 조사로 얻은 사실이나 정보. - [네이버 국어사전]  재료 ·자료 ·논거(論據)라는 뜻인 datum의 복수형. 컴퓨터 용어로는 정보를 작성하기 위해 필요한 자료를 뜻한다. 컴퓨터에 입력하는 기호 ·숫자 ·문자를 말하며, 그 자체는 단순한 사실에 불과하지만, 컴퓨터에 의해서 일정한 프로그램에 따라 처리되어 특정한 목적에 소용되는 정보를 만들어낸다. - [네이버 지식백과]  컴퓨터 분야에서의 데이터는 옮기거나 처리하기에 좀더 편리한 형태로 바뀌어져 있는 정보를 말한다. 오늘날의 컴퓨터나 전송매체에 관련하여, 데이터는 바이너리나 디지털 형태로 변환되어 있는 정보를 말한다. - [텀즈] 출처: http://www.terms.co.kr/data.htm, http://www.diffen.com/difference/Data_vs_Information 9
  • 11. 정보  관찰이나 측정을 통하여 수집한 자료를 실제 문제에 도움이 될 수 있도록 정리한 지식 . 또는 그 자료. - [네이버 국어사전]  "정보란 잡음(noise)이 배제된 메시지 신호(signal)“ by Claude Shannon  "다름을 만드는 모든 차이가 정보다“ by Gregory Bateson  정보는 어떤 사물이나 사태에 대한 정황을 반영하고 있다. 정보에 대해서는 여러 가지 차원에서 다양한 정의를 내릴 수 있다. 기술적인 차원에서 정보는 잡음이 배제된 메시지의 신호이지만 의미론의 차원에서는 대상이 표출하고 인간이 의도하는 목적과 방법을 담기도 한다. - [네이버 지식백과] 출처: http://terms.naver.com/entry.nhn?docId=1526261&cid=3619&categoryId=3623 10
  • 12. 데이터 vs. 정보 데이터  Raw, unorganized facts  No context  Just numbers and text 정보  Processed data  Data with context  Value added to data summarized origanized analyzed  Example: 51007  Example 5/10/07 The date of your final exam. $51,007 The average starting salary of an account manager. 출처: http://www.slideshare.net/EinsteinX2/data-vs-information, http://www.diffen.com/difference/Data_vs_Information 11
  • 13. 빅데이터 정의  빅 데이터는 통상적으로 사용되는 데이터 수집 및 관리, 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다.[5] - [위키피디아]  ‘빅데이터’란 기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합을 지칭(SERI, 2010) – 대규모 데이터와 관계된 기술 및 도구(수집·저장·검색·공유·분석·시각화 등)도 빅데이터의 범주 에 포함 – 과거 빅데이터는 천문·항공·우주 정보, 인간게놈 정보 등 특수 분야에 한정 됐으나 ICT의 발달 에 따라 전분야로 확산  빅데이터의 정의는 데이터 규모와 기술 측면에서 출발했으나, 빅 데이터의 가치와 활용효과 측면으로 의미가 확대되는 추세 – 빅데이터는 고객정보와 같은 정형화된 자산정보(내부) 뿐만 아니라 외부 데이터, 비정형, 소셜, 실시간 데이터 등이 복합적으로 구성 – 빅데이터는 규모, 다양성, 복잡성, 속도의 증가 특성을 갖고 있으며, 4개의 요소가 충족될수록 빅데이터에 적합 – 특정 규모(big volume) 이상을 빅데이터로 칭하기 보다는 원하는 가치(big value)를 얻을 수 있 는 정도로 상대적인 해석이 가능 출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013) 12
  • 14. 빅데이터 구성요소 출처: http://smartdatacollective.com/yellowfin/75616/why-big-data-and-business-intelligence-one-direction 13
  • 15. 빅데이터 처리 흐름 출처: Gruter BigData를 위한 아키텍처 및 기술(2011) 14
  • 16. 2013년도 가트너 이머징 기술 하이프 사이클 출처: Gartner -Hype Cycle for Emerging Technologies, 2013, http://www.alibabaoglan.com/blog/gartner-hype-cycle-2014/ 15
  • 17. Big Data Landscape (2012, Forbes) 출처: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/ 16
  • 18. Big Data Landscape (v 2.0) 출처: http://www.slideshare.net/mjft01/big-data-landscape-version-20 17
  • 19. 빅데이터 데이터베이스 18
  • 20. 데이터베이스  데이터베이스는 그 내용을 쉽게 접근하여 처리하고 갱신할 수 있도록 구성된 데이터의 집합체이다. - [텀즈]  여러 사람들이 공유하고 사용할 목적으로 통합 관리되는 정보의 집합이다. 논리적으로 연관된 하나 이상의 자료의 모음으로 그 내용을 고도로 구조화함으로써 검색과 갱신의 효율화를 꾀한 것이다. - [위키피디아]  데이터베이스의 특징 실시간 접근성 지속적인 변화 동시 공유 내용에 대한 참조 출처: http://www.terms.co.kr/database.htm 19
  • 21. 데이터베이스 역사 (1/2)  Persistent Storage 역사 천공카드 자기 테이프 플로피 디스크 하드 드라이브 플래시 메모리  데이터베이스의 의의 데이터와 응용 프로그램의 독립 데이터 공유 & 중복의 최소화 데이터 관련 이슈 처리 (ACID) 20
  • 22. 데이터베이스 역사 (2/2) • • • 데이터 종속 데이터 중복 데이터 불일치 문제 구조적 문제 출처: http://4840895.blogspot.kr/2009/04/history-of-dbms.html 21
  • 23. Database Landscape 출처: 451 Group, http://gigaom.com/2012/12/20/confused-by-the-glut-of-new-databases-heres-a-map-for-you/ 22
  • 24. 빅데이터 데이터베이스 기술 ③ SQL on Hadoop (Impala, Hive, Tajo, Drill) Hadoop Analytics Spark In-memory Analytics Shark(SQL on Spark), SAP HANA Streaming / CEP (Esper, S4, Storm, HStreaming) Realtime Analytics (Streaming Processing) Streaming SQL (StreamSQL etc) ① NoSQL (MongoDB, Hbase, Cassandra) Online Transactions ② NewSQL (MySQL Cluster, Tokutek, VoltDB, dbShards) 23
  • 25. 구글 빅데이터 관련 기술 기술 연도 GFS 2003 내용 Google File System: A Distributed Storage MapReduce 2004 Simplified Data Processing on Large Clusters Sawzall 2005 Interpreting the Data: Parallel Analysis with Sawzall Chubby 2006 The Chubby Lock Service for Loosely-Coupled Distributed Systems BigTable 2006 A Distributed Storage System for Structured Data Paxos 2007 Paxos Made Live - An Engineering Perspective Colossus 2009 GFS II Percolator 2010 Large-scale Incremental Processing Using Distributed Transactions and Notifications Pregel 2010 A System for Large-Scale Graph Processing Dremel 2010 Interactive Analysis of Web-Scale Datasets Tenzing 2011 A SQL Implementation On The MapReduce Framework Megastore 2011 Providing Scalable, Highly Available Storage for Interactive Services Spanner 2012 Google's Globally-Distributed Database F1 2012 The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business 출처: Google researchs 24
  • 26. 구글과 빅데이터 데이터베이스 기술  구글에서 자신들의 빅데이터 기술을 논문으로 발표 -> 오픈소스로 개발 구분 연도 오픈소스 설명 BigTable 2006 Apache HBase NoSQL Megastore 2011 - BigTable + transaction + schema Spanner 2012 - NewSQL Dremel Online Transaction 기술 2010 Cloudera Impala, Apache Drill SQL on Hadoop Tenzing 2011 Apache Hive An SQL implementation on mapreduce framework Analytics 25
  • 27. 참고 26
  • 28. Hadoop Ecosystem 출처: Platformday 2012 27
  • 29. BigData Software Stack (Hadoop) 28
  • 30. BDAS(Berkeley Data Analytics Stack) 출처: https://amplab.cs.berkeley.edu/software/ 29
  • 31. 데이터베이스 역사 출처: http://www.benstopford.com/2012/06/30/thoughts-on-big-data-technologies-part-1/ 30
  • 32. 감사합니다. 31