[SSA] 01.bigdata database technology (2014.02.05)

2,413 views

Published on

Published in: Technology
1 Comment
6 Likes
Statistics
Notes
No Downloads
Views
Total views
2,413
On SlideShare
0
From Embeds
0
Number of Embeds
9
Actions
Shares
0
Downloads
121
Comments
1
Likes
6
Embeds 0
No embeds

No notes for slide

[SSA] 01.bigdata database technology (2014.02.05)

  1. 1. [SSA] Big Data Analytics Big Data Database Technology 민형기 hg.min@samsung.com 2014. 2. 5.
  2. 2. Contents I. 빅데이터 출현배경 II. 빅데이터 정의 III. 빅데이터 데이터베이스 기술 1
  3. 3. 빅 데이터 출현배경 2
  4. 4. 빅 데이터 출현배경 ○데이터 저장기술의 발달로 용량 증가 및 비용 감소  1956년 IBM 데이터 저장장치(RAMAC) 5MB에 5만 달러, 2011년 2TB용량의 드라이 버는 70달러 미만의 가격에 판매 ○CPU 성능의 발전과 클라우드 컴퓨팅의 발달로 대용량 데이터의 관리와 분석이 가능 ○페이스북, 트위터와 같은 소셜 미디어의 부상 ○스마트 기기의 다양화와 보급 증가  2010년 전세계 핸드폰 50억대  N 스크린 (PC, 스마트폰, 태블릿, TV)  웨어러블 디바이스의 증가로 네트웍 접속이 가능한 스마트 기기의 증가 ○오픈소스 운동  구글, 페이스북, 아마존, 트위터 등의 주도로 오픈소스 운동이 활성화 출처: 1) http://en.wikipedia.org/wiki/Memory_storage_density#Effects_on_price 2) MGI(McKinsey Global Institute) 2011.06 – Big data: the next frontier for innovation, competition, and productivity 3
  5. 5. 데이터의 대 폭발  매달 페이스북에서 주고받는 컨텐츠: 300억건(McKinsey, 2011)  매년 전세계 데이터 40% 씩 증가 (McKinsey, 2011)  ’10년~’15년까지 전세계 모바일 데이터 트래픽은 연평균 92%, 인터넷 트래픽은 연평균 34% 증가할 것으로 예상(Cisco, 2011)  트위터(twitter)는 전 세계 1억명의 월간 이용자(active user)들이 이용하고 있으며, 하루 평균 2억 개의 트윗이 발생(Twitter, 2011)  오늘날 11억 인구가 소셜 네트워크를 이용하고 있고 2억 5000만명이 매일 페이스북에 사진을 업로드하고 있다(인텔 CEO 폴 오텔리니, 2011) 출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013) 4
  6. 6. ICT 발전에 따른 데이터의 변화 방향 출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013) 5
  7. 7. 빅 데이터 역사 (1/2)  1944: Fremont Rider, 빅 데이터에 대한 첫번째 인식, Wesleyan University Librarian, “미 대학 전체의 라이브러리가 지수적으로 증가할 것을 예측”  1949: Claud Shannon, “정보의 아버지”, 대용량 스토리지 기술에 대한 연구를 수행  1961: Derek Price , “과학 저널은 매 15년마다 두배로 증가”, “law of exponential increase”  1996: 디지털 스토리지가 종이보다 저렴해짐  1997: M.Cox, D.Ellsworth, “빅 데이터” 용어가 처음 사용됨 – “ApplicationControlled Demand Paging for Out-of-Core Visualization” 출처: http://www.hcltech.com/blogs/enterprise-application-services/history-big-data, http://biggdata.weebly.com/ 6
  8. 8. 빅 데이터 역사 (2/2)  2001: Doug Laney(Meta Group), Volume, Velocity, Variety 개념 사용, “3D Data Management: Controlling Data Volume, Velocity, and Variety”  2005: Tim O’Reilly, “데이터는 다음 번 ‘인텔 인사이드’이다”, “What is Web 2.0”  2008: Bret Swanson & George Glider, “미국 인터넷 트래픽은 2015년까지 1 ZB(제타바이트)에 도달할 것이고, 이는 2006년 보다 최소 50배에 이를 것이다.”, “Estimating the Exaflood”  2011: Martin Hillbert & Priscila Lopez, 세계 정보 저장량은 1986~2007까지 매년 25%씩 증가하고 있다. 또한, 1986년까지는 99.2%의 스토리지가 아날로그였지만, 2007년부터는 94%의 스토리지가 디지털이다. 출처: http://www.hcltech.com/blogs/enterprise-application-services/history-big-data, http://biggdata.weebly.com/ 7
  9. 9. 빅데이터 정의 8
  10. 10. 데이터  이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료 관찰이나 실험, 조사로 얻은 사실이나 정보. - [네이버 국어사전]  재료 ·자료 ·논거(論據)라는 뜻인 datum의 복수형. 컴퓨터 용어로는 정보를 작성하기 위해 필요한 자료를 뜻한다. 컴퓨터에 입력하는 기호 ·숫자 ·문자를 말하며, 그 자체는 단순한 사실에 불과하지만, 컴퓨터에 의해서 일정한 프로그램에 따라 처리되어 특정한 목적에 소용되는 정보를 만들어낸다. - [네이버 지식백과]  컴퓨터 분야에서의 데이터는 옮기거나 처리하기에 좀더 편리한 형태로 바뀌어져 있는 정보를 말한다. 오늘날의 컴퓨터나 전송매체에 관련하여, 데이터는 바이너리나 디지털 형태로 변환되어 있는 정보를 말한다. - [텀즈] 출처: http://www.terms.co.kr/data.htm, http://www.diffen.com/difference/Data_vs_Information 9
  11. 11. 정보  관찰이나 측정을 통하여 수집한 자료를 실제 문제에 도움이 될 수 있도록 정리한 지식 . 또는 그 자료. - [네이버 국어사전]  "정보란 잡음(noise)이 배제된 메시지 신호(signal)“ by Claude Shannon  "다름을 만드는 모든 차이가 정보다“ by Gregory Bateson  정보는 어떤 사물이나 사태에 대한 정황을 반영하고 있다. 정보에 대해서는 여러 가지 차원에서 다양한 정의를 내릴 수 있다. 기술적인 차원에서 정보는 잡음이 배제된 메시지의 신호이지만 의미론의 차원에서는 대상이 표출하고 인간이 의도하는 목적과 방법을 담기도 한다. - [네이버 지식백과] 출처: http://terms.naver.com/entry.nhn?docId=1526261&cid=3619&categoryId=3623 10
  12. 12. 데이터 vs. 정보 데이터  Raw, unorganized facts  No context  Just numbers and text 정보  Processed data  Data with context  Value added to data summarized origanized analyzed  Example: 51007  Example 5/10/07 The date of your final exam. $51,007 The average starting salary of an account manager. 출처: http://www.slideshare.net/EinsteinX2/data-vs-information, http://www.diffen.com/difference/Data_vs_Information 11
  13. 13. 빅데이터 정의  빅 데이터는 통상적으로 사용되는 데이터 수집 및 관리, 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다.[5] - [위키피디아]  ‘빅데이터’란 기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합을 지칭(SERI, 2010) – 대규모 데이터와 관계된 기술 및 도구(수집·저장·검색·공유·분석·시각화 등)도 빅데이터의 범주 에 포함 – 과거 빅데이터는 천문·항공·우주 정보, 인간게놈 정보 등 특수 분야에 한정 됐으나 ICT의 발달 에 따라 전분야로 확산  빅데이터의 정의는 데이터 규모와 기술 측면에서 출발했으나, 빅 데이터의 가치와 활용효과 측면으로 의미가 확대되는 추세 – 빅데이터는 고객정보와 같은 정형화된 자산정보(내부) 뿐만 아니라 외부 데이터, 비정형, 소셜, 실시간 데이터 등이 복합적으로 구성 – 빅데이터는 규모, 다양성, 복잡성, 속도의 증가 특성을 갖고 있으며, 4개의 요소가 충족될수록 빅데이터에 적합 – 특정 규모(big volume) 이상을 빅데이터로 칭하기 보다는 원하는 가치(big value)를 얻을 수 있 는 정도로 상대적인 해석이 가능 출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013) 12
  14. 14. 빅데이터 구성요소 출처: http://smartdatacollective.com/yellowfin/75616/why-big-data-and-business-intelligence-one-direction 13
  15. 15. 빅데이터 처리 흐름 출처: Gruter BigData를 위한 아키텍처 및 기술(2011) 14
  16. 16. 2013년도 가트너 이머징 기술 하이프 사이클 출처: Gartner -Hype Cycle for Emerging Technologies, 2013, http://www.alibabaoglan.com/blog/gartner-hype-cycle-2014/ 15
  17. 17. Big Data Landscape (2012, Forbes) 출처: http://www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape/ 16
  18. 18. Big Data Landscape (v 2.0) 출처: http://www.slideshare.net/mjft01/big-data-landscape-version-20 17
  19. 19. 빅데이터 데이터베이스 18
  20. 20. 데이터베이스  데이터베이스는 그 내용을 쉽게 접근하여 처리하고 갱신할 수 있도록 구성된 데이터의 집합체이다. - [텀즈]  여러 사람들이 공유하고 사용할 목적으로 통합 관리되는 정보의 집합이다. 논리적으로 연관된 하나 이상의 자료의 모음으로 그 내용을 고도로 구조화함으로써 검색과 갱신의 효율화를 꾀한 것이다. - [위키피디아]  데이터베이스의 특징 실시간 접근성 지속적인 변화 동시 공유 내용에 대한 참조 출처: http://www.terms.co.kr/database.htm 19
  21. 21. 데이터베이스 역사 (1/2)  Persistent Storage 역사 천공카드 자기 테이프 플로피 디스크 하드 드라이브 플래시 메모리  데이터베이스의 의의 데이터와 응용 프로그램의 독립 데이터 공유 & 중복의 최소화 데이터 관련 이슈 처리 (ACID) 20
  22. 22. 데이터베이스 역사 (2/2) • • • 데이터 종속 데이터 중복 데이터 불일치 문제 구조적 문제 출처: http://4840895.blogspot.kr/2009/04/history-of-dbms.html 21
  23. 23. Database Landscape 출처: 451 Group, http://gigaom.com/2012/12/20/confused-by-the-glut-of-new-databases-heres-a-map-for-you/ 22
  24. 24. 빅데이터 데이터베이스 기술 ③ SQL on Hadoop (Impala, Hive, Tajo, Drill) Hadoop Analytics Spark In-memory Analytics Shark(SQL on Spark), SAP HANA Streaming / CEP (Esper, S4, Storm, HStreaming) Realtime Analytics (Streaming Processing) Streaming SQL (StreamSQL etc) ① NoSQL (MongoDB, Hbase, Cassandra) Online Transactions ② NewSQL (MySQL Cluster, Tokutek, VoltDB, dbShards) 23
  25. 25. 구글 빅데이터 관련 기술 기술 연도 GFS 2003 내용 Google File System: A Distributed Storage MapReduce 2004 Simplified Data Processing on Large Clusters Sawzall 2005 Interpreting the Data: Parallel Analysis with Sawzall Chubby 2006 The Chubby Lock Service for Loosely-Coupled Distributed Systems BigTable 2006 A Distributed Storage System for Structured Data Paxos 2007 Paxos Made Live - An Engineering Perspective Colossus 2009 GFS II Percolator 2010 Large-scale Incremental Processing Using Distributed Transactions and Notifications Pregel 2010 A System for Large-Scale Graph Processing Dremel 2010 Interactive Analysis of Web-Scale Datasets Tenzing 2011 A SQL Implementation On The MapReduce Framework Megastore 2011 Providing Scalable, Highly Available Storage for Interactive Services Spanner 2012 Google's Globally-Distributed Database F1 2012 The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business 출처: Google researchs 24
  26. 26. 구글과 빅데이터 데이터베이스 기술  구글에서 자신들의 빅데이터 기술을 논문으로 발표 -> 오픈소스로 개발 구분 연도 오픈소스 설명 BigTable 2006 Apache HBase NoSQL Megastore 2011 - BigTable + transaction + schema Spanner 2012 - NewSQL Dremel Online Transaction 기술 2010 Cloudera Impala, Apache Drill SQL on Hadoop Tenzing 2011 Apache Hive An SQL implementation on mapreduce framework Analytics 25
  27. 27. 참고 26
  28. 28. Hadoop Ecosystem 출처: Platformday 2012 27
  29. 29. BigData Software Stack (Hadoop) 28
  30. 30. BDAS(Berkeley Data Analytics Stack) 출처: https://amplab.cs.berkeley.edu/software/ 29
  31. 31. 데이터베이스 역사 출처: http://www.benstopford.com/2012/06/30/thoughts-on-big-data-technologies-part-1/ 30
  32. 32. 감사합니다. 31

×