Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big data

607 views

Published on

  • Be the first to comment

  • Be the first to like this

Big data

  1. 1. NoSQL Big Data
  2. 2. 목차 •빅데이터 •NOSQL •활용분야 •관련 기술 •Useful •Cloud
  3. 3. 빅데이터 • 시대가 발전하고 변화하면서 정보의 분야가 다양해지고 정 보의 양이 방대해졌다. 예전에는 Text형식의 데이터들이 일 반적이었지만 이제는 이미지를 뿐만 아니라 영상까지 데이 터로써 저장되고 있다. 컴퓨터도 발전하면서 하드웨어의 발 전은 거의 포화상태에 이르렀고 세상에 몇 대 없는 슈퍼 컴 퓨터에서나 쓰이던 TB라는 저장 용량의 단위가 이제 가정용 컴퓨터에서도 일반적으로 사용하는 단위가 되어버렸다. 더 이상 데이터의 크기(나 속도)는 문제가 되지 않았고 오히려 이렇게 다양해지고 방대해진 이 데이터들에 대한 저장이나 처리기법에 대한 관심이 늘어났다. • Mega(6) - Giga(9) – Tera(12) – Peta(15) – Exa(18) – Zetta(21) – Yotta(24)
  4. 4. NOSQL? •Not Only SQL •기존의 RDBMS(Relational DataBase Management System)과는 다른 개념의 DBMS. –JOIN등이 쓰이지 않음 •Key – Value 형식 •Relation이 요구되지 않는 거대한 데이터에 적합! •Statistics or Real-Time Analysis에 적합!
  5. 5. 활용 • 구글 – 검색 • 검색어와 페이지가 얼마나 밀접한 관계가 있는지 – 자동번역(통계적 기계 번역) • 인간이 이미 번역한 것을 참고, 토대로 패턴을 조사 • IBM – 슈퍼컴퓨터 왓슨 • 인간의 언어에 대한 이해를 기반/퀴즈쇼에서 챔피언과 겨뤄 우승 • 의료보험 데이터 분석, 종양진단 처리, 금융분야등에 활용 예정. • 아마존 – 도서추천 • 도서 구매 데이터 분석 • 기타 – 위험관리시스템(싱가폴) – 미국 국립보건원(NH)의 의약품 검색 등등
  6. 6. 빅데이터 처리 기술 •구글 - GFS(Google File System) – 대용량 데이터의 분산처리를 위한 분산파일 시 스템. Ex) BigTable(수평적 확장), MapReduce(분산처리) •하둡(Hadoop) – 2006년 야후 중심으로 개발  Apache Project – 구글과 대응되는 체계(HDFS:Hadoop Distributed File System) • HDFS + MapReduce + HBase
  7. 7. Useful •데이터 마이닝 •비정형 데이터 마이닝 •데이터 시각화
  8. 8. Cloud •빅데이터와 밀접한 관계 – 분산처리(상호 보완적) – 구글, 아마존 = 빅데이터 선도기업(주도) •인터넷으로 연결 된 다른 컴퓨터로 처리하는 기술.

×