NoSQL
Big Data
목차
•빅데이터
•NOSQL
•활용분야
•관련 기술
•Useful
•Cloud
빅데이터
• 시대가 발전하고 변화하면서 정보의 분야가 다양해지고 정
보의 양이 방대해졌다. 예전에는 Text형식의 데이터들이 일
반적이었지만 이제는 이미지를 뿐만 아니라 영상까지 데이
터로써 저장되고 있다. 컴퓨터도 발전하면서 하드웨어의 발
전은 거의 포화상태에 이르렀고 세상에 몇 대 없는 슈퍼 컴
퓨터에서나 쓰이던 TB라는 저장 용량의 단위가 이제 가정용
컴퓨터에서도 일반적으로 사용하는 단위가 되어버렸다. 더
이상 데이터의 크기(나 속도)는 문제가 되지 않았고 오히려
이렇게 다양해지고 방대해진 이 데이터들에 대한 저장이나
처리기법에 대한 관심이 늘어났다.
• Mega(6) - Giga(9) – Tera(12) – Peta(15) – Exa(18) –
Zetta(21) – Yotta(24)
NOSQL?
•Not Only SQL
•기존의 RDBMS(Relational DataBase
Management System)과는 다른 개념의
DBMS.
–JOIN등이 쓰이지 않음
•Key – Value 형식
•Relation이 요구되지 않는 거대한 데이터에
적합!
•Statistics or Real-Time Analysis에 적합!
활용
• 구글
– 검색
• 검색어와 페이지가 얼마나 밀접한 관계가 있는지
– 자동번역(통계적 기계 번역)
• 인간이 이미 번역한 것을 참고, 토대로 패턴을 조사
• IBM
– 슈퍼컴퓨터 왓슨
• 인간의 언어에 대한 이해를 기반/퀴즈쇼에서 챔피언과 겨뤄 우승
• 의료보험 데이터 분석, 종양진단 처리, 금융분야등에 활용 예정.
• 아마존
– 도서추천
• 도서 구매 데이터 분석
• 기타
– 위험관리시스템(싱가폴)
– 미국 국립보건원(NH)의 의약품 검색 등등
빅데이터 처리 기술
•구글 - GFS(Google File System)
– 대용량 데이터의 분산처리를 위한 분산파일 시
스템.
Ex) BigTable(수평적 확장), MapReduce(분산처리)
•하둡(Hadoop)
– 2006년 야후 중심으로 개발  Apache Project
– 구글과 대응되는 체계(HDFS:Hadoop
Distributed File System)
• HDFS + MapReduce + HBase
Useful
•데이터 마이닝
•비정형 데이터 마이닝
•데이터 시각화
Cloud
•빅데이터와 밀접한 관계
– 분산처리(상호 보완적)
– 구글, 아마존 = 빅데이터 선도기업(주도)
•인터넷으로 연결 된 다른 컴퓨터로 처리하는 기술.

Big data

  • 1.
  • 2.
  • 3.
    빅데이터 • 시대가 발전하고변화하면서 정보의 분야가 다양해지고 정 보의 양이 방대해졌다. 예전에는 Text형식의 데이터들이 일 반적이었지만 이제는 이미지를 뿐만 아니라 영상까지 데이 터로써 저장되고 있다. 컴퓨터도 발전하면서 하드웨어의 발 전은 거의 포화상태에 이르렀고 세상에 몇 대 없는 슈퍼 컴 퓨터에서나 쓰이던 TB라는 저장 용량의 단위가 이제 가정용 컴퓨터에서도 일반적으로 사용하는 단위가 되어버렸다. 더 이상 데이터의 크기(나 속도)는 문제가 되지 않았고 오히려 이렇게 다양해지고 방대해진 이 데이터들에 대한 저장이나 처리기법에 대한 관심이 늘어났다. • Mega(6) - Giga(9) – Tera(12) – Peta(15) – Exa(18) – Zetta(21) – Yotta(24)
  • 4.
    NOSQL? •Not Only SQL •기존의RDBMS(Relational DataBase Management System)과는 다른 개념의 DBMS. –JOIN등이 쓰이지 않음 •Key – Value 형식 •Relation이 요구되지 않는 거대한 데이터에 적합! •Statistics or Real-Time Analysis에 적합!
  • 5.
    활용 • 구글 – 검색 •검색어와 페이지가 얼마나 밀접한 관계가 있는지 – 자동번역(통계적 기계 번역) • 인간이 이미 번역한 것을 참고, 토대로 패턴을 조사 • IBM – 슈퍼컴퓨터 왓슨 • 인간의 언어에 대한 이해를 기반/퀴즈쇼에서 챔피언과 겨뤄 우승 • 의료보험 데이터 분석, 종양진단 처리, 금융분야등에 활용 예정. • 아마존 – 도서추천 • 도서 구매 데이터 분석 • 기타 – 위험관리시스템(싱가폴) – 미국 국립보건원(NH)의 의약품 검색 등등
  • 6.
    빅데이터 처리 기술 •구글- GFS(Google File System) – 대용량 데이터의 분산처리를 위한 분산파일 시 스템. Ex) BigTable(수평적 확장), MapReduce(분산처리) •하둡(Hadoop) – 2006년 야후 중심으로 개발  Apache Project – 구글과 대응되는 체계(HDFS:Hadoop Distributed File System) • HDFS + MapReduce + HBase
  • 7.
  • 8.
    Cloud •빅데이터와 밀접한 관계 –분산처리(상호 보완적) – 구글, 아마존 = 빅데이터 선도기업(주도) •인터넷으로 연결 된 다른 컴퓨터로 처리하는 기술.

Editor's Notes

  • #4 3V – 규모(Volume), 다양성(Variety), 속도(Velocity) 가치(Value), 복잡성(Complexity)
  • #5 빅데이터와 No-SQL이 합쳐지면 좀더 정확한 예측이 가능!!!
  • #6 은유적 시적 표현(일반 사람들도 어려움) 천문정보
  • #7 성능향상의 두 가지 방법. 1. 성능 좋은 장비 도입, 2. 장비 수 늘리기