Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

hadoop ch1

1,171 views

Published on

hadoop ch1
하둡

  • Be the first to comment

  • Be the first to like this

hadoop ch1

  1. 1. 하둡 아키텍트를 꿈꾸는 사람들
  2. 2. 하둡 아키텍처를 꿈꾸는 사람들
  3. 3. 하둡을 시작하며.. 1.1 데이터 1.2 데이터 저장소와 분석 1.3 다른 시스템과의 비교 1.4 하둡의 역사 1.5 아파치 하둡과 하둡 생태계
  4. 4. 1.1 데이터
  5. 5. 현재 사회의 큰 데이터(Big data?!) 현재 사회는 엄청난 데이터의 홍수 - NYSE, 매일 1테라 바이트의 거래 데이터 - facebook, 10억개의 사진 저장 - 힉스 입자 가속기, 매년 15페타바이트 페타>테라>기가
  6. 6. MyLifeBits - Microsoft research - 개인이 생산하고 있는 모든 정보를 저장 - 한 달에 1GB -
  7. 7. astrometry.net
  8. 8. Big Data vs 알고리즘 - 일반적으로 더 많은 데이터가 더 좋은 알고리 즘 보다 낫다 - 구글 : 중국어 번역 이제는 Big Data는 우리 주변에, 나쁜소식은 어떻게 처리를 할 것인가...
  9. 9. 1.2 데이터 저장소와 분석
  10. 10. 저장용량 / 엑세스 속도 - 저장용량 증가폭 > 엑세스 속도 증가폭 해결책 : 여러 하드에 분산, 병렬 처리 but, 1. 장애 확률도 덩달아 높아짐 2. 분할된 데이터를 다시 결합 하는 cost
  11. 11. 저장용량 / 엑세스 속도 - 저장용량 증가폭 > 엑세스 속도 증가폭 해결책 : 여러 하드에 분산, 병렬 처리 but, 1. 장애 확률도 덩달아 높아짐 2. 분할된 데이터를 다시 결합 하는 cost 1 -> HDFS 2 -> MapReduce
  12. 12. 1.3 다른 시스템과의 비교 <Hadoop> MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster Map(k1,v1) → list(k2,v2) Reduce(k2, list (v2)) → list(v3)
  13. 13. 1.3.1 관계형 데이터베이스 - 구조화된 데이터 / 비구조화된 데이터 - 정규화 / 정규화X - 비선형으로 확장 / 선형으로 확장
  14. 14. 1.3.2 그리드 컴퓨팅 - 수백 기가 바이트처리시, 네트워크 병목 Hadoop, 데이터가 로컬 -> 빠름 - 복잡한 아키텍처 Hadoop, 무공유 아키텍처
  15. 15. 1.3.3 자발적 컴퓨팅 - SETI@home, 메르센 소수 찾기, Folding@home (http://cafe.naver.com/setikah) - CPU중심적, CPU > 전송시간
  16. 16. 1.4 하둡의 역사 - 조어(made-up name) "내 아이가 봉제 인형인 노란 코끼리에게 지어준 이름이다. 짧고, 상대적으로 맞춤법과 발음이 쉽 고, 특별한 의미는 없다."
  17. 17. 1.4 하둡의 역사 더그커팅 - 아파치 루씬 - 아파치 너치 - 하둡 - GFS -> NDFS - 맵리듀스 -> NDFS
  18. 18. 1.5 아파치 하둡과 하둡 생태계 공통 : 분산 파일 시스템, 일반적인 I/O를 위한 컴포넌트와 인 터페이스 집합 에이브로(Avro) : 교차언어 RPC와 영속적인 데이터 스토리 지를 위한 데이터 직렬화 시스템 맵리듀스 : 범용 컴퓨터의 커다란 클러스터에서 수행되는 분 산 데이터 처리 모델/실행환경 HDFS:범용 컴퓨터로 된 커다란 클러스터에서 수행되는 분 산 파일 시스템
  19. 19. 1.5 아파치 하둡과 하둡 생태계 피그:탐색용 데이터 흐름 언어 하이브:분산 데이터웨어하우스 HBASE:분산 컬럼 지향DB 주키퍼:고가용성 조정 서비스 스쿱:관계형DB와 HDFS간 데이터를 이동시키 기 위한 도구 오지: 하둡 잡(맵리듀스,피그,하이브,스쿱)의 워 크플로우를 실행/스케쥴링

×