Google을 지탱하는 기술4

1,559 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,559
On SlideShare
0
From Embeds
0
Number of Embeds
14
Actions
Shares
0
Downloads
7
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Google을 지탱하는 기술4

  1. 1. 1. MapReduce 2. Sawzall
  2. 2. Map Reduce 구글의 독자적 분산 데이터 처리 기술 기존의 data 집합 → 새로운 data 생성 Map Map에 의해 만들어진 data → 최종 원하는 결과 생성 Reduce Shuffle Map의 출력을 정리 → 같은 Key 값 모음
  3. 3. Map Reduce 전체 모습 Master 키A 키1 값X 값1 Map Shuffle Reduce 키A GFS 값Y GFS 키2 값2 Map Shuffle Reduce 키B 값Y
  4. 4. Map Reduce Usage 카운터 - 입력 파일 중 조건에 맞는 data 수 세기 분산 grep - 파일에서 특정 문자열 포함하는 행 찾기 분산 sort - 입력data를 임의의 순서로 정렬 역 link list - Map의 출력을 거꾸로 해 자신을 링크하는 하는 곳의 list 얻기
  5. 5. Map Reduce 고속화를 위한 노력 시스템 구성 - GFS cluster 와 Work Queue cluster 로 구성 분산 parameter - M 과 R 2개의 parameter 이용 Locality – MapReduce의 worker를 GFS의 chunk server와 함께 작동시킴
  6. 6. Sawzall 분산 처리를 위해 고안된 DSL (Domain-Specific Language) GFS와 MapReduce를 기반으로 하는 언어 Map → Filter Reduce → Aggregator (MapReduce와 달리 키 와 값 의 구분 없음) Filter를 기술 하는 것만으로 분산 처리 실행 가능

×