Google을 지탱하는 기술4

Map Reduce
구글의 독자적 분산 데이터 처리 기술

기존의 data 집합 → 새로운 data 생성
Map

Map에 의해 만들어진 data → 최종 원하는 결과 생성
Reduce

Shuffle Map의 출력을 정리 → 같은 Key 값 모음

Map Reduce
전체 모습
Master
키A
키1
값X
값1
Map Shuffle Reduce
키A
GFS 값Y GFS
키2
값2
Map Shuffle Reduce
키B
값Y

Map Reduce
Usage

카운터 - 입력 파일 중 조건에 맞는 data 수 세기

분산 grep - 파일에서 특정 문자열 포함하는 행 찾기

분산 sort - 입력data를 임의의 순서로 정렬

역 link list - Map의 출력을 거꾸로 해 자신을 링크하는
하는 곳의 list 얻기

Map Reduce
고속화를 위한 노력

시스템 구성 - GFS cluster 와 Work Queue cluster 로 구성

분산 parameter - M 과 R 2개의 parameter 이용

Locality – MapReduce의 worker를 GFS의 chunk server와
함께 작동시킴

Sawzall
분산 처리를 위해 고안된 DSL
(Domain-Specific Language)

GFS와 MapReduce를 기반으로 하는 언어

Map → Filter
Reduce → Aggregator (MapReduce와 달리 키 와 값 의 구분 없음)

Filter를 기술 하는 것만으로 분산 처리 실행 가능

Google을 지탱하는 기술4

Recommended

Recommended

More Related Content

More from sid choi

More from sid choi (16)

Google을 지탱하는 기술4