5. Map Reduce
Usage
카운터 - 입력 파일 중 조건에 맞는 data 수 세기
분산 grep - 파일에서 특정 문자열 포함하는 행 찾기
분산 sort - 입력data를 임의의 순서로 정렬
역 link list - Map의 출력을 거꾸로 해 자신을 링크하는
하는 곳의 list 얻기
6. Map Reduce
고속화를 위한 노력
시스템 구성 - GFS cluster 와 Work Queue cluster 로 구성
분산 parameter - M 과 R 2개의 parameter 이용
Locality – MapReduce의 worker를 GFS의 chunk server와
함께 작동시킴
7. Sawzall
분산 처리를 위해 고안된 DSL
(Domain-Specific Language)
GFS와 MapReduce를 기반으로 하는 언어
Map → Filter
Reduce → Aggregator (MapReduce와 달리 키 와 값 의 구분 없음)
Filter를 기술 하는 것만으로 분산 처리 실행 가능