SlideShare a Scribd company logo
1 of 7
1. MapReduce

2. Sawzall
Map Reduce
 구글의 독자적 분산 데이터 처리 기술

          기존의 data 집합 → 새로운 data 생성
Map



          Map에 의해 만들어진 data → 최종 원하는 결과 생성
Reduce




Shuffle   Map의 출력을 정리 → 같은 Key 값 모음
Map Reduce
                  전체 모습
                      Master
                 키A
      키1
                 값X
      값1
           Map             Shuffle   Reduce
                 키A
GFS              값Y                           GFS
      키2
      값2
           Map             Shuffle   Reduce
                 키B
                 값Y
Map Reduce
                         Usage

카운터           - 입력 파일 중 조건에 맞는 data 수 세기

분산 grep       - 파일에서 특정 문자열 포함하는 행 찾기

분산 sort       - 입력data를 임의의 순서로 정렬

역 link list   - Map의 출력을 거꾸로 해 자신을 링크하는
         하는 곳의 list 얻기
Map Reduce
              고속화를 위한 노력


시스템 구성 - GFS cluster 와 Work Queue cluster 로 구성

분산 parameter - M 과 R 2개의 parameter 이용

Locality   – MapReduce의 worker를 GFS의 chunk server와
           함께 작동시킴
Sawzall
        분산 처리를 위해 고안된 DSL
               (Domain-Specific Language)

GFS와 MapReduce를 기반으로 하는 언어



Map → Filter
Reduce → Aggregator (MapReduce와 달리 키 와 값 의 구분 없음)



Filter를 기술 하는 것만으로 분산 처리 실행 가능

More Related Content

More from sid choi

벤치마킹
벤치마킹벤치마킹
벤치마킹sid choi
 
웹 기획, 사용자를 배려하는 합리적인 생각
웹 기획, 사용자를 배려하는 합리적인 생각웹 기획, 사용자를 배려하는 합리적인 생각
웹 기획, 사용자를 배려하는 합리적인 생각sid choi
 
Google을 지탱하는 기술5
Google을 지탱하는 기술5Google을 지탱하는 기술5
Google을 지탱하는 기술5sid choi
 
Google을 지탱하는 기술3
Google을 지탱하는 기술3Google을 지탱하는 기술3
Google을 지탱하는 기술3sid choi
 
벤치 마킹
벤치 마킹벤치 마킹
벤치 마킹sid choi
 
미코노미
미코노미미코노미
미코노미sid choi
 
웹기획, 사용자를 배려하는
웹기획, 사용자를 배려하는웹기획, 사용자를 배려하는
웹기획, 사용자를 배려하는sid choi
 
Google을 지탱하는 기술2
Google을 지탱하는 기술2Google을 지탱하는 기술2
Google을 지탱하는 기술2sid choi
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술sid choi
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술sid choi
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술sid choi
 
구글을 지탱하는 기술
구글을 지탱하는 기술구글을 지탱하는 기술
구글을 지탱하는 기술sid choi
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술sid choi
 
구글을 지탱하는 기술
구글을 지탱하는 기술구글을 지탱하는 기술
구글을 지탱하는 기술sid choi
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술sid choi
 

More from sid choi (16)

벤치마킹
벤치마킹벤치마킹
벤치마킹
 
Meconomy
MeconomyMeconomy
Meconomy
 
웹 기획, 사용자를 배려하는 합리적인 생각
웹 기획, 사용자를 배려하는 합리적인 생각웹 기획, 사용자를 배려하는 합리적인 생각
웹 기획, 사용자를 배려하는 합리적인 생각
 
Google을 지탱하는 기술5
Google을 지탱하는 기술5Google을 지탱하는 기술5
Google을 지탱하는 기술5
 
Google을 지탱하는 기술3
Google을 지탱하는 기술3Google을 지탱하는 기술3
Google을 지탱하는 기술3
 
벤치 마킹
벤치 마킹벤치 마킹
벤치 마킹
 
미코노미
미코노미미코노미
미코노미
 
웹기획, 사용자를 배려하는
웹기획, 사용자를 배려하는웹기획, 사용자를 배려하는
웹기획, 사용자를 배려하는
 
Google을 지탱하는 기술2
Google을 지탱하는 기술2Google을 지탱하는 기술2
Google을 지탱하는 기술2
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술
 
구글을 지탱하는 기술
구글을 지탱하는 기술구글을 지탱하는 기술
구글을 지탱하는 기술
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술
 
구글을 지탱하는 기술
구글을 지탱하는 기술구글을 지탱하는 기술
구글을 지탱하는 기술
 
구글을지탱하는기술
구글을지탱하는기술구글을지탱하는기술
구글을지탱하는기술
 

Google을 지탱하는 기술4

  • 1.
  • 3. Map Reduce 구글의 독자적 분산 데이터 처리 기술 기존의 data 집합 → 새로운 data 생성 Map Map에 의해 만들어진 data → 최종 원하는 결과 생성 Reduce Shuffle Map의 출력을 정리 → 같은 Key 값 모음
  • 4. Map Reduce 전체 모습 Master 키A 키1 값X 값1 Map Shuffle Reduce 키A GFS 값Y GFS 키2 값2 Map Shuffle Reduce 키B 값Y
  • 5. Map Reduce Usage 카운터 - 입력 파일 중 조건에 맞는 data 수 세기 분산 grep - 파일에서 특정 문자열 포함하는 행 찾기 분산 sort - 입력data를 임의의 순서로 정렬 역 link list - Map의 출력을 거꾸로 해 자신을 링크하는 하는 곳의 list 얻기
  • 6. Map Reduce 고속화를 위한 노력 시스템 구성 - GFS cluster 와 Work Queue cluster 로 구성 분산 parameter - M 과 R 2개의 parameter 이용 Locality – MapReduce의 worker를 GFS의 chunk server와 함께 작동시킴
  • 7. Sawzall 분산 처리를 위해 고안된 DSL (Domain-Specific Language) GFS와 MapReduce를 기반으로 하는 언어 Map → Filter Reduce → Aggregator (MapReduce와 달리 키 와 값 의 구분 없음) Filter를 기술 하는 것만으로 분산 처리 실행 가능