Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
DDaavviidd
Chapter2 -Chapter2 - 구구글글의의 공공
룡룡화화
Google
ContentContent
 인터넷을 ` 검색하는 거대 시스템
 검색 클러스터
인터넷을 검색하는인터넷을 검색하는 거대 시스템거대 시스템
Google
값싼 PC 를 대량으로 이용
Scale-Up
Scale-Out
대량의 PC 를 어떻게 이용하는 거지 ?
하나의 시스템으로 연결
스위치스위치
PCPCPCPC
PCPCPCPC
PCPCPCPC
PCPCPCPC
렉렉
클러스터클러스터 클러스터클러스터 클러스터클러스터
클러스터클러스터
클러스터...
하나의 시스템으로 연결
 렉 (Rack)
- 시스템의 기본 , 2~4CPU, 2~4GB 메모리 , 1Gbps LAN
 클러스터
- 서로 협조하여 하나의 기능 제공하는 컴퓨터 집합
( 검색 클러스터 , 수집클러스터 ,...
값싼 장비의 대량 이용시 문제점
 하드웨어의 고장
- 저가의 하드웨어 , 하드웨어를 늘릴수록 고장 확률이 높다 .
- 고장에 대한 장애에 대해 미리 대비해야 한다 .
 고난도 분산처리
- 다수 머신의 동시 사용시 어...
CPU 와 HDD 의 알뜰한 활용
 GFS 클러스터
- 다수의 머신을 이용하여 거대한 파일시스템 만들어냄
- 각 머신의 하드디스크 드라이브의 데이터를 네트워크를 이용
읽고 쓸 수 있게 하는 기술
 Work Queue...
검색 엔진 개량
 검색서버의 대규모화
검색 서버
Barrels
Lexicon
Docindex
확장한다
검색 엔진 개량
 검색 백엔드의 대규모화
단어 처리
구조 해석
확장성이 있는가 ? 리포지터리
병목현상 ?
확장한다
크롤러
크롤러
크롤러
병목현상 ?
검색 엔진 개량
 인덱스의 대규모화
- 인덱스 분할을 매번 고려하는 것이 번거로운 만큼 시스템이
자동적으로 분산처리를 할 수 있도록 범용 인덱스 시스템준비
세계로 눈을 돌린세계로 눈을 돌린 검색 클러스터검색 클러스터
Google
가까운 데이터 센터로 접속
DNSDNS
http://www.google.com/
x. x. x. x
Data CenterData Center
Data CenterData Center
Data CenterData Cent...
다수의 서버로 부하를 분산
 GWS (Google Web Server)
- 검색요청을 한곳에 모으는 역할을 한다 .
- 직접 검색 요청을 처리 하지 않으며 결과만 이용자에게 준다 .
 인덱스 서버
 도큐먼트 서버
...
많은 인덱스를 한번에 검색
G W S
LB
index index
index index
shard LB
index index
index index
shard LB
index index
index index
shard
새로운 웹 검색 절차
shard
shard
shard
shard
shard
G W S
스펠링 체크 서버
광고 서버
검색어
검색어 검색어
요약
docID
docID
인덱스 서버인덱스 서버 도큐먼트 서버도큐먼트 서버
11
...
새로운 웹 검색 절차
 인덱스 서버
- 인덱스 서버를 구성하는 모든 shard 클러스터 검색요구
- shard 클러스터는 담당범위를 검색 , 발견된 웹은 페이지 랭킹
- 다수의 shard 클러스터로 분산처리 함에 따라...
새로운 웹 검색 절차
 도큐먼트 서버
- 도출 검색결과 -> 도큐먼트 서버로 전달
- 기본구조는 인덱스 서버와 동일
- 웹페이지의 내용이 복수 shard 로 분산 전달
- 도큐먼트 서버의 shard 의 웹페이지의 UR...
TThhaannkk yyoouu
Upcoming SlideShare
Loading in …5
×

구글의 공룡화

1,207 views

Published on

  • Login to see the comments

  • Be the first to like this

구글의 공룡화

  1. 1. DDaavviidd Chapter2 -Chapter2 - 구구글글의의 공공 룡룡화화 Google
  2. 2. ContentContent  인터넷을 ` 검색하는 거대 시스템  검색 클러스터
  3. 3. 인터넷을 검색하는인터넷을 검색하는 거대 시스템거대 시스템 Google
  4. 4. 값싼 PC 를 대량으로 이용 Scale-Up Scale-Out
  5. 5. 대량의 PC 를 어떻게 이용하는 거지 ? 하나의 시스템으로 연결 스위치스위치 PCPCPCPC PCPCPCPC PCPCPCPC PCPCPCPC 렉렉 클러스터클러스터 클러스터클러스터 클러스터클러스터 클러스터클러스터 클러스터클러스터 클러스터클러스터 데이터 센터데이터 센터 클러스터클러스터
  6. 6. 하나의 시스템으로 연결  렉 (Rack) - 시스템의 기본 , 2~4CPU, 2~4GB 메모리 , 1Gbps LAN  클러스터 - 서로 협조하여 하나의 기능 제공하는 컴퓨터 집합 ( 검색 클러스터 , 수집클러스터 , 테스트용 클러스터 )  데이터 센터 - 다수의 렉의 집합
  7. 7. 값싼 장비의 대량 이용시 문제점  하드웨어의 고장 - 저가의 하드웨어 , 하드웨어를 늘릴수록 고장 확률이 높다 . - 고장에 대한 장애에 대해 미리 대비해야 한다 .  고난도 분산처리 - 다수 머신의 동시 사용시 어려움 - 복수 머신 처리시에 성능의 저하 - 최대 확장구조 파악 , 병목현상 방지
  8. 8. CPU 와 HDD 의 알뜰한 활용  GFS 클러스터 - 다수의 머신을 이용하여 거대한 파일시스템 만들어냄 - 각 머신의 하드디스크 드라이브의 데이터를 네트워크를 이용 읽고 쓸 수 있게 하는 기술  Work Queue 클러스터 (CPU) - 머신의 부하를 감시 , 비교적 여유가 있는 머신에게 테스크 부여
  9. 9. 검색 엔진 개량  검색서버의 대규모화 검색 서버 Barrels Lexicon Docindex 확장한다
  10. 10. 검색 엔진 개량  검색 백엔드의 대규모화 단어 처리 구조 해석 확장성이 있는가 ? 리포지터리 병목현상 ? 확장한다 크롤러 크롤러 크롤러 병목현상 ?
  11. 11. 검색 엔진 개량  인덱스의 대규모화 - 인덱스 분할을 매번 고려하는 것이 번거로운 만큼 시스템이 자동적으로 분산처리를 할 수 있도록 범용 인덱스 시스템준비
  12. 12. 세계로 눈을 돌린세계로 눈을 돌린 검색 클러스터검색 클러스터 Google
  13. 13. 가까운 데이터 센터로 접속 DNSDNS http://www.google.com/ x. x. x. x Data CenterData Center Data CenterData Center Data CenterData Center
  14. 14. 다수의 서버로 부하를 분산  GWS (Google Web Server) - 검색요청을 한곳에 모으는 역할을 한다 . - 직접 검색 요청을 처리 하지 않으며 결과만 이용자에게 준다 .  인덱스 서버  도큐먼트 서버 검색클러스터 LB GWS 인덱스서버 GWS GWS 도큐먼트서버
  15. 15. 많은 인덱스를 한번에 검색 G W S LB index index index index shard LB index index index index shard LB index index index index shard
  16. 16. 새로운 웹 검색 절차 shard shard shard shard shard G W S 스펠링 체크 서버 광고 서버 검색어 검색어 검색어 요약 docID docID 인덱스 서버인덱스 서버 도큐먼트 서버도큐먼트 서버 11 11 22 ’’
  17. 17. 새로운 웹 검색 절차  인덱스 서버 - 인덱스 서버를 구성하는 모든 shard 클러스터 검색요구 - shard 클러스터는 담당범위를 검색 , 발견된 웹은 페이지 랭킹 - 다수의 shard 클러스터로 분산처리 함에 따라 이전 방식에 비해서 더 많은 수의 페이지 랭킹을 할 수 있다 . - 랭킹결과 , 상위선택된 웹페이지의 docID 와 점수가 GWS 로 반 환 - GWS 는 모든 shard 클러스터로부터 받은 검색 결과를 기다려 , 상위의 웹페이지를 최종 검색 결과로 채택 11
  18. 18. 새로운 웹 검색 절차  도큐먼트 서버 - 도출 검색결과 -> 도큐먼트 서버로 전달 - 기본구조는 인덱스 서버와 동일 - 웹페이지의 내용이 복수 shard 로 분산 전달 - 도큐먼트 서버의 shard 의 웹페이지의 URL, 제목 , 논문등 각종 텍스트를 이용해서 GWS 에서 보내진 docID 를 이용 웹페이지의 요약과 제목을 만든다 .  그 밖의 처리 - 스펠링 체크서버와의 통신을 통해 오타확인 , 다른 검색후보 제시 - 광고 서버를 이용해 검색어와 어울리는 광고를 찾아 광고한다 . 22 11 ’’
  19. 19. TThhaannkk yyoouu

×