Google요약

““Google”Google” 요약요약
Rogan

listlist
 검색 엔진의 진화
 검색 엔진 구조
 시스템 향상 방법
 검색 클러스터

1. 검색 엔진의 진화
 이용자의 편의성
- 대중화 중요
 Hardware 의 확장
 Page Ranking
- 각 웹 페이지는 점수를 갖고 있음 .
- 다른 페이지 링크로 점수를 나눠줌 .

2. 검색 엔진 구조
User InternetSearch
Server
Search
Back-endIndex
SearchSearch
EngineEngine

2. 검색 엔진 구조
 Crawling
- 웹 페이지 정보 수집 .
 Index Creation
- Word ID 를 수치로 변환
- 링크 정보 인덱스 (urlist, links 이용 )
- 주어진 Data 안전하게 저장 .
 Search ServerSearch Server
- 스피드가 중요
- 3 단계 랭킹 시스템

3. 시스템 향상 방법
 Scale-Up ( 좋은 성능의 CPU)
- 장점 : 시스템의 단순화 , 소프트웨어 불 변경
하드웨어 교체만으로 성능향상 가능
- 단점 : 고가의 고성능 하드웨어 사용해야 함
 Scale-Out ( 수적으로 극복 )
- 장점 : 필요에 맞게 장비 수 증가 , 비용억제 가능
- 단점 : 설계초기 복수하드웨어 상정 소프트웨어개발
설계가 잘못되면 성능이 개선되지 않음

 하나의 시스템으로 연결
1. 렉 (Rack)
- 시스템의 기본 , 40~80 대의 PC 부품 , 2~4CPU,
2~4GB 메모리 , 1Gbps LAN
2. 클러스터
- 렉 을 하나의 단위로 여러 개 연결하면 클러스터
- 서로 협조하여 하나의 기능 제공하는 컴퓨터 집합
( 검색 클러스터 , 수집클러스터 , 테스트용 클러스터 )
3. 데이터 센터
- 다수의 렉 의 집합
- 하나의 데이터 센터에는 하나 또는 복수 클러스터 존재

 CPU 와 HDD 의 알뜰한 활용
1. GFS (HDD)
- 다수의 머신을 이용하여 거대한 파일시스템 만들어냄
- 각 머신의 하드디스크 드라이브의 데이터를 네트워크를 이용
읽고 쓸 수 있게 하는 기술
2. Work Queue (CPU)
- 머신의 부하를 감시 , 비교적 여유가 있는 머신에 테스크 부여

 검색 엔진 개량
1. 검색서버의 대규모화
2. 검색 백엔드의 대규모화
3. 인덱스의 대규모화

4. 검색 클러스터
 다수의 서버로 부하를 분산
 GWS (Google Web Server) ?
- 검색요청을 한곳에 모으는 역할을 한다 .
- 직접 검색 요청을 처리 하지 않으며 결과만 이용자에게 준다 .
검색클러스터 LB
GWS
인덱스서버
GWS GWS
도큐먼트서버

 새로운 웹 검색 절차
1. 인덱스 서버
- 인덱스 서버를 구성하는 모든 shard 클러스터 검색요구
- shard 클러스터는 담당범위를 검색 , 발견된 웹은 페이지 랭킹
- 다수의 shard 클러스터로 분산처리 함에 따라 이전 방식에
비해서 더 많은 수의 페이지 랭킹을 할 수 있다 .
- 랭킹결과 , 상위 선택된 웹 페이지의 docID 와 점수가 GWS 로
반환
- GWS 는 모든 shard 클러스터로부터 받은 검색 결과를 기다려 ,
상위의 웹 페이지를 최종 검색 결과로 채택

2. 도큐먼트 서버
- 도출 검색결과 -> 도큐먼트 서버로 전달
- 기본구조는 인덱스 서버와 동일
- 웹 페이지의 내용이 복수 shard 로 분산 전달
- 도큐먼트 서버의 shard 의 웹 페이지의 URL, 제목 , 논문 등
각종 텍스트를 이용해서 GWS 에서 보내진 docID 를 이용
웹 페이지의 요약과 제목을 만든다 .
3. 그 밖의 처리
- 스펠링 체크서버와의 통신하여 오타확인 , 다른 검색후보 제시
- 광고 서버를 이용해 검색어와 어울리는 광고를 찾아 광고한다 .

Google요약

More Related Content

What's hot

Similar to Google요약

More from junhozzang

Google요약