3. Evolution of Google search engine
1. 다른 search engine과의 차별성
- 기존 engine의 컨셉인 보다 빠르고, 보다 많은 정보를 추구하기 보다
정보의 유용한 검색결과를 위해
2. Hardware expands
- 전 세계 Web page를 수집
3. Ranking function
- word
- page rank
- anchor text
4. Structure of Google search engine
Search Back-
user Index internet
server end
Search sever : 통신관리, 요청 해석하여 처리해야 할 내용 판단
Index에서 필요한 정보찾기, 결과를 편집해 이용자에게 보냄
Index : 주어진 data를 안전하게 저장, 요청받은 Data 찾아냄
search engine의 DataBase 역할
Back – end : Crawling, Index Creating
5. Back – end
Crawling
- 전 세계의 수많은 web server에서 web page를 수집해 오는 작업
- 초당 40page를 수집하기 위해선 동시에 수백 개의 download를 유지
Crawler
- URL server가 각각의 Crawler를 지휘
- 각 Crawler를 지시에 따라 web page download
- Crawler는 완전히 독립적으로 작동함으로 수가 늘어날 수록 차리능력 향상
6. Back – end
Index Creating
Web page 구조 해석
- Doc Index
- URL list
단어 정보의 index
- Lexicon : 단어를 wordID로 변환
- Barrels: 단어 Index 생성
- 역 Index 생성
Link 정보의 Index
- URLlist와 Links 이용 -> 웹 페이지 Link 정보를 Index 할 때
그 페이지의 docID와 연관된 web page의 docID가 더해져
Links에 기록
7. Search server
검색의 흐름
1. 이용자가 검색을 요청
2. 검색어가 Lexicon에 의해 wordID로 변환
3. wordID를 역 인덱스에서 검색하여 docID 리스트 가져옴
4. docID에 랭킹 함수 적용, 점수가 높은 순으로 정렬
5. 상위 docID 각각에 대해 web page 정보 추출
6. 정보를 보기 쉽게 정리해서 결과를 이용자에게 보냄
9. 인터넷을 검색하는 거대 시스템
구글 시스템의 향상
scale out : 하드웨어의 수를 늘림
분산 시스템의 구성
RACK : 하나의 RACK에는 40~80대에 달하는 부품
클러스터 : RACK을 하나의 단위로 여러 개 연결
데이터 센터 : 다수의 클러스터가 한곳에 모여 있음
10. 하드웨어 고장 및 고난도 분산 처리
- 실시간 점검 및 확장성 대비
CPU와 HDD를 알뜰하게 사용
- CPU : Work queue
- HDD : GFS queue
검색엔진을 개량
- 검색 서버의 대규모화
- 검색 백엔드의 대규모화
- 인덱스의 대규모화
11. 구글의 세계화
구글 검색시 가까운 데이터 센터로 접속
다수의 서버로 부하 분산
일정한 페이지별로 인덱스를 분할
많은 인덱스를 한번에 검색
새로운 웹 검색 절차