• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
2 구글의 공룡화
 

2 구글의 공룡화

on

  • 721 views

 

Statistics

Views

Total Views
721
Views on SlideShare
682
Embed Views
39

Actions

Likes
0
Downloads
0
Comments
0

2 Embeds 39

http://wiki.rapidform.com 38
http://www.slideshare.net 1

Accessibility

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    2 구글의 공룡화 2 구글의 공룡화 Presentation Transcript

    • Created by Sky 2장 Google의 공룡화
    • 대규모화와 분산 System   Scale up :: Scale out  Google System의 규모  분산 System ▪ Rack ▪ Cluster ▪ Data Center  Scale out 방식의 문제점  CPU와 HDD의 효율적 사용  대규모 검색 Engine의 구축
    • Google의 분산 System과 검색 Cluster   전세계 network의 연결  Data Center의 분산  검색 Cluster  Index 분할 방식의 변경  Index의 분산 진화된 Google의 Web 검색 절차  Google의 기본적인 사상 
    • Scale Up Scale Out Vs
    • 9,000,000,000 검색 건수 8,000,000,000 페이지 수 7,000,000,000 6,000,000,000 5,000,000,000 4,000,000,000 3,000,000,000 2,000,000,000 1,000,000,000 0 1998 2001 2004 2007
    • Switch Cluster Cluster PC PC PC PC Cluster Cluster PC PC Cluster PC PC Data Center Rack Cluster
    • Rack이란..   분류, 선반, 틀 <초기 Google 에서 사용했던 Rack>
    • Cluster 란..   (포도·버찌·등꽃 등의) 송이(bunch)  밀집하다. 떼 짓다.  무리, 다발 종류   검색 Cluster  Data 수집 Cluster  Test용 Cluster
    • <이동형 Data Center> < Data Center>
    • Hardware의 고장   고장이 나더라도 전체 System 멈추지 않도록 함  여러 가지 장애들  Software적인 방법으로 해결 고난도 분산처리   다수의 machine을 동시에 사용  Scalability - 확장성  병목현상 <병목현상>
    • 다수의 machine -> 거대한 file system  GFS – Google File System   Machine들을 network로 연결하여 data를 잃고 쓰는 기술  주로 Hard Disk Drive Work Queue  CPU Work  각 machine의 부하를 감시하며 Queue CPU machine 별로 분산 수행 시키는 기술  주로 CPU GFS HDD Cluster 단위로 기능을 구현  < Cluster >
    • 검색 Server의 대규모화   이용자의 검색 요청이 분산  한 단어에 관한 정보가 한 곳에 집중 (wordID에 따른 분산) -> 병목현상 발생 검색 back-end의 대규모화   Crawler의 성능↑ -> Repository 저장되는 Data 양 ↑  URL Server에서 병목현상 발생 가능 Index의 대규모화 Search Engine  이 Int  Index의 분할 Back 용 er Search – 자 Index  대규모 Index net Server end
    • 분산 처리 system  자신의 위치와 가까운 Data Center와 연결  < 전 세계에 퍼져있는 Google의 data center>
    • GWS LB    Google Web Server  Load Balancer  검색요청을 한곳에 모음  부하가 가벼운 곳으로 일을 넘김 Search Cluster LB GWS GWS GWS Document Index Server Server
    • 검색 자체의 분산   Barrels –> Shard WordID –> DocID DocID DocID WordID WordID <Barrels> <Shard>
    • LB에 의해 부하를 분산  얼마든지 확장 가능한 구조  GWS Shard Shard Shard LB LB LB Index Index Index Index Index Index Index Index Index Index Index Index
    • Shard Index 검색 후 Cluster 이용자의 목록 반환 검색요청 분석 검 색 Index 요 Server LB GWS 청 Ranking GWS 결과 반영 Good 검색 Document GWS 결과 Server 정보생성 HTML로 정리
    • 높은 Software 신뢰성   Hardware의 고장에 유연한 대처 Hardware를 늘려서 부하를 분산   분산 System으로 병목현상 방지 비용 대비 고성능 Hardware 선택 