SlideShare a Scribd company logo
1 of 11
을

지탱하는 기술


      By constantine
1.구글의 탄생
Evolution of Google search engine

  1. 다른 search engine과의 차별성

    - 기존 engine의 컨셉인 보다 빠르고, 보다 많은 정보를 추구하기 보다

    정보의 유용한 검색결과를 위해


  2. Hardware expands
   - 전 세계 Web page를 수집



  3. Ranking function
   - word
   - page rank
   - anchor text
Structure of Google search engine



                   Search                 Back-
 user                            Index            internet
                   server                  end




  Search sever : 통신관리, 요청 해석하여 처리해야 할 내용 판단
              Index에서 필요한 정보찾기, 결과를 편집해 이용자에게 보냄

  Index : 주어진 data를 안전하게 저장, 요청받은 Data 찾아냄
         search engine의 DataBase 역할

  Back – end : Crawling, Index Creating
Back – end
Crawling

- 전 세계의 수많은 web server에서 web page를 수집해 오는 작업

- 초당 40page를 수집하기 위해선 동시에 수백 개의 download를 유지


 Crawler

- URL server가 각각의 Crawler를 지휘

- 각 Crawler를 지시에 따라 web page download

- Crawler는 완전히 독립적으로 작동함으로 수가 늘어날 수록 차리능력 향상
Back – end
 Index Creating

Web page 구조 해석
  - Doc Index
  - URL list


 단어 정보의 index
  - Lexicon : 단어를 wordID로 변환
  - Barrels: 단어 Index 생성
  - 역 Index 생성

 Link 정보의 Index
   - URLlist와 Links 이용 -> 웹 페이지 Link 정보를 Index 할 때
    그 페이지의 docID와 연관된 web page의 docID가 더해져
    Links에 기록
Search server
 검색의 흐름


   1. 이용자가 검색을 요청

   2. 검색어가 Lexicon에 의해 wordID로 변환

   3. wordID를 역 인덱스에서 검색하여 docID 리스트 가져옴

   4. docID에 랭킹 함수 적용, 점수가 높은 순으로 정렬

   5. 상위 docID 각각에 대해 web page 정보 추출

   6. 정보를 보기 쉽게 정리해서 결과를 이용자에게 보냄
2.구글의 거대화
인터넷을 검색하는 거대 시스템


구글 시스템의 향상

scale out : 하드웨어의 수를 늘림


분산 시스템의 구성

 RACK : 하나의 RACK에는 40~80대에 달하는 부품

 클러스터 : RACK을 하나의 단위로 여러 개 연결

 데이터 센터 : 다수의 클러스터가 한곳에 모여 있음
하드웨어 고장 및 고난도 분산 처리

- 실시간 점검 및 확장성 대비

CPU와 HDD를 알뜰하게 사용

- CPU : Work queue
- HDD : GFS queue


검색엔진을 개량

 - 검색 서버의 대규모화
 - 검색 백엔드의 대규모화
 - 인덱스의 대규모화
구글의 세계화

구글 검색시 가까운 데이터 센터로 접속


다수의 서버로 부하 분산


일정한 페이지별로 인덱스를 분할


많은 인덱스를 한번에 검색


새로운 웹 검색 절차

More Related Content

What's hot

구글
구글구글
구글zerk87
 
웹20시대의정보검색과전략(Keris)
웹20시대의정보검색과전략(Keris)웹20시대의정보검색과전략(Keris)
웹20시대의정보검색과전략(Keris)POSTECH Library
 
APIviz – Java API Visualizer
APIviz – Java API VisualizerAPIviz – Java API Visualizer
APIviz – Java API Visualizertrustinlee
 
متوازى المستطيلات بوربوينت
متوازى المستطيلات بوربوينتمتوازى المستطيلات بوربوينت
متوازى المستطيلات بوربوينتAliElkenb
 
Proyecto de Investigación: Open source
Proyecto de Investigación: Open sourceProyecto de Investigación: Open source
Proyecto de Investigación: Open sourceComunidadVirtual
 
Web技術勉強会 第18回
Web技術勉強会 第18回Web技術勉強会 第18回
Web技術勉強会 第18回龍一 田中
 
중간과제 벤치마킹 Sky
중간과제 벤치마킹 Sky중간과제 벤치마킹 Sky
중간과제 벤치마킹 Skyguestd79ea87
 
2021년 1월 16일 개발자 이야기
2021년 1월 16일 개발자 이야기2021년 1월 16일 개발자 이야기
2021년 1월 16일 개발자 이야기Jay Park
 
2021년 1월 9일 개발자 이야기
2021년 1월 9일 개발자 이야기2021년 1월 9일 개발자 이야기
2021년 1월 9일 개발자 이야기Jay Park
 
Head first relay & graphql
Head first relay & graphqlHead first relay & graphql
Head first relay & graphql승욱 김
 
Hse june 2018 takkal ceo instructions h2
Hse june 2018 takkal ceo instructions h2Hse june 2018 takkal ceo instructions h2
Hse june 2018 takkal ceo instructions h2Sevajothi Crafts
 
6 простых шагов
6 простых шагов6 простых шагов
6 простых шаговDariaLang
 
Tokai Ulib Conference(20070307)
Tokai Ulib Conference(20070307)Tokai Ulib Conference(20070307)
Tokai Ulib Conference(20070307)真 岡本
 

What's hot (19)

구글
구글구글
구글
 
웹20시대의정보검색과전략(Keris)
웹20시대의정보검색과전략(Keris)웹20시대의정보검색과전략(Keris)
웹20시대의정보검색과전략(Keris)
 
APIviz – Java API Visualizer
APIviz – Java API VisualizerAPIviz – Java API Visualizer
APIviz – Java API Visualizer
 
متوازى المستطيلات بوربوينت
متوازى المستطيلات بوربوينتمتوازى المستطيلات بوربوينت
متوازى المستطيلات بوربوينت
 
Ai basic
Ai basicAi basic
Ai basic
 
Proyecto de Investigación: Open source
Proyecto de Investigación: Open sourceProyecto de Investigación: Open source
Proyecto de Investigación: Open source
 
Web技術勉強会 第18回
Web技術勉強会 第18回Web技術勉強会 第18回
Web技術勉強会 第18回
 
중간과제 벤치마킹 Sky
중간과제 벤치마킹 Sky중간과제 벤치마킹 Sky
중간과제 벤치마킹 Sky
 
2021년 1월 16일 개발자 이야기
2021년 1월 16일 개발자 이야기2021년 1월 16일 개발자 이야기
2021년 1월 16일 개발자 이야기
 
Make 앱스: 앱스 제작 방식 및 API 안내
Make 앱스: 앱스 제작 방식 및 API 안내Make 앱스: 앱스 제작 방식 및 API 안내
Make 앱스: 앱스 제작 방식 및 API 안내
 
2021년 1월 9일 개발자 이야기
2021년 1월 9일 개발자 이야기2021년 1월 9일 개발자 이야기
2021년 1월 9일 개발자 이야기
 
6
66
6
 
6
66
6
 
Head first relay & graphql
Head first relay & graphqlHead first relay & graphql
Head first relay & graphql
 
Hse june 2018 takkal ceo instructions h2
Hse june 2018 takkal ceo instructions h2Hse june 2018 takkal ceo instructions h2
Hse june 2018 takkal ceo instructions h2
 
학술저작권과오픈억세스 V2
학술저작권과오픈억세스 V2학술저작권과오픈억세스 V2
학술저작권과오픈억세스 V2
 
Mashup Daum
Mashup DaumMashup Daum
Mashup Daum
 
6 простых шагов
6 простых шагов6 простых шагов
6 простых шагов
 
Tokai Ulib Conference(20070307)
Tokai Ulib Conference(20070307)Tokai Ulib Conference(20070307)
Tokai Ulib Conference(20070307)
 

More from ahnsunggon

레비스트로스의 관점에서 본 ‘괴물’ 11
레비스트로스의 관점에서 본 ‘괴물’  11레비스트로스의 관점에서 본 ‘괴물’  11
레비스트로스의 관점에서 본 ‘괴물’ 11ahnsunggon
 
아이폰 Swot
아이폰 Swot아이폰 Swot
아이폰 Swotahnsunggon
 
Social Networking Service
Social Networking ServiceSocial Networking Service
Social Networking Serviceahnsunggon
 
Web Planning Story 6 tool
Web Planning   Story 6 toolWeb Planning   Story 6 tool
Web Planning Story 6 toolahnsunggon
 
Web Planning Story 5 web writing
Web Planning   Story 5 web writingWeb Planning   Story 5 web writing
Web Planning Story 5 web writingahnsunggon
 
Web Planning Story 4 Shopping Reservation 고딕
Web Planning   Story 4 Shopping Reservation 고딕Web Planning   Story 4 Shopping Reservation 고딕
Web Planning Story 4 Shopping Reservation 고딕ahnsunggon
 
웹 벤치 마킹
웹  벤치 마킹웹  벤치 마킹
웹 벤치 마킹ahnsunggon
 
웹기획 Story 3 검색
웹기획   Story 3 검색웹기획   Story 3 검색
웹기획 Story 3 검색ahnsunggon
 

More from ahnsunggon (14)

레비스트로스의 관점에서 본 ‘괴물’ 11
레비스트로스의 관점에서 본 ‘괴물’  11레비스트로스의 관점에서 본 ‘괴물’  11
레비스트로스의 관점에서 본 ‘괴물’ 11
 
Social Web 4
Social Web 4Social Web 4
Social Web 4
 
Social Web 3
Social Web 3Social Web 3
Social Web 3
 
Social Web 2
Social Web 2Social Web 2
Social Web 2
 
Social Web 1
Social Web 1Social Web 1
Social Web 1
 
아이폰 Swot
아이폰 Swot아이폰 Swot
아이폰 Swot
 
Social Networking Service
Social Networking ServiceSocial Networking Service
Social Networking Service
 
Web Planning Story 6 tool
Web Planning   Story 6 toolWeb Planning   Story 6 tool
Web Planning Story 6 tool
 
Web Planning Story 5 web writing
Web Planning   Story 5 web writingWeb Planning   Story 5 web writing
Web Planning Story 5 web writing
 
Web Planning Story 4 Shopping Reservation 고딕
Web Planning   Story 4 Shopping Reservation 고딕Web Planning   Story 4 Shopping Reservation 고딕
Web Planning Story 4 Shopping Reservation 고딕
 
미코노미
미코노미미코노미
미코노미
 
웹 벤치 마킹
웹  벤치 마킹웹  벤치 마킹
웹 벤치 마킹
 
웹기획 Story 3 검색
웹기획   Story 3 검색웹기획   Story 3 검색
웹기획 Story 3 검색
 
Ppt12
Ppt12Ppt12
Ppt12
 

구글

  • 1. 을 지탱하는 기술 By constantine
  • 3. Evolution of Google search engine 1. 다른 search engine과의 차별성 - 기존 engine의 컨셉인 보다 빠르고, 보다 많은 정보를 추구하기 보다 정보의 유용한 검색결과를 위해 2. Hardware expands - 전 세계 Web page를 수집 3. Ranking function - word - page rank - anchor text
  • 4. Structure of Google search engine Search Back- user Index internet server end Search sever : 통신관리, 요청 해석하여 처리해야 할 내용 판단 Index에서 필요한 정보찾기, 결과를 편집해 이용자에게 보냄 Index : 주어진 data를 안전하게 저장, 요청받은 Data 찾아냄 search engine의 DataBase 역할 Back – end : Crawling, Index Creating
  • 5. Back – end Crawling - 전 세계의 수많은 web server에서 web page를 수집해 오는 작업 - 초당 40page를 수집하기 위해선 동시에 수백 개의 download를 유지 Crawler - URL server가 각각의 Crawler를 지휘 - 각 Crawler를 지시에 따라 web page download - Crawler는 완전히 독립적으로 작동함으로 수가 늘어날 수록 차리능력 향상
  • 6. Back – end Index Creating Web page 구조 해석 - Doc Index - URL list 단어 정보의 index - Lexicon : 단어를 wordID로 변환 - Barrels: 단어 Index 생성 - 역 Index 생성 Link 정보의 Index - URLlist와 Links 이용 -> 웹 페이지 Link 정보를 Index 할 때 그 페이지의 docID와 연관된 web page의 docID가 더해져 Links에 기록
  • 7. Search server 검색의 흐름 1. 이용자가 검색을 요청 2. 검색어가 Lexicon에 의해 wordID로 변환 3. wordID를 역 인덱스에서 검색하여 docID 리스트 가져옴 4. docID에 랭킹 함수 적용, 점수가 높은 순으로 정렬 5. 상위 docID 각각에 대해 web page 정보 추출 6. 정보를 보기 쉽게 정리해서 결과를 이용자에게 보냄
  • 9. 인터넷을 검색하는 거대 시스템 구글 시스템의 향상 scale out : 하드웨어의 수를 늘림 분산 시스템의 구성 RACK : 하나의 RACK에는 40~80대에 달하는 부품 클러스터 : RACK을 하나의 단위로 여러 개 연결 데이터 센터 : 다수의 클러스터가 한곳에 모여 있음
  • 10. 하드웨어 고장 및 고난도 분산 처리 - 실시간 점검 및 확장성 대비 CPU와 HDD를 알뜰하게 사용 - CPU : Work queue - HDD : GFS queue 검색엔진을 개량 - 검색 서버의 대규모화 - 검색 백엔드의 대규모화 - 인덱스의 대규모화
  • 11. 구글의 세계화 구글 검색시 가까운 데이터 센터로 접속 다수의 서버로 부하 분산 일정한 페이지별로 인덱스를 분할 많은 인덱스를 한번에 검색 새로운 웹 검색 절차