웹수집(Web Crawling)

• 날짜 : 2018-01-24
• 검색엔진팀 / 왕인영(wangin6@gmail.com)

웹 수집기(Web Crawler, 웹스파이더, 웹로봇)
 웹으로부터 페이지를 자동으로 수집하는 소프트웨어
 색인과 탐색에 사용됨
데이터의 최신 상태 유지를 위해서 웹 크롤링을 함
:웹 크롤러는 방문한 사이트의 모든 페이지의 복사본 생성
생성된 페이지를 보다 빠른 검색을 위해서 인덱싱 함
대표적인 예시) 검색엔진

* 메타태그란 :
하이퍼텍스트 생성 언어 HTML 문서의 맨 위쪽에 위치하는 태그(tag)로
브라우저와 검색 엔진을 사용할 수 있도록 웹 문서의 정보를 포함함
즉, 메타태그는 웹 페이지의 요약

General Web Search
일반적인 검색엔진(e.g. NAVER, Google)
Vertical Crawling
특정 영역만을 다루는 검색엔진(e.g. Amazon, 뉴스 수집기)
Topical Crawling
특정 주제와 관련된 문서만을 다루는 focused crawlers(e.g. 여행 후기 수집기)
Web Characterization
웹 사이트들에 대한 통계 추출(효과적인 검색 엔진을 만들기 위한 사전 조사)
Mirroring
웹 사이트 복제(서버를 분산시켜 성능 향상)
Web Site Analysis
그 외에 여러 분석 작업(e.g. “broken links” 조사, Wikipedia 문서 분류)

- 대규모 검색엔진에 의해 이루어지는 형태
- 구글이나 네이버
웹의 특정 부분 집합에 중점을 둠
특정 사용자의 필요를 위한 내용을 제공할 수 있기 위함
General Web Search
일반적인 검색엔진
Vertical Crawling
특정 영역만을 다루는 검색엔진
가게 봇 스팸 봇

주어진 주제에 정합하는 페이지로 수집기를 제약시켜
필요 이상의 페이지를 수집하는 것을 피한다.
주제 관련 페이지를 주기적으로 수집하거나 ,
주문(on-demand) 방식 : 사용자 질의를 통해서 페이지를 모음
 웹 특성 평가를 위해서 사용됨.
 효과적인 웹 검색엔진을 구축하기 위한 전제 조건.
 특성 평가에서는 수집을 위한 시작 URL의 선택이 매우 결정.
Topical Crawling
특정 주제와 관련된 문서만을 다루는
focused crawlers
Web Characterization
웹 사이트들에 대한 통계 추출
(효과적인 검색 엔진을 만들기 위한 사전 조사)

웹 사이트의 일부나 전체를 보존하는 행위이다.
의도 : 서버의 부하를 분산하고 다른 네트워크의 사용자에게
빠른 접근을 제공하는 것.
웹 수집기는 웹 사이트를 분석하는 데 쓰일 수 있다.
링크 유효성 검사(link validation)
: 존재하지 않는 페이지에 대한 '끊어진 링크(broken link)'를 찾기 위해
페이지를 자동으로 스캔하는 것. E.g. Wikipedia 문서 분류
Mirroring
웹 사이트 복제(서버를 분산시켜 성능 향상)
Web Site Analysis
그 외에 여러 분석 작업
코드 유효성 검사(code validation)
: 각기 쓰여진 언어에 따라 페이지와 스타일 시트, 스크립트 등이 유효한지
확인하는 것.

 신선도(freshness) 최신의 문서가 중요
 품질(quality) 문서의 질이 주요
 용량(volume) 문서의 양이 중요

웹 페이지의 형태
• Private/Public: 사용자 인증의 유무
• Static/Dynamic: 서버가 동적으로 페이지를 생성하는가?
사적 웹 - 비밀번호로 보호되는 페이지. 인트라넷의 경우가 해당.
이런 페이지는 색인화되지 않고 수집기가 볼 수 없음.
공용 웹 – 웹 수집기가 색인으로 만들 수 있는 부분.
정적 페이지 - 웹에 존재하는 페이지.
동적 페이지 - '숨겨진 웹(hidden web)' , 웹 서버에 요청이 오기 전에는 존재하지 않는 페이지
e.g.회사 인트라넷
e.g.네이버블로그 e.g.검색 결과 페이지

• Scheduler: 프론티어(frontier)로도 알려져 있는 방문할 페이지들의 URL 큐 관리
• Downloader: 각 URL의 내용 검색해서 구문 분석 후 저장소 모듈로 보냄
• Storage: 문서 저장, indexing, metadata 제공

 Master(Frontier) : 서버역할, Agent가 수집한 URL을 전송받아 관리하고 필터링된 URL을 다시 Agent로 분배
 Slave(Agent) : Frontier로부터 URL을 전송받아 해당 URL의 웹페이지(HTML)를 처리. 다른 웹페이지에 대한 URL link와
이미지 등의 리소스 URL link를 추출하고 모든 URL 링크는 Frontier로 전송
 Monitor : Frontier와 Agent의 동작상태 모니터링 하고 제어기능을 포함
master/slave 모델
세가지 컴포넌트로 구성
: Master(Frontier), Slave(Agent), Monitor.
웹 크롤러의 기본 구성
**프론티어(frontier)에 대한 보충설명

<스케줄링과 저장소 세분화>
장기 스케줄링(Long-term Scheduler)
품질과 신선도 평가에 따라 다음 방문할 페이지를 결정.
시간 간격 : 몇 시간 혹은 며칠
단기 스케줄링(Short-term Scheduler)
공손도 정책 혹은 네트워크 사용 최적화에 따라 페이지를 재배정. 시간간격 : 몇 초나 몇 분
(서식 있는) 텍스트
※ 한 페이지를 가져온 뒤 일 정 시간을 기다림 (politeness policy)

12.4.2 수집기의 구현에서 나타나는 실직적 쟁점
 DNS(Domain Name System) 서버의 일시 장애
 많은 URL이 같은 문서를 가리킴
 Parsing Error: 많은 웹 페이지가 HTML 문법에 맞지 않음
 Soft-404 Pages: 서버들이 404 응답 코드를 보내지 않고 custom-built error page를 반환함
 Duplicates: 웹의 30%가 중복된 문서

DNS는 일시적 DNS 고장과 기형 또는 DNS 기록 오류 등으로 인해서 DNS 해석의 효율성 문제가 있다
DNS 캐싱 : 더 자주 해석되는 도메인 이름의 IP 주소를 저장.
DNS 해석(DNS Resolution)
URL 정규화(URL Canonization)
 DNS(Domain Name System) 서버의 일시 장애
 많은 URL이 같은 문서를 가리킴
*슁글링(shingling)
- 문서를 정해진 윈도우 사이즈의 슁글(shingle)로 표현하고, 이것을 이용하여 문서의 변경도를 측정.
- 0~1 사이의 값으로 표현.
문서를 정해진 크기의 토큰으로 자른 슁글을 이용하여 표현하고, 이것을 통하여 중복 문서를 찾아낸다.
• 웹은 동일한 내용을 가리키는 많은 양의 URL을 지니고 있음.
• 슁글링(shingling)을 통해 간단한 문법 규칙의 집합을 URL에
적용해서 중복 내려받기를 피할 수 있다.

-소프트(Soft)-404 페이지
 Soft-404 Pages: 서버들이 404 응답 코드를 보내지
않고 custom-built error page를 반환함
 Parsing Error: 많은 웹 페이지가 HTML 문법에 맞지
않음
- 구문 분석(Parsing)
• 많은 웹 페이지들이 HTML 언어의 사양을 충실히 지키지
않고 형편없는 코드로 작성되있음.
• 웹 브라우저는 잘못 코딩이 되어있더라도 HTML이 보이게
하도록 설계되어있기 때문.
• HTML 구문 분석할 때 코딩의 오류를 허용해야함.
** 구문 분석을 해야하는 이유 : 정보 추출
문제 해결 방안
• URL을 요청하고 제대로 된 응답 코드를 받게되면 그 때
검증
• 텍스트 분류기를 통해 이런 페이지가 표현하는 메시지
와 연관된 특정 구나 키워드를 학습하여 자동으로 인지

-중복(Duplicates)
 Duplicates: 웹의 30%가 중복된 문서
고의적/비고의적 복제
- 비고의적인 복제의 원인 : URL의 식별자
식별자는 세션을 탐지하기 위해 사용되는데 이 세션 아이디 때문에 한 사이트에서만 여러 사람의 세션값이
존재할 수 있어 무한한 수의 URL이 발견될 수 있다. 네트워크 자원이 낭비될 수 있음.

12.4.3 병렬 수집(Parallel Crawling)
확장성(scalability)과 장애 복구(fault tolerance)를 위해 multithreading과 분산 컴퓨팅이 필요
• 다중 스레드 사용하는 이유 :
수집기가 사용 가능한 대역폭이 일반적으로 개별 웹 사이트의 대역폭보다 훨씬 크기 때문.
-> 수집기가 각 개별 내려받기 스레드가 끝나기를 기다리기 전에 다음 페이지를 요청해야 함을 의미.
• 분산환경에서 수집기를 실행할 때 가장 중요한 것 :
동일 페이지를 중복해서 내려받는 것을 피해 웹 서버에 과부하를 주지 말아야 한다는 것.
통신 오버헤드를 최소화해야 한다는 것을 목표로함.

• 분산수집시스템
새로운 URL 발견할 때 어떤 프로세스가 주어진 URL을 내려받아야 하는지 결정해야함
–> 할당함수(assignment function)
한 웹 사이트 대부분의 링크가 동일 사이트의 페이지라는 것 알기 위해서 동일 호스트 페이지를
할당 함수가 한 프로세스에 할당해야함.
-> 해싱 함수 이용해서 호스트 이름을 프로세스 색인에 해당하는 번호로 전환
할당함수의 특성
균형 특성 (각 수집 프로세스는 같은 수의 호스트 가져야 함)
반-가변성 특성(수집 프로세스 수가 증가하면 각 프로세스에 할당된 호스트 수 줄여야 함)
수집 프로세스 동적으로 추가/제거 가능
-> 일관 해싱(consistent hashing) 사용.

웹서버의 갯수가 변동할 때 요청을 분산하는 방법
HashRing에 k 개의 노드가 있는 상황에서, 노드가 사라지거나 추가될 때 1/k 정도의
key에 대한 것만 유실이 되고 나머지 key는 변동 없이 그 위치에 존재한다는 것
같은 값으로 노드들이 만들어지면 그 순서도 항상 동일
* 일관된 해싱(Consistent hashing)
* 일반적인 해싱 방법 * Consistent Hashing의 작동 방식
cache machine은 구간을 정함.
그 구간에는 많은 Object의 해시값을 가지고 있음.
기존의 cache machine이 제거되면, 인접한 구간의 남아있는 cache machine이
제거된 구간을 맡게됨.

* 일관된 해싱(Consistent hashing)

웹은 동적이기 때문에 매일 많은 양의 페이지가 추가되고 바뀌고 제거된다.
웹 수집기는 항상 새로운 페이지를 업데이트하기를 원한다. 항상 새로운 페이지를 찾고자 하며
변화를 감지하기 위해서 방문했던 페이지들을 다시 방문해야 한다.

- 선택 정책 (질적으로 가장 좋은 페이지를 첫 번째로 방문하는 목적)
- 재방문 정책 (페이지가 변경될 때 색인을 수정하는 목적)
- 공손도 정책 (웹 사이트에 과부하가 걸리지 않게 하는 목적)
Crawler는 다음과 같은 trade-off 관계에 있는 목적들을 극대화하기 위해 scheduling을 잘 해야함
1. 웹 페이지를 재방문하여 변화를 감지해야한다.
2. 새로운 웹 페이지를 찾아낼 수 있어야 한다.
3. Network bandwidth를 효율적으로 사용해야한다. (쓸 모 없는 웹 페이지는 다운로드하지 않음)

12.5.1. 선택정책 (Selection Policy)
• Crawler는 다음에 방문할 페이지들을 신중히 선택해야함
• Selection policy는 쓸데 없는 페이지를 다운로드 하는데 network bandwidth를 낭비하는 것을 막아줌
• Selection policy는 다음과 같이 두 가지 타입으로 나뉜다
1. 오프라인제한(Off-line Limits): Crawling 시작 전에 최대 저장할 페이지 양을 제한함
2. 온라인 선택(On-line Selection): Crawling을 진행하며 어떤페이지를 먼저 방문할지 정하는 것

• 저장소 용량의 한계로 인해, crawling 시작 전에 최대 저장할 페이지들의 양을 정할 필요가 있다.
• 자주 사용되는 off-line limits:
‣ 웹 사이트 수의 제한
‣ 최대 링크 depth 제한 (링크를 몇 번까지 타고 들어갈지)
‣ 최대 저장 페이지 수 제한
‣ 웹 사이트 당 최대 저장 가능 페이지 수 혹은 용량 제한
‣ 저장 가능한 페이지의 타입 제한 (e.g. text/html만 저장하고 script는 저장 안함)
오프라인 제한(Off-line Limits)

Crawling을 진행하며 어떤페이지를 먼저 방문할지 정하는 것
웹 페이지들의 quality를 계산하여 우선 순위를 둔다.
• 전체 웹 페이지들을 모두 crawling 하기도 전에 quality를 평가하기는 어렵지만 다음과 같
은 다양한 방법들이 있다.
‣ 랜덤하게 방문
‣ Breath-first search(BFS): 일단 모든 웹 사이트에 방문
‣ 현재까지 가진 문서들로 PageRank
‣ PageRank와 비슷한 OPIC(On-line Page Importance Computation) 함수로 우선 순위 결정
• 결론적으로, 모든 연구마다 결과가 다르지만, OPIC은 성능이 항상 좋았음
온라인 선택(On-line Selection)

Breadth First Search(너비 우선 검색)
–QUEUE 구현 (FIFO :First In First Out)
–최단 경로를 따라 페이지를 찾음
–시작 페이지가 좋으면 더 빨리 찾을 수 있음
Depth First Search (깊이 우선 검색)
–STACK 구현 (LIFO : Last In First Out)
–Wander away (“lost in cyberspace”)

- 중점 수집(Focused Crawling)
Topic과 관련있는 페이지들만 URL queue에 추가함
• 이때 topical locality을 이용함
• Topical locality: 웹 페이지 간에 링크가 존재하면 같은
topic의 페이지일 확률이 높다
온라인 선택(On-line Selection)

• 변하는 페이지들을 감시하기 위한 정책
• 페이지들의 변화엔 다음과 같은 세 가지 event가 있다:
1. 생성(Creations) : 새로운 페이지의 생성
2. 갱신(Updates) : 기존 페이지의 변경
3. 삭제(Deletions) : 페이지의 삭제 (검색 엔진 성능에 가장 영향을 미침)
12.5.2. 재방문(revisit) 정책

변경된 페이지
내려 받음
서버 내 웹
페이지 변경

재방문 전략
• 일률정책(uniform policy): 모든 페이지를 같은 주기로 재방문
• 비례정책(proportional policy): 더 자주 바뀌는 페이지는 더 자주 재 방문
• 결과: 두 방법 모두 나쁨. 하지만 일률 정책이 최적화에 가까움. Freshness를 잘 추정해야 됨
푸아송 분포(Poisson distribution)
단위 시간 안에 어떤 사건이 몇 번 발생할 것인지
를 표현하는 이산 확률 분포
신선도 추정

• Crawling하고 있는 웹 서버에 예의를 지키는 정책
• 웹 서버에 과부하를 주지 않기 위해(차단 당하지 않기 위해) 적당한 속도로 crawling 하는 정책
• 웹 수집기의 운영을 위한 세 가지 기본 원칙
1. 로봇 인식(Robot Identification)
2. 로봇 배제 프로토콜(Robot Exclusion Protocol)
3. 대역폭 사용 통제
12.5.3. 공손도(Politeness) 정책

로봇인식(Robot Identification)
• HTTP 프로토콜에는 user-agent가 있는데 이곳에 crawler 의 정보를 적어야함:
crawler 이름, crawler에 대한 정보가 있는 사이트 주소, e-mail 등
• Bot들의 user-agent 예: Googlebot, Yeti(NAVER), Bingbot, daumoa(Daum), Baidu
대역폭 사용 통제(Controlling Bandwidth Usage)
웹서버 과부하를 피하기 위해서 연속적인 두 접속 사이에 수집기는 딜레이를 준다.
robots.txt에 페이지와 페이지 사이 딜레이를 얼마줄지 요구 할 수 있음.
• 예) 한 페이지를 다운로드 후, 45초를 기다린 다음에 다른 페이지를 받아가야함.
안그러면 차단 당할 수 있음.
로봇 배제 프로토콜(Robot Exclusion Protocol)
• 도메인 최상단에 robots.txt을 둬서 로봇들이 원하지 않는 페이지를 수집해가는걸 막음
• 메타-태그
• 지키지 않을시 법적 책임을 물을 수 있음
12.5.3. 공손도(Politeness) 정책

단기 스케줄링 평가
페이지 크기
수집 시간
각 페이지의 내려받는 속도가 다르고
두 페이지를 동시에 내려받을 수 없음(공손도 정책)
<최적의 단기 스케줄링> <실제 단기 스케줄링>
잃어버린
대역폭

장기 스케줄링 평가
전지적 전략(Omniscient)
이상적 전략. 어느 페이지가 순위가 높고 내려
받아야 하는지 알고 있음.
너비우선(breadth-first)
FIFO 큐에서 새로 발견된 URL 저장,
내려받을 URL 스케줄링
진입차수(in-degree)
이미 내려받은 웹의 부분에서 모든 집입 링크
더해서 다음 내려받을 페이지 선택

웹수집(Web Crawling)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 웹수집(Web Crawling)

Similar to 웹수집(Web Crawling) (20)

웹수집(Web Crawling)

Editor's Notes