Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

6장 지능형 웹 크롤링

15,608 views

Published on

  • Download or read that Ebooks here ... ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... Download Doc Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

6장 지능형 웹 크롤링

  1. 1. 6장 지능형 웹 크롤링 김찬일
  2. 2. 페이스북으로 색인 된 페이지
  3. 3. 목차• 6.1 웹 크롤링 개요• 6.2 지능형 크롤러의 단계적 구현• 6.3 너치를 사용한 대용량 크롤링
  4. 4. 6.1 웹 크롤링 개요6.1.1 왜 웹을 수집할까• 컨텐츠 수집과 외부 컨텐츠 색인• 특정 정보를 검색• 이벤트 생성• 깨진 링크• 저작권 위반 검색
  5. 5. 도식화 된 크롤링 프로세스 (p 197)
  6. 6. 6.1.2 크롤링 프로세스1. 시드 URL : 크롤링이 시작되는 사이트 목록2. 크롤링 종료 조건 확인 : ex) 크롤링 한 페이지 개수, 수행 시간, 조건에 맞는 모든 URL 방문3. 방문 할 다음 URL 획득 : robots.txt에 기록된 Disallow List를 참고하여 URL 큐에서 Dequeue4. URL 컨텐츠 열기 : HTML을 파싱5. (Optional) 관련된 컨텐츠인지 확인 : 지능형 크롤러에 사용. 일반적인 크롤러의 경우 항상 참 을 리턴6. 컨텐츠 저장 : 관련된 컨텐츠라면 (필요한 부분을) 로컬에 저장7. URL 추출 : Parse된 HTML에서 방문한 적이 없는 URL을 큐에 저장8. 의도적인 지연
  7. 7. 6.1.3 지능형 크롤링과 집중 크롤링• 배경 - 웹 전체를 크롤링 하려는 시도는 검색 엔진을 만들기 위한 색인 생성을 만드는 목적 이외에 무 의미한 일이 될 수 있고, 비용 대비 효율이 좋지 않다. 따라서 특정 도메인이나 주제에 한정된 정보를 모으는 방법이 필요해졌다.• 근본 개념 - 관심 영역과 관련된 페이지일수록 그와 관련된 링크를 더 많이 가지고 있을 확률이 높다 는 가정• 구현 방법 - 앞에서 언급했던 관련된 컨텐츠인지 확인하는 단계에서 지금 받아온 페이지의 관심 영역 과의 유사도를 계산하는 분류기라는 모델을 만들어, 큐에 링크 주소와 함께 앞에서 보았던 유사도 알 고리즘을 사용하여 주제와의 유사도를 같이 넣고, 새로운 URL을 받아오는 단계에서 우선 순위가 가 장 높은(유사도가 가장 높은 페이지에서 나온 URL)을 우선으로 하여 방문한다.• 결과 - 크롤러의 효율성을 평가하는 데 일반적으로 사용되는 기준은 수집된 전체 컨텐츠 중 관심 주 제와 관련된 컨텐츠의 비율인 수집 효율인데, 관심 영역과 관련된 페이지가 링크하는 주소는 그와 관 련된 내용을 가지고 있을 확률이 높다는 점에서 수집 효율을 높일 수 있다.• 유의사항 - 시드 URL로 경험에 의해 관심 영역에 가장 부합하는 페이지를 넣음으로써 수집 효율을 높일 수 있다.
  8. 8. 6.1.4 딥 크롤링• 딥 크롤링은 페이지의 링크를 따라서는 갈 수 없는 페이지를 의미하는 데, 주로 AJAX를 사용하는 사 이트처럼 크롤러가 사이트를 자유롭게 돌아다닐 수 없을 때 주로 사이트맵 프로토콜을 이용하여 크 롤링 하는 방법이다.• 사이트맵은 웹 크롤러가 수집할 수 있는 URL을 알려주는 XML 문서이다.• 사이트맵 활용을 통해 검색 엔진 최적화를 하여 웹 페이지가 구글 검색 엔진의 상위에 위치할 수 있 다.
  9. 9. 1.continueCrawling(): 크롤링 종료 조건 확인한다.2.getNextUrl(): 다음에 방문할 URL을 받는다.3.getContent(url): URL의 컨텐츠를 확인한다.4.isContentRelevant(content, this.regexpSearchPattern): 다운 받은 컨텐츠가 관심있는 컨텐츠인지 확인한다.5.saveContent(content, url): 컨텐츠를 저장한다.6.extractURL(content, url): 컨텐츠를 파싱해서 URL을 추출한다.7.addUrlsToUrlQueue(url, urlStrings): 추출된 URL을 큐에 넣는다.8.Thread.sleep(this.delayBetweenUrls): 지연
  10. 10. # Notice: if you would like to crawl User-agent: naverbot Disallow: /p.php Facebook you can Disallow: /ac.php Disallow: /photo.php# contact us here: http:// Disallow: /ae.php Disallow: /photo_comments.phpwww.facebook.com/apps/ Disallow: /album.php Disallow: /photo_search.phpsite_scraping_tos.php Disallow: /ap.php Disallow: /photos.php# to apply for white listing. Our general Disallow: /autologin.phpterms are available Disallow: /checkpoint/ User-agent: Yandex# at http://www.facebook.com/apps/ Disallow: /feeds/ Disallow: /ac.phpsite_scraping_tos_terms.php Disallow: /l.php Disallow: /ae.php Disallow: /o.php Disallow: /album.phpUser-agent: baiduspider Disallow: /p.php Disallow: /ap.phpDisallow: /ac.php Disallow: /photo.php Disallow: /autologin.phpDisallow: /ae.php Disallow: /photo_comments.php Disallow: /checkpoint/Disallow: /album.php Disallow: /photo_search.php Disallow: /feeds/Disallow: /ap.php Disallow: /photos.php Disallow: /l.phpDisallow: /autologin.php Disallow: /o.phpDisallow: /checkpoint/ User-agent: seznambot Disallow: /p.phpDisallow: /feeds/ Disallow: /ac.php Disallow: /photo.phpDisallow: /l.php Disallow: /ae.php Disallow: /photo_comments.phpDisallow: /o.php Disallow: /album.php Disallow: /photo_search.phpDisallow: /p.php Disallow: /ap.php Disallow: /photos.phpDisallow: /photo.php Disallow: /autologin.phpDisallow: /photo_comments.php Disallow: /checkpoint/ User-agent: *Disallow: /photo_search.php Disallow: /feeds/ Disallow: /Disallow: /photos.php Disallow: /l.php Disallow: /o.php # E-mail sitemaps@lists.facebook.com ifUser-agent: Googlebot Disallow: /p.php you are authorized to access these and areDisallow: /ac.php Disallow: /photo.php getting denied.Disallow: /ae.php Disallow: /photo_comments.php Sitemap: http://www.facebook.com/Disallow: /album.php Disallow: /photo_search.php sitemap.phpDisallow: /ap.php Disallow: /photos.phpDisallow: /autologin.phpDisallow: /checkpoint/ User-agent: SlurpDisallow: /feeds/ Disallow: /ac.phpDisallow: /l.php Disallow: /ae.phpDisallow: /o.php Disallow: /album.phpDisallow: /p.php Disallow: /ap.phpDisallow: /photo.php Disallow: /autologin.phpDisallow: /photo_comments.php Disallow: /checkpoint/Disallow: /photo_search.php Disallow: /feeds/Disallow: /photos.php Disallow: /l.php Facebook.com/ Disallow: /o.phpUser-agent: msnbot Disallow: /p.phpDisallow: /ac.php Disallow: /photo.phpDisallow: /ae.php Disallow: /photo_comments.phpDisallow: /album.phpDisallow: /ap.phpDisallow: /autologin.phpDisallow: /checkpoint/ Disallow: /photo_search.php Disallow: /photos.php User-agent: teoma robots.txtDisallow: /feeds/ Disallow: /ac.phpDisallow: /l.php Disallow: /ae.phpDisallow: /o.php Disallow: /album.phpDisallow: /p.php Disallow: /ap.phpDisallow: /photo.php Disallow: /autologin.phpDisallow: /photo_comments.php Disallow: /checkpoint/Disallow: /photo_search.php Disallow: /feeds/Disallow: /photos.php Disallow: /l.php Disallow: /o.php
  11. 11. URL 추출• 하이퍼 링크 URL은 두 종류이다. • 절대 경로 URL - /<a hrefs*=s*”http://(.)*”/ 의 regexp로 코드 상에서 절대 경로 URL 추출할 수 있다. 즉, <a href = “http://somethig.com/robots.txt” ... 에서 somethig.com/robots.txt를 추출한다. • 상대 경로 URL - /<a hrefs*=s*”(.)*”/ 의 regexp로 코드 상에서 상대 경로 URL을 추 출할 수 있다. 이 경우 현재 URL과 상대 경로 URL을 더하는 방법으로 절대 경로 URL을 구할 수 있다.
  12. 12. 결론• 웹 크롤러는 문서에 있는 하이퍼링크를 따라가는 과정을 통해 사이트 컨텐츠를 수집하는 프로 그램이다. 하지만 전체 웹을 크롤링 하려면 장비와 저장 장치 그리고 고속 네트워크 등 비용이 너무 크고, 전체 컨텐츠에 비해 필요한 정보가 너무 적게 되는 문제가 있다. 따라서 지능형 크 롤러를 활용하여 크롤링 URL중 우선 순위가 더 높은 페이지를 먼저 크롤링하여 관심있는 정 보를 수집하는 데 도움이 될 수 있다.
  13. 13. 사용 가능한 크롤러• 너치 - 대용량 크롤러 자바 기반• Mechanize - 루비 기반의 간단한 크롤러

×