Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[Week2] 데이터 스크래핑

6,587 views

Published on

꿈꾸는 데이터 디자이너 week2
데이터 스크래핑(크롤링), How to Data Scraping?
Outwit Hub & Google Spreadsheet

https://www.facebook.com/datadesigner2015

Published in: Data & Analytics
  • Be the first to comment

[Week2] 데이터 스크래핑

  1. 1. 꿈꾸는 데이터 디자이너 Week2 Data
  2. 2. Data scraping
  3. 3. 1.Crawling vs. Scraping What’s different? Data scraping
  4. 4. Crawling Scraping= Data scraping Data
  5. 5. Data request www.server.com/page2.html
  6. 6. Data Rendering respond <html>content</html>
  7. 7. Data Chart.html
  8. 8. Data
  9. 9. Data 1.How to Scrap?
  10. 10. 규칙성이 있는 웹문서에서 규칙성을 찾아 스크래핑 Data scraping
  11. 11. 웹의 특징을 잘 알고 구조화를 파악하는 연습 해보기 Data scraping
  12. 12. Web 크롤링을 배우기 전에 이해해야 하는 웹사이트의 특징 1. 웹사이트는 규칙으로 이뤄진 텍스트 파일이다
  13. 13. Web 크롤링을 배우기 전에 이해해야 하는 웹사이트의 특징 1. 웹사이트는 규칙으로 이뤄진 텍스트 파일이다
  14. 14. Web 크롤링을 배우기 전에 이해해야 하는 웹사이트의 특징 2. 웹을 구성하는 언어의 종류 ‘언어’ ‘컴퓨터에서 일을 수행하는 프로그램을 작성하기 위해 사용하는 기호 체계’ = 컴퓨터가 알아듣는 인간의 말 초보자를 위한 용어 정리 HTML, CSS, JavaScript, Python 등 각 프로그래밍 언어는 고유의 문법과 작성체계를 가지고 있습니다. 한국어, 일본어, 영어 등 인간이 사용하는 언어가 각자의 문법과 체계를 가지고 있는 것과 같은 이치입니다.
  15. 15. Web 크롤링을 배우기 전에 이해해야 하는 웹사이트의 특징 2. 웹을 구성하는 언어의 종류 HTML • 웹 콘텐츠의 구조화 • 콘텐츠의 의미 부여 =명사 CSS •웹 콘텐츠의 시각적 표현 =형용사, 부사 JavaScript •웹 콘텐츠의 동적 표현 =동사
  16. 16. Web 크롤링을 배우기 전에 이해해야 하는 웹사이트의 특징 2. 웹을 구성하는 언어의 종류 ‘태그’ ‘문서의 여러 요소를 정의하는 명령어’ 초보자를 위한 용어 정리 태그는 HTML에서 사용하는 명령어입니다. 꺽쇠괄호 “<>”를 사용해 나타냅니다. 웹사이트의 모든 구조와 콘텐츠를 태그를 이용해 표기합니다.
  17. 17. 2 Scraping의 이해 •Table Data scraping •List
  18. 18. Data scraping 대한민국 국회 국회의원 현황
  19. 19. Data Scraping의 원리 Data scraping
  20. 20. Data scraping
  21. 21. Data scraping
  22. 22. 2 Scraping의 이해 •Table Data scraping •List
  23. 23. Data scraping
  24. 24. Data scraping
  25. 25. Data scraping
  26. 26. Data scraping
  27. 27. 3.Scraping Tools import.io Data scraping Outwit Hub Google Spreedsheet
  28. 28. Data scraping Outwit Hub OutWitHub 는 웹페이지의 구성을 해체 또한 페이지에서 페이지로의 이동을 자동화한 검색이 가능하며 정보나 요소들을 체계화하여 사용가능하게 수집. 데이터를 찾아 추출(생성)하여 표로 만드는데 가장 효율적(속도, 단순) Free / Paid version($34.90$)
  29. 29. Data scraping Outwit Hub
  30. 30. Data scraping
  31. 31. Data scraping •links •Documents •images •contacts 해당 웹사이트의 모든 링크를 파악 및 스크래핑 가능 해당 웹사이트의 모든 이미지를 다운로드 할 수 있음 해당 웹사이트의 다큐먼트 (PDF, HWP, DOC, XLS 등) 를 다운로드 할 수 있음 해당 웹사이트의 연락처 정보를 다운로드 가능 PAGE
  32. 32. Data scraping •tables •guess •lists •scraped <table> 태그로 구성된 웹 컨텐츠 스크래핑 <list> 태그로 구성된 웹 컨텐츠 스크래핑 Scrapers에 의해 사용자 정의로 스크래핑된 정보 보여줌 DATA 알고리즘 분석에 의하여 outwit Hub 자체에서 규칙성을 발견 및 보여줌
  33. 33. Data scraping •Catch •Empty 스크래핑한 결과물을 작업창으로 가져오기 작업창 컨텐츠 비우기 Menu •Export Excel, Json, Xml, CSV, SQL, HTML, TXT 등의 형식
  34. 34. Data scraping •New •Save 새로운 쿼리를 제작 (Description, Marker Before, After, Format) 제작한 쿼리 세팅을 저장 (저장해야만 Scrapered 에서 인식) Scrapers •Export 저장한 쿼리 조건을 외부 xml로 저장 (작업 공유 가능)
  35. 35. 실습2 : Olleh TV live 편성표 Data scraping tables
  36. 36. 실습2 : Olleh TV live 편성표 Data scraping tables
  37. 37. Data scraping 깔끔한 table 형태로 잘 정리되는 것을 볼 수 있음
  38. 38. •실습 : 서울 데이터 광장 데이터셋 목록 살펴보기 (table) Data scraping
  39. 39. •실습 : timeticket.co.kr 목록 살펴보기 (Scrapers) Data scraping
  40. 40. •source 보기를 통해 구조 파악해보기 Data scraping
  41. 41. •Scrapers로 구조를 이용한 쿼리 만들기 Data scraping
  42. 42. •Excel로 export Data scraping
  43. 43. •Outwit Hub(scraper, automators) http://www.youtube.com/watch?v=ffoXpBlHZpo •Outwit Hub(facebook) http://www.youtube.com/watch?v=lSljNW-7i9o Data scraping •Reference
  44. 44. 4.Scraping Tools Data scraping import.io Outwit Hub Google Spreedsheet
  45. 45. =importHTML(“url”, “검색어”, 색인) Data scraping http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B2%BD%EC%A0%9C%EC%84%B1%EC%9E%A5%EB%A5%A0
  46. 46. =importHTML(“url”, “검색어”, 색인) Data scraping http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B2%BD%EC%A0%9C%EC%84%B1%EC%9E%A5%EB%A5%A0
  47. 47. “URL” Data scraping HTML 페이지에서 표(table) 또는 목록(list)에 있는 데이터 수집 “쿼리” “색인” 검토할 페이지의 URL(프로토콜(예:http://)포함)입니다 원하는 데이터가 어떤 구조에 포함되었는지에 따라 “목록” 또는 “표” HTML 소스에 정의된 표 또는 목록 중 반환되어야 하는 것을 확인하는 색인으로 1에서 시작합니다 목록 및 표의 색인은 별도로 관리되기 때문에, HTML 페이지에 두 가지 유형이 모두 존재할 경우 색인 1을 갖는 목록과 표가 모두 존 재할 수 있습니다.
  48. 48. =IMPORTXML Data scraping 그 밖에 기능 =IMPORTRANGE =IMPORTFEED =IMPORTDATA
  49. 49. =IMPORTXML Data scraping =IMPORTRANGE =IMPORTFEED =IMPORTDATA XML, HTML, CSV, TSV, RSS 및 Atom XML 피드를 포함한 다양한 구조화된 데이터로부터 데이터를 가져옵니다. 지정된 스프레드시트에서 셀 범위를 가져옵니다. RSS 또는 Atom 피드를 가져옵니다. csv(쉼표로 구분된 값) 또는 .tsv(탭으로 구분된 값) 형식으로 주어진 URL에서 데이터를 가져옵니다.
  50. 50. Data scraping

×