[Week2] 데이터 스크래핑

꿈꾸는 데이터 디자이너
Week2
Data

1.Crawling vs. Scraping
What’s different?
Data scraping

Crawling Scraping=
Data scraping
Data

Data
request
www.server.com/page2.html

Data
Rendering respond
<html>content</html>

규칙성이 있는 웹문서에서
규칙성을 찾아 스크래핑
Data scraping

웹의 특징을 잘 알고
구조화를 파악하는 연습 해보기
Data scraping

Web
크롤링을 배우기 전에 이해해야 하는 웹사이트의 특징
1. 웹사이트는 규칙으로 이뤄진 텍스트 파일이다

Web
2. 웹을 구성하는 언어의 종류
‘언어’
‘컴퓨터에서 일을 수행하는 프로그램을 작성하기 위해 사용하는 기호 체계’
= 컴퓨터가 알아듣는 인간의 말
초보자를 위한 용어 정리
HTML, CSS, JavaScript, Python 등 각 프로그래밍 언어는 고유의 문법과 작성체계를 가지고 있습니다.
한국어, 일본어, 영어 등 인간이 사용하는 언어가 각자의 문법과 체계를 가지고 있는 것과 같은 이치입니다.

Web
HTML
• 웹 콘텐츠의 구조화
• 콘텐츠의 의미 부여
=명사
CSS
•웹 콘텐츠의 시각적 표현
=형용사, 부사
JavaScript
•웹 콘텐츠의 동적 표현
=동사

Web
‘태그’
‘문서의 여러 요소를 정의하는 명령어’
초보자를 위한 용어 정리
태그는 HTML에서 사용하는 명령어입니다. 꺽쇠괄호 “<>”를 사용해 나타냅니다.
웹사이트의 모든 구조와 콘텐츠를 태그를 이용해 표기합니다.

2 Scraping의 이해
•Table
Data scraping
•List

Data scraping
대한민국 국회 국회의원 현황

Data Scraping의 원리
Data scraping

3.Scraping Tools
import.io
Data scraping
Outwit Hub
Google Spreedsheet

Data scraping
Outwit Hub
OutWitHub 는 웹페이지의 구성을 해체
또한 페이지에서 페이지로의 이동을 자동화한 검색이 가능하며
정보나 요소들을 체계화하여 사용가능하게 수집.
데이터를 찾아 추출(생성)하여 표로 만드는데 가장 효율적(속도, 단순)
Free / Paid version($34.90$)

Data scraping
•links
•Documents
•images
•contacts
해당 웹사이트의 모든 링크를 파악 및 스크래핑 가능
해당 웹사이트의 모든 이미지를 다운로드 할 수 있음
해당 웹사이트의 다큐먼트 (PDF, HWP, DOC, XLS 등) 를 다운로드 할 수 있음
해당 웹사이트의 연락처 정보를 다운로드 가능
PAGE

Data scraping
•tables
•guess
•lists
•scraped
<table> 태그로 구성된 웹 컨텐츠 스크래핑
<list> 태그로 구성된 웹 컨텐츠 스크래핑
Scrapers에 의해 사용자 정의로 스크래핑된 정보 보여줌
DATA
알고리즘 분석에 의하여 outwit Hub 자체에서 규칙성을 발견 및 보여줌

Data scraping
•Catch
•Empty
스크래핑한 결과물을 작업창으로 가져오기
작업창 컨텐츠 비우기
Menu
•Export
Excel, Json, Xml, CSV, SQL, HTML, TXT 등의 형식

Data scraping
•New
•Save
새로운 쿼리를 제작 (Description, Marker Before, After, Format)
제작한 쿼리 세팅을 저장 (저장해야만 Scrapered 에서 인식)
Scrapers
•Export
저장한 쿼리 조건을 외부 xml로 저장 (작업 공유 가능)

실습2 : Olleh TV live 편성표
Data scraping
tables

Data scraping
깔끔한 table 형태로 잘 정리되는 것을 볼 수 있음

•실습 : 서울 데이터 광장 데이터셋 목록 살펴보기 (table)
Data scraping

•실습 : timeticket.co.kr 목록 살펴보기 (Scrapers)
Data scraping

•source 보기를 통해 구조 파악해보기
Data scraping

•Scrapers로 구조를 이용한 쿼리 만들기
Data scraping

•Excel로 export
Data scraping

•Outwit Hub(scraper, automators)
http://www.youtube.com/watch?v=ffoXpBlHZpo
•Outwit Hub(facebook)
http://www.youtube.com/watch?v=lSljNW-7i9o
Data scraping
•Reference

4.Scraping Tools
Data scraping
import.io
Outwit Hub
Google Spreedsheet

=importHTML(“url”, “검색어”, 색인)
Data scraping
http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B2%BD%EC%A0%9C%EC%84%B1%EC%9E%A5%EB%A5%A0

“URL”
Data scraping
HTML 페이지에서 표(table) 또는 목록(list)에 있는 데이터 수집
“쿼리”
“색인”
검토할 페이지의 URL(프로토콜(예:http://)포함)입니다
원하는 데이터가 어떤 구조에 포함되었는지에 따라 “목록” 또는 “표”
HTML 소스에 정의된 표 또는 목록 중 반환되어야 하는 것을 확인하는 색인으로 1에서 시작합니다
목록 및 표의 색인은 별도로 관리되기 때문에, HTML 페이지에 두 가지 유형이 모두 존재할 경우 색인 1을 갖는 목록과 표가 모두 존
재할 수 있습니다.

=IMPORTXML
Data scraping
그 밖에 기능 =IMPORTRANGE
=IMPORTFEED
=IMPORTDATA

=IMPORTXML
Data scraping
=IMPORTRANGE
=IMPORTFEED
=IMPORTDATA
XML, HTML, CSV, TSV, RSS 및 Atom XML 피드를 포함한 다양한 구조화된 데이터로부터 데이터를 가져옵니다.
지정된 스프레드시트에서 셀 범위를 가져옵니다.
RSS 또는 Atom 피드를 가져옵니다.
csv(쉼표로 구분된 값) 또는 .tsv(탭으로 구분된 값) 형식으로 주어진 URL에서 데이터를 가져옵니다.

[Week2] 데이터 스크래핑

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to [Week2] 데이터 스크래핑

Similar to [Week2] 데이터 스크래핑 (20)

More from neuroassociates

More from neuroassociates (20)

[Week2] 데이터 스크래핑