14. Web
크롤링을 배우기 전에 이해해야 하는 웹사이트의 특징
2. 웹을 구성하는 언어의 종류
‘언어’
‘컴퓨터에서 일을 수행하는 프로그램을 작성하기 위해 사용하는 기호 체계’
= 컴퓨터가 알아듣는 인간의 말
초보자를 위한 용어 정리
HTML, CSS, JavaScript, Python 등 각 프로그래밍 언어는 고유의 문법과 작성체계를 가지고 있습니다.
한국어, 일본어, 영어 등 인간이 사용하는 언어가 각자의 문법과 체계를 가지고 있는 것과 같은 이치입니다.
15. Web
크롤링을 배우기 전에 이해해야 하는 웹사이트의 특징
2. 웹을 구성하는 언어의 종류
HTML
• 웹 콘텐츠의 구조화
• 콘텐츠의 의미 부여
=명사
CSS
•웹 콘텐츠의 시각적 표현
=형용사, 부사
JavaScript
•웹 콘텐츠의 동적 표현
=동사
16. Web
크롤링을 배우기 전에 이해해야 하는 웹사이트의 특징
2. 웹을 구성하는 언어의 종류
‘태그’
‘문서의 여러 요소를 정의하는 명령어’
초보자를 위한 용어 정리
태그는 HTML에서 사용하는 명령어입니다. 꺽쇠괄호 “<>”를 사용해 나타냅니다.
웹사이트의 모든 구조와 콘텐츠를 태그를 이용해 표기합니다.
29. Data scraping
Outwit Hub
OutWitHub 는 웹페이지의 구성을 해체
또한 페이지에서 페이지로의 이동을 자동화한 검색이 가능하며
정보나 요소들을 체계화하여 사용가능하게 수집.
데이터를 찾아 추출(생성)하여 표로 만드는데 가장 효율적(속도, 단순)
Free / Paid version($34.90$)
35. Data scraping
•New
•Save
새로운 쿼리를 제작 (Description, Marker Before, After, Format)
제작한 쿼리 세팅을 저장 (저장해야만 Scrapered 에서 인식)
Scrapers
•Export
저장한 쿼리 조건을 외부 xml로 저장 (작업 공유 가능)
46. =importHTML(“url”, “검색어”, 색인)
Data scraping
http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B2%BD%EC%A0%9C%EC%84%B1%EC%9E%A5%EB%A5%A0
47. =importHTML(“url”, “검색어”, 색인)
Data scraping
http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EA%B2%BD%EC%A0%9C%EC%84%B1%EC%9E%A5%EB%A5%A0
48. “URL”
Data scraping
HTML 페이지에서 표(table) 또는 목록(list)에 있는 데이터 수집
“쿼리”
“색인”
검토할 페이지의 URL(프로토콜(예:http://)포함)입니다
원하는 데이터가 어떤 구조에 포함되었는지에 따라 “목록” 또는 “표”
HTML 소스에 정의된 표 또는 목록 중 반환되어야 하는 것을 확인하는 색인으로 1에서 시작합니다
목록 및 표의 색인은 별도로 관리되기 때문에, HTML 페이지에 두 가지 유형이 모두 존재할 경우 색인 1을 갖는 목록과 표가 모두 존
재할 수 있습니다.