Selenium basics for crawling web data with Python

Crawling
Python
Selenium
Sylvy

목차
• Crawling 소개
• Python 소개
• Selenium 소개
• 예제

Crawling
• 정의
• 의의
• 주의
• 웹페이지를 그대로 긁어와 필요한 데이터를 정형하는 행위
• 혹은 검색엔진들의 인덱싱 목적으로 활용
• 자동화를 통한 시간+인력 절약
• 무분별한 상업적 이용 자제
• 대상 서버에 부담 최소화
• Robots.txt 확인(의무X, 가급적 지킬 것)

Python
• 특징
• 활용분야
• 문법이 쉽고 간단
• 다양한 분야에서 활용 => 다양한 라이브러리
• 크롤링, 데이터분석, 인공지능, 웹서버(Django/Flask)

Selenium
• 정의
• 장점
• 단점
• 웹 어플리케이션 테스트를 위한 포터블 프레임워크
• JavaScript가 동적으로 만든 데이터를 크롤링
• 대상 사이트의 다양한 HTML 요소들에 클릭/키보드 입력 등의
이벤트를 줄 수 있음
• 브라우저를 직접 동작시켜(ex.ChromeDriver) 실제 사용자
동작을 직접 시뮬레이션=>컴퓨터 사양에 따라 동작시간이
다름
• 브라우저를 직접 켜서 작동=>자원을 많이 잡아먹음

Selenium vs
BeautifulSoup
정적수집 동적수집
사용패키지 urllib/requests selenium
수집 정적인 웹페이지 정적,동적 웹페이지
수집 속도 빠름(별도 페이지 조작 필요x) 상대적으로 느리다
파싱 패키지 beautifulsoup beautifulsoup/selenium

F12 개발자도구
1. driver=webdriver.Chrome(크롬드라이버 경로)
2. driver.get(크롤링대상사이트)
3. x = driver.find_element(s)_by_xpath(or id or classname or tagname…)(해당경로or id or 이름 등등…)
4. print(x.text) or x.click() or x.find_element_....
5. driver.switch_to_window를 통한 팝업창 제어

Selenium basics for crawling web data with Python

More Related Content

Similar to Selenium basics for crawling web data with Python

Selenium basics for crawling web data with Python

Editor's Notes