More Related Content Similar to 0516網路爬蟲.pdf0516網路爬蟲.pdf0516網路爬蟲.pdf0516網路爬蟲.pdf
Similar to 0516網路爬蟲.pdf0516網路爬蟲.pdf0516網路爬蟲.pdf0516網路爬蟲.pdf (7) More from ssuserded2d4 (8) 0516網路爬蟲.pdf0516網路爬蟲.pdf0516網路爬蟲.pdf0516網路爬蟲.pdf7. Request in HTTP
GET Method
用 https://www.google.com/search 的網頁
按下F12後會看到送出的 GET 參數
(https://網址?參數=參數值– headers, cookies, params)
POST Method
將要處理的資料提交上去,類似於更新操作
19. 發送 LINE Notify 通知
1.申請LINE Notify 權杖
https://notify-bot.line.me/zh_TW/
2.登入後在個人頁面點選發行權杖
25. Beautiful Soup
常用函式:
find():titles = soup.find("p", class_="summary")
find_all():titles = soup.find_all("p", class_="summary", limit=3)
select_one():result = soup.find("h3", itemprop="headline")
print(result.select_one("a"))
select():titles = soup.select(".summary", limit=3)
31. 常見的反爬蟲機制
1.判斷瀏覽器 headers 資訊 破解難度:低
2.使用動態頁面 破解難度:中低
3.加入使用者行為判斷 破解難度:中
4.模擬真實用戶登入授權 破解難度:中
5.加入驗證碼機制 破解難度:高
6.封鎖代理伺服器與第三方 IP 破解難度:高
ref.https://steam.oxxostudio.tw/category/python/spider/crack-spider.html#a1
33. 常見的反爬蟲破解
4.模擬真實用戶登入授權 破解難度:
從 Chrome 開發者工具裡可以看到所需要的 Cookies 資訊,利用
request & response 破解
5.加入驗證碼機制 破解難度:
執行兩次爬蟲,先爬取目標網頁,在爬取 2Captcha 網頁取得辨識後
的驗證碼,最後再把驗證把輸入目標網頁。
6.封鎖代理伺服器與第三方 IP 破解難度:
更換 IP 或更換代理伺服器才能破解,利用 get method 帶入
38. Selenium 函式庫
抓取網頁元素:利用 CLASS_NAME, CLASS, LINK_TEXT, XPATH 等
ex.
ref.https://medium.com/marketingdatascience/selenium%E6%95%99%E5%AD%B8-%E4%B8%80-%E
5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8webdriver-send-keys-988816ce9bed
39. 動態爬蟲簡介
1. 前往特定貼文頁面 browser.get(url)
2. 抓取目前網頁原始碼soup(browser.要選取的東西)
3. 獲得需要的內容:圖片或影片連結 soup.find_all
4. 寫迴圈,查找自己需要的內容 etc.
ref.https://medium.com/marketingdatascience/%E8%B7%9F%E8%91%97ig%E6%BD%AE%E6%B5%81%E4%BE%86
%E7%88%AC%E8%9F%B2-%E5%A6%82%E4%BD%95%E7%8D%B2%E5%8F%96%E8%B2%BC%E6%96%87%E5%9C%96%E7%89%87
-%E5%BD%B1%E7%89%87%E9%80%A3%E7%B5%90-%E7%B3%BB%E5%88%974-%E9%99%84python%E7%A8%8B%E5%BC%8F
%E7%A2%BC-fe9f3f3e3f62