20160324 big data workshop - 網路爬蟲實作 - 用 r 語言打造自己的爬蟲程式2. 關於我
大數軟體有限公司創辦人
前趨勢科技工程師
ywchiu.com
大數學堂
http://course.largitdata.com/
粉絲頁
https://www.facebook.com/largitdata
Machine Learning With R
Cookbook
https://www.packtpub.com/big-data-
and-business-intelligence/machine-
learning-r-cookbook
2
10. 讓 R 可以像Python 的
BeautifulSoup 一樣可以使用
CSS Selector快速萃取、剖析
網頁元素
可以使用Magrittr 套件的管道
(Pipeline) 傳遞資料
使用 rvest
10
Hadley Wickham
http://hadley.nz/
17. 右鍵點選選取元素 -> Copy -> Copy selector
使用開發人員工具複製DOM 元素路徑
17
#maincontent > div.thoracis > div.abdominis.rlby.clearmen > ul > li.rtddt.ccc
19. rtddt <- apple %>% html_nodes('.rtddt')
rtddt[1] %>% iconv(from='UTF-8', to='UTF-8')
抓取清單列表
19
標題: h1
類別: h2
時間: time
20. time <- rtddt %>%
html_nodes('time') %>%
html_text() %>%
iconv(from='UTF-8', to='UTF-8')
title <- rtddt %>%
html_nodes('h1') %>%
html_text() %>%
iconv(from='UTF-8', to='UTF-8')
category <- rtddt %>%
html_nodes('h2') %>%
html_text() %>%
iconv(from='UTF-8', to='UTF-8')
解析資料內容
抓取時間、類別、標頭
20