基於挖洞法的網頁資訊剖析法
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

基於挖洞法的網頁資訊剖析法

on

  • 2,170 views

 

Statistics

Views

Total Views
2,170
Views on SlideShare
2,169
Embed Views
1

Actions

Likes
0
Downloads
5
Comments
0

1 Embed 1

http://www.slideshare.net 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

基於挖洞法的網頁資訊剖析法 Presentation Transcript

  • 1. 給我美女照 其餘免談 Qing [email_address] http://twitter.com/qing_wang
  • 2. 為什麼需要剖析網頁資訊 (1/2)
    • 網站上時常有許多有用(或好看)的公開資訊,例如:
      • 新聞
      • 公開資訊觀測站
      • 原物料行情
      • 專利
      • 公司登記資訊(商業司)
      • 正妹!
  • 3. 為什麼需要剖析網頁資訊 (2/2)
    • HTML 是非結構性的,但我們要的通常是結構性的資料
      • <html>
      • … .
      • <img src=“ 正妹的照片 .jpg ”>
      • </html>
    我們只要正妹的照片
  • 4. 從非結構到結構 <html> … .. .. .. .. </html> 正妹的 ID 正妹的大頭照 正妹的生日 正妹的星座 正妹的電話 正妹的朋友 1 正妹的朋友 2 … 正妹的朋友 n
  • 5. 其他剖析的方法
    • 寫程式硬幹
    • regular expression
  • 6. 何謂挖洞法 <html> … 正妹的 ID... … … 正妹的大頭照 .. .. .. </html> 一種像是自古代流傳的密碼傳遞方式 正妹的 ID 正妹的大頭照
  • 7. 利用模版挖洞 (1/3) <html> .. .. <img id='DisplayImage' src=' http://f7.wretch.yimg.com/yeanhan/5/1505781711.jpg ‘ border=0 alt=' 下一張 ( 熱鍵 :c)' /></a>… .. </html>
  • 8. 利用模版挖洞 (2/3) <%IGNORE%> <img id='DisplayImage' src=‘ <%PHOTO_URL%> ‘ border=0 alt=' 下一張 ( 熱鍵 :c)' /></a> <%IGNORE%> PHOTO_URL=http://f7.wretch.yimg.com/yeanhan/5/1505781711.jpg
  • 9. 利用模版挖洞 (3/3) HTML Name:Value Name:Value Name:Value Name:Value
  • 10. DFS HrefNextLayer HrefNextLayer PHOTO_URL 0 1 4 7 2 3 6 5 8 9
  • 11. DFS 0 1 4 7 2 3 6 5 8 9 HrefNextLayer HrefNextLayer PHOTO_URL HrefLoopback
  • 12. 設定,不寫程式
    • 設定啟始位址
    • 設定所需每一層的模版
    all_albums.mask all_thumbs.mask 0 1 4 7 2 4 8 6 10 12 3 5 7 9 11 13 show_photo.mask
  • 13. Example (1/2)
    • 設定啟始位址
      • http:// www.wretch.cc/album/yeanhan
    • Layer 1 parsing
      • /album.php?id=yeanhan&amp;book=5
      • /album.php?id=yeanhan&amp;book=4
    • Layer 2 parsing
      • http://www.wretch.cc/album/show.php?i=yeanhan&b=15&f=1447605847&p=0
      • http://www.wretch.cc/album/show.php?i=yeanhan&b=15&f=1447605848&p=1
      • ..
  • 14. Example (2/2)
    • Layer 3 parsing
      • http://f7.wretch.yimg.com/yeanhan/15/1447605847.jpg
      • http://f7.wretch.yimg.com/yeanhan/15/1447605848.jpg
  • 15. 進階
    • 定義每一層的 processor
    • 每 parse 完某一層的 name value pairs 後,可執行自訂的 processor class
      • 例如 InsertDBProcessor 可將資料新增至資料庫
        • <className> InsertDBProcessor</className>
        • <statement>INSERT into GirlInfo(id, name, phone) values($GIRL_ID, $GIRL_NAME, $GIRL_PHONE)</statement>
  • 16. funP.com 徵人啟事
    • funP.com 徵資深軟體工程師
      • 會 PHP 、並精通 PHP 或 JAVA
      • 熟 Web Programming 觀念
      • 工作地點
        • 新竹科學園區
      • 待遇比照園區水準並有股票選擇權
      • 有興趣者請與
        • [email_address] 連絡