基於挖洞法的網頁資訊剖析法
Upcoming SlideShare
Loading in...5
×
 

基於挖洞法的網頁資訊剖析法

on

  • 2,122 views

 

Statistics

Views

Total Views
2,122
Views on SlideShare
2,121
Embed Views
1

Actions

Likes
0
Downloads
5
Comments
0

1 Embed 1

http://www.slideshare.net 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    基於挖洞法的網頁資訊剖析法 基於挖洞法的網頁資訊剖析法 Presentation Transcript

    • 給我美女照 其餘免談 Qing [email_address] http://twitter.com/qing_wang
    • 為什麼需要剖析網頁資訊 (1/2)
      • 網站上時常有許多有用(或好看)的公開資訊,例如:
        • 新聞
        • 公開資訊觀測站
        • 原物料行情
        • 專利
        • 公司登記資訊(商業司)
        • 正妹!
    • 為什麼需要剖析網頁資訊 (2/2)
      • HTML 是非結構性的,但我們要的通常是結構性的資料
        • <html>
        • … .
        • <img src=“ 正妹的照片 .jpg ”>
        • </html>
      我們只要正妹的照片
    • 從非結構到結構 <html> … .. .. .. .. </html> 正妹的 ID 正妹的大頭照 正妹的生日 正妹的星座 正妹的電話 正妹的朋友 1 正妹的朋友 2 … 正妹的朋友 n
    • 其他剖析的方法
      • 寫程式硬幹
      • regular expression
    • 何謂挖洞法 <html> … 正妹的 ID... … … 正妹的大頭照 .. .. .. </html> 一種像是自古代流傳的密碼傳遞方式 正妹的 ID 正妹的大頭照
    • 利用模版挖洞 (1/3) <html> .. .. <img id='DisplayImage' src=' http://f7.wretch.yimg.com/yeanhan/5/1505781711.jpg ‘ border=0 alt=' 下一張 ( 熱鍵 :c)' /></a>… .. </html>
    • 利用模版挖洞 (2/3) <%IGNORE%> <img id='DisplayImage' src=‘ <%PHOTO_URL%> ‘ border=0 alt=' 下一張 ( 熱鍵 :c)' /></a> <%IGNORE%> PHOTO_URL=http://f7.wretch.yimg.com/yeanhan/5/1505781711.jpg
    • 利用模版挖洞 (3/3) HTML Name:Value Name:Value Name:Value Name:Value
    • DFS HrefNextLayer HrefNextLayer PHOTO_URL 0 1 4 7 2 3 6 5 8 9
    • DFS 0 1 4 7 2 3 6 5 8 9 HrefNextLayer HrefNextLayer PHOTO_URL HrefLoopback
    • 設定,不寫程式
      • 設定啟始位址
      • 設定所需每一層的模版
      all_albums.mask all_thumbs.mask 0 1 4 7 2 4 8 6 10 12 3 5 7 9 11 13 show_photo.mask
    • Example (1/2)
      • 設定啟始位址
        • http:// www.wretch.cc/album/yeanhan
      • Layer 1 parsing
        • /album.php?id=yeanhan&amp;book=5
        • /album.php?id=yeanhan&amp;book=4
      • Layer 2 parsing
        • http://www.wretch.cc/album/show.php?i=yeanhan&b=15&f=1447605847&p=0
        • http://www.wretch.cc/album/show.php?i=yeanhan&b=15&f=1447605848&p=1
        • ..
    • Example (2/2)
      • Layer 3 parsing
        • http://f7.wretch.yimg.com/yeanhan/15/1447605847.jpg
        • http://f7.wretch.yimg.com/yeanhan/15/1447605848.jpg
    • 進階
      • 定義每一層的 processor
      • 每 parse 完某一層的 name value pairs 後,可執行自訂的 processor class
        • 例如 InsertDBProcessor 可將資料新增至資料庫
          • <className> InsertDBProcessor</className>
          • <statement>INSERT into GirlInfo(id, name, phone) values($GIRL_ID, $GIRL_NAME, $GIRL_PHONE)</statement>
    • funP.com 徵人啟事
      • funP.com 徵資深軟體工程師
        • 會 PHP 、並精通 PHP 或 JAVA
        • 熟 Web Programming 觀念
        • 工作地點
          • 新竹科學園區
        • 待遇比照園區水準並有股票選擇權
        • 有興趣者請與
          • [email_address] 連絡