_ 乐辣


Published on

  • Be the first to comment

  • Be the first to like this

No Downloads
Total Views
On Slideshare
From Embeds
Number of Embeds
Embeds 0
No embeds

No notes for slide

_ 乐辣

  1. 1. 1. Introduction  Describe the background and motivation. Data mining efforts associated with the Web, called Web mining, can be broadly divided into three classes, i.e. content mining, usage mining, and structure mining . Web usage mining is the application of data mining techniques to discover usage patterns from Web data, in order to understand and better serve the needs of Web-based applications. Web usage mining consists of three phases, namely preprocessing, pattern discovery, and pattern analysis. This paper describes each of these phases in detail. Given its application potential, Web usage mining has seen a rapid increase in interest, from both the research and practice communities. This paper provides a detailed taxonomy of the work in this area, including research efforts as well as commercial offerings. An up-to-date survey of the existing work is also provided. Finally, a brief overview of the WebSIFT system as an example of a prototypical Web usage mining system is given.  Describe the data set and the data mining techniques used to perform the data mining task. 1
  2. 2. There are many kinds of data that can be used in Web Mining. Classifies such data into the following types:  Content: The real data in the Web pages, i.e. the data the Web page was designed to convey to the users. This usually consists of, but is not limited to, text and graphics.  Structure: Data which describes the organization of the content. Intra- page structure information includes the arrangement of various HTML or XML tags within a given page. This can be represented as a tree structure, where the (html) tag becomes the root of the tree. The principal kind of inter-page structure information is hyper-links connecting one page to another.  Usage: Data that describes the pattern of usage of Web pages, such as IP addresses, page references, and the date and time of accesses.  User Profile: Data that provides demographic information about users of the Web site. This includes registration data and customer profile information. The usage data collected at the different sources will represent the navigation patterns of different segments of the overall Web traffic, ranging from single-user, single-site browsing behavior to multi-user, multi-site access patterns.  Server Level Collection: The data recorded in server logs reflects the (possibly concurrent) access of a Web site by multiple users. These log files can be stored in various formats such as Common log or Extended log formats. Packet sniffing technology is an alternative method to collecting usage data through server logs. Packet sniffers monitor network traffic coming to a Web server and extract usage data directly from TCP/IP packets. The Web server can also store other kinds of usage information such as cookies and query data in separate logs. Cookies are tokens generated by the Web server for individual client browsers in order to automatically track the site visitors. Query data is also typically generated by online visitors while searching for pages relevant to their information needs. Besides usage data, the server side 2
  3. 3. also provides content data, structure information and Web page meta- information (such as the size of a file and its last modified time). The Web server also relies on other utilities such as CGI scripts to handle data sent back from client browsers. Web servers implementing the CGI standard parse the URI of the requested file to determine if it is an application program. The URI for CGI programs may contain additional parameter values to be passed to the CGI application. Once the CGI program has completed its execution, the Web server send the output of the CGI application back to the browser.  Client Level Collection: The implementation of client-side data collection methods requires user cooperation, either in enabling the functionality of the Java scripts and Java applets, or to voluntarily use the modified browser. Client-side collection has an advantage over server-side collection because it ameliorates both the caching and session identification problems. However, Java applets perform no better than server logs in terms of determining the actual view time of a page. In fact, it may incur some additional overhead especially when the Java applet is loaded for the first time. Java scripts, on the other hand, consume little interpretation time but cannot capture all user clicks (such as reload or back buttons). These methods will collect only single-user, single-site browsing behavior. A modified browser is much 3
  4. 4. more versatile and will allow data collection about a single user over multiple Web sites. The most difficult part of using this method is convincing the users to use the browser for their daily browsing activities.  Proxy Level Collection: A Web proxy acts as an intermediate level of caching between client browsers and Web servers. Proxy caching can be used to reduce the loading time of a Web page experienced by users as well as the network traffic load at the server and client sides. The performance of proxy caches depends on their ability to predict future page requests correctly. Proxy traces may reveal the actual HTTP requests from multiple clients to multiple Web servers. This may serve as a data source for characterizing the browsing behavior of a group of anonymous users sharing a common proxy server. The information provided by the data sources described above can all be used to construct/identify several data abstractions, notably users, server sessions, episodes, click-streams, and page views.  A user is defined as a single individual that is accessing file from one or more Web servers through a browser. While this definition seems trivial, in practice it is very difficult to uniquely and repeatedly identify users. A user may access the Web through different machines, or use more than one agent on a single machine.  A page view consists of every file that contributes to the display on a user's browser at one time. Page views are usually associated with a single user action (such as a mouse-click) and can consist of several files such as frames, graphics, and scripts. When discussing and analyzing user behaviors, it is really the aggregate page view that is of importance. The user does not explicitly ask for "n" frames and "m" graphics to be loaded into his or her browser, the user requests a "Web page." All of the information to determine which files constitute a page view is accessible from the Web server.  A click-stream is a sequential series of page view requests. Again, the data available from the server side does not always provide enough information to reconstruct the full click-stream for a site. Any page view accessed through a client or proxy-level cache will not be "visible" from the server side.  A user session is the click-stream of page views for a singe user across 4
  5. 5. the entire Web. Typically, only the portion of each user session that is accessing a specific site can be used for analysis, since access information is not publicly available from the vast majority of Web servers.  The set of page-views in a user session for a particular Web site is referred to as a server session (also commonly referred to as a visit). A set of server sessions is the necessary input for any Web Usage analysis or data mining tool. The end of a server session is defined as the point when the user's browsing session at that site has ended.  Again, this is a simple concept that is very difficult to track reliably. Any semantically meaningful subset of a user or server session is referred to as an episode. 2. Problem statement 在 WebSIFT 的計劃中,主要發展了一個 web usage mining 的概念性的 架構,在這個架構中(如圖一),將網際使用探勘劃分成兩個部分,第一 個部分是將網站資料轉換為適當的交易形式,而這個過程包含了預先處理、 交易的定義、以及資料的整合,而這部分則是需要專門領域的知識。至於第 二個部分,則是和特定領域無關的應用,也就是透過資料探勘和模式比對 的技巧來進行資料的探勘。 5
  6. 6. 圖一:Web Usage Mining 的一般架構 而在執行網際資料探勘時,其主要的流程有事先準備(Preprocess)、 樣式發現(Pattern Discovery)、以及樣式的分析(Pattern Analysis)等三個 流程,而其實際的流程如 Figure 1(page 1),而每一階段的工作內容,則是 在下面的內容說明。  預先處理 (Preprocessing) 預先處理則是對資料來源中所包含的 Usage、Content、和 Structure 的資 訊轉換成模式發掘所需要的資料抽象化。 a. 使用的預先處理 (Usage Preprocessing) 由於可得的資料多數並不完整,也因此,這部分的資料處理是最 為複雜;除非能使用客戶端追蹤的機制,否則僅能用 IP address 、agent、以及伺服端的 click stream 來定義 user 以及 server session。而以下則是說明可能會遭遇的問題:  單一 IP 位置,多個 Server Session 使用者可能透過 Proxy 來進行連結。  多個 IP 位置,單一 Server Session 6
  7. 7. 一些 ISP 會在不同的 Session 間,隨機指定 IP 位置。  多個 IP 位置,單一 User 使用者可能透過多台機器進行連結。  多個 Agent,單一 User 使用者使用一個以上的瀏覽器來進行瀏覽。即使在同一台機器 上,其也會被視為不同的使用者。 若使用者已被定義(透過 cookie、login、或者是 IP/agent/path 分析) 每個 user 的 click-stream 就可以被劃分成 session,但仍是無法知道 使用者在什麼時候離開網站,而通常的方式是設定一個逾期時間, 如 30 分鐘,並將使用者的 click-stream 劃分成 session。若 session ID 被包含在每個 URI 之中,那 session 的定義也就由 content server 來設定。 b. 內容的預先處理 (Content Preprocessing) 即將文字、圖像、script、或是多媒體形式的檔案轉換為網頁使用探 勘流程有用的格式。而通常這個過程也執行分類(classification) 或分群(clustering)等類型的內容探勘。 c. 結構的預先處理 (Structure Preprocessing) 網站的結構是由 page view 的超連結所建立起來的,也因此,這個 7
  8. 8. 結構可以由類似網站內容的處理方法來取得。而動態的內容會造成 比靜態 page view 更多的問題。而它也必須針對每一個 server session 建立起不同的網站架構。  模式的發掘 (Pattern Discovery) 在模式的發掘上,可以採行的方法相當的多,也來自於各個領域,如 統計、資料探勘、機器學習、以及模型認知(pattern recognition)等。而在 Web mining 方面,通常採用以下幾種方式,來進行模型的發覺 a. 統計分析 (Statistical Analysis) 統計的技巧是所有網站最常使用到的方法,透過 session file 的分 析,即可以在 page view、瀏覽的路徑長度或時間等特性上,進行 頻率、平均值、中位數等不同的描述統計分析。而在許多網站流量分 析工具中,也都提供定期性的統計報告;而這些報告中也可能包 含了功能有限的錯誤分析,如偵測未授權的進入點或是找到最常 使用錯誤的 URI。儘管這種方式缺乏分析上的深度,但仍是可以協 助系統效能的提昇、增加安全性,以及輔助網站修正的工作,並可 支援行銷的決策。 b. 關聯規則 (Association Rules) 8
  9. 9. 此種方式可用來分析一個 server session 中,有哪些網頁是具有存 取的關聯性,也就是該群網頁的支持度(support)超過所設定的 門檻值。而這些網頁有可能不是透過超連結的方式來連結,這也就 可以協助網頁設計者去重新架構網站,以增加相關網頁的連結。而 這種方式也可以透過事先擷取文件,以避免遠端存取的延遲。 c. 分群 (Clustering) 分群(clustering)的方式是將一群有相關特性的項目群組起來。在 網頁使用的探勘之中,可以發現 usage cluster 和 page cluster 兩種 有趣的類型。使用者的分群也就是將有類似瀏覽行為的使用者群組 起來,而這種特性可依照其在人口統計上的特性,去進行電子商 務應用的市場區隔,並可以提供個人化的網頁。而在網頁的分群上, 則是去找尋擁有相關內容的網頁群集,而這類的資訊是適合網際 網路搜尋引擎的使用,並可以根據使用者查詢或過去使用的歷史 來產生動態的網頁。 d. 分類(Classification) 分類是即將資料項目對應到一些已事先定義的類別,在 Web 領域 的應用上,也就是將使用者的使用紀錄歸類於一個或特定的類別 或分類;而在分類執行之前,也就需要進行特徵的選取,以挑選 出合適的描述特性。而經由這種方式的樣式挖掘,可能會產生下列 9
  10. 10. 有趣的規則:在 /Product/Music 下單的客戶中,有 30%的人是屬 於 18-25 歲的族群,且居住在西岸。 e. 序列模型(Sequential Patterns) 這類的技術主要在嘗試去找尋 session 間的模型,如在某一些項目 出現後的一段時間之後,會有哪些的行動出現;利用此種方式, 網路行銷者也就有辦法預測客戶未來再度瀏覽的行為,並可針對 特定的使用者族群作適當的廣告策略。而其他的時間性分析則可以 進行順序性的分析,如趨勢分析、改變的偵測、或是相似性分析。 f. 相依性的模式(Dependency Modeling) 這種方式主要是去發展一個模式,而能夠代表 Web domain 中各個 變數之間的重要關係,如建立一個模式以代表在不同階段,一個 瀏覽者所會執行的不同動作。而這部分有許多可能的方法可以用來 模式化使用者的瀏覽行為,如 Hidden Markov Models 和 Bayesian Belief Networks。而對 Web 的使用模式進行塑模,不僅可以提供分 析使用者行為的理論架構,且可用來預測未來網站資源的消耗。利 用這種方式,也可以增加使用者的瀏覽便利性,並增加電子交易 的銷售額。  模式分析 (Pattern Analysis) 10
  11. 11. 模式分析是整體活動的最後一個階段,也就是篩選在上述階段所產生 的規則,將沒有意義的規則過濾。而正確的分析方法通常是採用知識查 詢的機制,如 SQL 等。而另一種方式則是將資料載入 data cube,以執 行 OLAP 的操作。視覺化的技巧,如圖形的模式或是指定不同顏色給不 同的值,而內容和結構的資訊也可以使用在過濾模式。 3. Detailed data mining(以健康檢查業為例)  資料來源與描述 a. 資料來源 I. 國內某健康檢查中心 2002 年 9 月~10 月顧客上網資料 log 檔 (IP 位址、瀏覽的網頁代碼、瀏覽的網頁主題、瀏覽網頁的時間、 進入與離開網站的時間、會員編號等)。 II. 會員基本資料(會員編號、年齡、性別、地區、加入會員的日期 等)。 b. 資料描述 11
  12. 12.  系統架構 圖 4 為系統架構圖,我們利用健康檢查網站的日誌檔以及會員基本資 料為資料來源,經過資料清理、轉換至資料庫,然後再利用資料探勘之 分類法、關聯法則等技術來建構個人化網站,以提供使用者個人化的環 境。 12
  13. 13.  關聯法則-WS 演算法 based on Apriori 程序 13
  14. 14. 網站伺服器的網站日誌提供了很好的分析資料來源,我們首先必須針 對原始的資料進行初步的整理工作,將資料經過清理,過濾掉不相關 的項目及不正確、不合理的資料,例如:將路過 (網頁停留時間太短) 及 無效 (網頁停留時間太長) 的資料刪除。 接著與會員基本資料整合轉換至資料庫,整合後的資料必須轉換成資 料探勘工具可以處理的格式。在我們提出的研究方法中,資料經清理後, 為了執行資料探勘之關聯法則就必須先將瀏覽的時間累加。 結果與分析 本研究原將資料的網頁停留時間分布如圖 6 所示,其平均為 72 秒。經 過清理過濾後為 54 秒,其與 Nielsen/NetRatings 針對台灣所統計出的 網頁停留時間 37 秒 (2001 年 3 月) 增加了 17 秒,由此可知,使用者進 入醫療產業網站的網頁停留時間較一般產業停留時間長,也代表使用 者真正關心醫療產業網站所提供的資料,更加需要網站瀏覽之個人化。 表 2 為主要網頁的代碼對照表;表 3 為實驗的部分結果,是利用 WS 演算法所挖掘出來的關聯法則,支持度設為 0.4%,信賴度設為 50%。 在表 3,我們主要的分析結果及採取的策略如下: 14
  15. 15. a. (A001,R008)èB002 所代表的意義是在瀏覽首頁(A001)及登錄 健檢結果查詢的網頁(R008)之狀況下也會瀏覽檢驗結果解讀 的網頁(B002),此結果與一般我們上網查詢健檢結果的狀況 15
  16. 16. 相符。可以將三個網頁擺在一起或是建立超連結,以改善網頁 設計架構。 b. 支持度可以看出網頁被瀏覽時受歡迎的程度,可提供醫療業 者推出健檢項目搭配促銷的決策參考。 c. 當醫療業者欲推出某網頁廣告的資訊時,可以參考信賴度。  決策樹 程序 將文字性的資料轉換成數值性的資料,以利執行資料探勘。本研究中為 了執行資料探勘軟體之決策樹功能來做分類,我們將每一個紽頁當成 一個屬性,有瀏覽此網頁,則屬性值為 1,反之為 0。 16
  17. 17. 結果與分析 利用年齡、性別、地區、網頁代碼等屬性來建構決策樹,以進行顧客之分 類。由分類的結果,可針對不同的顧客上網時,依據其特徵及瀏覽屬性, 採取不同的廣告行銷策略及瀏覽之環境。以健檢業為例,了解健檢市場 顧客特性,利用資料探勘技術將顧客分類,針對不同的使用者群組給 予不同的醫療資訊及採取不同的健檢廣告行鐺。 5 為網頁代碼對照表, 表 我們的實驗結果正分析如下: a. 性別為女、年齡大於 35 歲,瀏覽骨質疏鬆相關網頁的機率較高。 當業者推出骨質疏鬆健檢活動時,顧客的屬性符合性別為女、 年齡大於 35 歲之條件,可自動彈出該項健檢活動優惠專案 b. 在關聯法則的實驗結果,發現瀏覽網頁 D018(下午茶)的狀況下 也會瀏覽網頁 D035(綜合健康檢查簡介),而這些人的年齡大部 份小於 28 歲,這些資訊可作為健檢業者於規劃下午茶網頁內 容之依據。 17
  18. 18. c. 結果發現,會瀏覽檢驗結果解讀(B002)網頁及血脂肪(D479)網 頁而不瀏覽肝臟保健(D306)網頁之顧客,是屬於會瀏覽肝功能 (D221)網頁的族群。當使用者瀏覽網頁之情況符合決策樹規則 時,可瞭解其對肝功能網頁是否有興趣,以決定是否呈現肝功 能之相關座談會與促銷功能。 18
  19. 19. 4. Conclusions and critics a. Conclusions i. This paper has attempted to provide an up-to-date survey of the rapidly growing area of Web Usage mining. ii. Specifically electronic commerce, there is significant interest in analyzing Web Usage data to better understand Web usage, and apply the knowledge to better serve users. iii. Web Usage mining raises some hard scientific questions that must be answered before robust tools can be developed. iv. 此篇 paper 將 Web Usage mining 會使用到的 Data type、屬性與來源 19
  20. 20. 和處裡步驟與方法都解釋清楚,因此若要做此方面研究,才能知 道所要 collect 的資料為何,以及從何 collect。 b. critics to this work i. 在實例當中的這篇 paper 將權重放在網頁瀏覽時間上,可是卻沒 有考慮到,網頁的大小與複雜度也會影響使用者停留的時間,並 且停留時間的 start time 是以 the first click-stream 亦或進入網頁內 做點選得動作,因為網路速度也會影響開啟網頁的時間。 ii. 這篇 paper 簡單的以會員的 log 檔來做類似交易處理的動作,但是 對於其他非會員的外部使用者資料的參考價值卻沒有考慮到,這 部份也是做此方面研究所要突破之處。 5. Reference  Jaideep Srivastava , Robert Cooley , Mukund Deshpande, Pang-Ning Tan. Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data  趙景明, 黃雅慧. 應用網站使用探勘於網站瀏覽之個人化-以健康檢查業 為例 20