Data Mining 期末考試 題庫 -含 ANSWER

1. Data Mining 和統計分析有什麼不同?

 Data Mining 在資料處理上更強勢,且無須程度高深的專業背景。
  Data Mining 的工具更適合企業界使...
假設某些變數與所欲瞭解的目標有關,例如付帳習慣、               是否曾延遲繳款等。
 實際資料採礦工作—將變數利用 Data Mining 技術進行採礦工作,例如邏
  輯斯迴歸等。
 測試與檢核所採礦的資料(Testing ...
金融服務機構          發展投資策略等


銀行              發展行銷策略、識別顧客貸款活動等


保險公司            偵測保險詐欺等


電信公司            提供服務、偵測竊打等


航空業   ...
可整合外部資源使分析發揮更深更廣—容易與外部資料整合,使其考慮的
   因素更廣更完備。
  而 Data Mining 亦具有以上特點,因此可謂 Web Mining 為 Data Mining 中
   的部分應用。

9. 何謂 CRM...
利用流程圖的方法,讓使用者清楚構建出資料分析的整個過程,是與其他分
  析軟體不同之處。對於不同軟體的資料庫,亦提供完備的功能將其串連。增加
  資料分析的能力。

12. 當您手邊有 300 萬筆 銀行客戶的資料 您會選擇用何種軟體來分析這些...
所需結果。

15. 請闡述

Why do we need data mining?
–Large number of records (cases) (108-1012 bytes)
–High dimensional data (vari...
18. 知名的軟體,像 SAS, SPSS, SPLUS, STATISTICA ,其中多包含了


   一些關於 DM 的 functions 或者 procedures 。一般還是離不了

               regressi...
20. 請簡述 下列多變量分析方法


      主成份分析 因素分析 判別分析 集群分析 路徑分析 典型相關分


析

 主成份分析:主要用途在於整合變數,直交轉換以降低維度,使其互相獨立。
        利用較少的總體指標代表所有變數...
24   大潤發量販電想要在他的客戶資料庫中做 Data Mining 您對他有何建


     議

     大潤發量販店目前以會員購物的情況紀錄消費者的購買行為,可以瞭解消
     費者個別購買的商品。建議可朝 cross sale、...
籌備階段 1. 瞭 解 銀 行 的 各 類 業 與 相 關 銀 行 人 員 1.針 對 銀 行 所 需 業 務 1. 是 否 仍 鎖
        務及需求                進行深度訪談       內 容 , 初步 研討 可 ...
導入階段 1. 瞭解必要變數的分 1. 次數分配及敘 1. 瞭解剖析銀行資             資料庫是否有
       佈情形             述統計分析       料庫,並提出初        夠強的使用性?
       ...
Upcoming SlideShare
Loading in …5
×

Data Mining期末考題庫-1.doc

1,849 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,849
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
38
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Data Mining期末考題庫-1.doc

  1. 1. Data Mining 期末考試 題庫 -含 ANSWER 1. Data Mining 和統計分析有什麼不同? Data Mining 在資料處理上更強勢,且無須程度高深的專業背景。 Data Mining 的工具更適合企業界使用。 統計分析結果適合於統計學家檢測,Data Mining 則適合企業界使用。 2. Data Warehousing 和 Data Mining 的關係為何? Data Mining 進行前,需有良好的 Data Warehousing 功能,因此 Data Warehousing 可視作 Data Mining 的準備工作之一。 將作業中的資料轉換成有用的策略性資訊是整個 Data Warehousing 的重點, 而 從 Data Warehouse 挖 掘 有 用 的 資 料 則 是 Data Mining 的 重 點 。 Data Warehouse 要先建立,Data Mining 才能有效率的進行,因此兩者間的關係 可說「Data Mining 是從 Data Warehouse 找出有用資訊的一種過程與技術 」。 3. 何謂 OLAP, OLAP 能不能代替 Data Mining? OLAP(Online Analytical Process)--由資料庫所連結出來的線上查詢分析 系統。 OLAP 利用人工查詢及視覺化報表來確認資料間關係;Data Mining 具有自 動找出甚或不會被懷疑的資料型態與關係的特性。因此,OLAP 不能取代 Data Mining,反倒是相輔相成。 4. 完整的 Data Mining 包含哪些步驟?請敘述並舉依例子說明 以信用卡呆帳為例。 理解資料與進行的工作--從資料庫中找出可能成為呆帳的帳戶。 獲取相關知識與技術(acquisition)--瞭解信用卡背景、呆帳發生原因及因 應資料可採用哪些技術。 整合與查核資料(Integration and checking)--因需求的變數不同,整合 不同部門的資料庫,例如行銷部門、會計部門等。 去除錯誤或不一致的資料(Data Cleaning)--檢視資料庫,去除不合理的 資料。 由資料選取樣本先行試驗 –由於 Data Mining 所處理的資料量甚為龐大, 因此在處理上為求成本的考量,通常會採取抽樣的方式選取樣本來做試驗 與分析,模式可行之後再回推到整個母體。 發展模式與假設(Model and hypothesis development)--利用人工預先
  2. 2. 假設某些變數與所欲瞭解的目標有關,例如付帳習慣、 是否曾延遲繳款等。 實際資料採礦工作—將變數利用 Data Mining 技術進行採礦工作,例如邏 輯斯迴歸等。 測試與檢核所採礦的資料(Testing and verification)--利用預先留下來的 部分資料,測試是否可以找出已成為呆帳的資料。 解釋與使用資料(Interpretation and use)--將資料總和,並實際應用, 預先警示發卡銀行可能發生呆帳的帳戶,減少發生呆帳的可能。 5. Data Mining 運用了哪些理論與技術?請說明這些技術及理論  傳統技術  統計分析—包含統計學內敘述統計、機率論、迴歸分析及類別 資料分析等。  因素分析—粹取變數,減少變數並有效代表資料型態。  分群分析—利用資料特性,將即予以分群,使群內變異小, 群間變異大。  改良技術  決策樹理論—利用樹枝狀展現資料受各變數影響的預測模型, 有 CART 及 CHAID 兩種。  類神經網路—由輸入變數與數值中自我學習並根據學習經驗 所得知識不斷調整參數以期建構資料的 patterns。  規則歸納法—利用「If…then…」的概念對資料進行細分,實際 應用上如何界定界線是最大的問題。 通常將發生次數太少的項 目剔除。 6. Data Mining 包含哪些主要功能?請詳述這些功能及其方法  分類—按照資料屬性加以分門別類。可利用決策樹、記憶基礎推理的方 法。  推估—根據已有的資料,來獲取某一個未知值。可利用相關分析、迴歸 分析及類神經網路等方法。  預測—根據某變數的現有資料預測未來值。利用迴歸分析、時間數列分 析及類神經網路等方法。  關連分組—決定哪些物件應擺置在一起,以確認交叉銷售的成功與否。  同質分組—即為行銷中的區隔化,將資料中同質性高集中,造成組內 變異小、組間變異大的情況。可利用 K-means 及 agglomeration 等方法。 7. Data Mining 在各領域的應用情形為何?並請舉一個台灣本土的例子 信用卡公司 授權決定、持卡購物行為、偵測詐欺等
  3. 3. 金融服務機構 發展投資策略等 銀行 發展行銷策略、識別顧客貸款活動等 保險公司 偵測保險詐欺等 電信公司 提供服務、偵測竊打等 航空業 顧客關係管理等 醫療業 控制流程效率等 製造業 品管控制、流程監控等 電話銷售及直銷 區隔顧客、發展行銷策略等 零售商 發展行銷策略、偵測收銀員詐欺行為等 目前中信銀已導入 Data Mining 進入該企業中。只要職員願意接受 Data Mining 課程,並通過測試,即可加入參與該公司 Data Mining 的工作行列中 。 Data Mining 目前於中信銀中利用於提高信用卡顧客的滿意程度。目前有成效 的應用在於提醒持卡者其親屬的生日,除提高信用卡刷卡費用外,亦增進家 人間的情誼。 8. Web Mining 和 Data Mining 有什麼不同?請舉例說明 Web Mining 可視作 Data Mining 於網路資料應用的泛稱。Web Mining 有以 下特點: 蒐集資料容易且不引人注意—於瀏覽網站者點選時記錄其路徑,不會對瀏 覽者造成困擾。 以互動式個人服務為終極目標—不同型態的瀏覽者享有不同網頁型態的服 務。
  4. 4. 可整合外部資源使分析發揮更深更廣—容易與外部資料整合,使其考慮的 因素更廣更完備。 而 Data Mining 亦具有以上特點,因此可謂 Web Mining 為 Data Mining 中 的部分應用。 9. 何謂 CRM ? Data Mining 在 CRM 中扮演的角色為何? 目前許多市場的產品皆已有齊一性的表徵,因此服務成了顧客選擇產品的一 大考量。 CRM 即顧客關係管理,以求提供何種服務能達到顧客最大滿意度, 造成雙贏的局面。 Data Mining 分析出的資料,可以找出顧客究竟需要的是哪些服務。而 CRM 即從 Data Mining 所分析出的資料,實際找出應如何應用,以提高服務的品 質,使顧客的忠誠度提高。 10. 目前業界有哪些常用的 Data Mining 分析工具? Clementine(SPSS) 4Thought and Scenario(Cognos) Darwin(Oracle) Database Mining workstation(HNC) Decision Series(NeoVista) Enterprise Miner(SAS) Intelligent Miner(IBM) Knowledge Seeker and Knowledge Studio(Angoss) Model 1 and Pattern Recognition Workbench(Unica) STATISTICA SQL Server 2005 等等。 11. 請敘述 SQL Server 2005 這套 Data Mining 分析工具
  5. 5. 利用流程圖的方法,讓使用者清楚構建出資料分析的整個過程,是與其他分 析軟體不同之處。對於不同軟體的資料庫,亦提供完備的功能將其串連。增加 資料分析的能力。 12. 當您手邊有 300 萬筆 銀行客戶的資料 您會選擇用何種軟體來分析這些 資料 ,為什麼 ? Enterprise Miner(SAS)。因為銀行客戶資料 300 萬筆,並非每一個軟體皆 可執行,而 SAS 所能承載的資料量大且 Enterprise Miner 所提供的功能亦 相當齊全,因此選擇 Enterprise Miner。 又或者先將資料予以抽樣(置於資料庫如 SQL 中),則軟體的要求便毋需 有太大的設限。 13. 請簡述 Data Mining、 統計分析 與 電腦分析軟體間之關係 統計分析為 Data Mining 中的一種技術,可謂 Data Mining 包含資料分析。電 腦分析軟體則為 Data Mining 的工具,在具有分析架構下執行的工具。因此 要達成 Data Mining,統計分析及電腦分析軟體間是互相合作,密不可分的。 14. Data Mining 可說包含了以下六種領域:請解釋這六個領域 ●Database systems, Data 需要有完備的資料,能夠快速更 新及矯正錯誤。並利用線上分析 Warehouses, OLAP 系統察看資料的趨勢及變化。 ●Machine learning Data Mining 和統計分析最大的 不同,在於 Data Mining 具有自 動化的流程。因此在新資料進入 資料庫時,能夠自行運算無須重 新設計。 ●Statistical and data analysis Data Mining 中包含有統計分析, 利用統計分析瞭解資料的情況。 methods 並利用其他方法加以分析資料, 獲取有用訊息。 ●Visualization 由 Data Mining 中所得到的訊息, 能夠使使用者做為決策參考的資 料。 ●Mathematical programming 程式的設計使 Data Mining 具有 自動化的流程。 ●High performance computing 因為資料量很大,因此需要高度 運算的電腦加以配合,方能得到
  6. 6. 所需結果。 15. 請闡述 Why do we need data mining? –Large number of records (cases) (108-1012 bytes) –High dimensional data (variables) (10-104 attributes) –Only a small portion, typically 5% to 10%, of the collected data is ever analyzed. –Data that may never be explored continues to be collected out of fear that something that may prove important in the future may be missing. –Magnitude of data precludes most traditional analysis (more on complexity later). 因為資料量的越來越大,變數及資料比數不斷增加,若是使用以往的統計分 析方法,往往無法在第一時間內提供業界所需要的訊息。 而龐大的資料庫,一天 天地都在增加。因此,出現 Data Mining 這項技術,除融合統計分析的優點外, 亦衍生發展出其他適合的分析方法。 以期在無法以肉眼判斷觀察的資料庫中,找 出對於擁有資料庫者有用的訊息。 16. 請敘述資料倉儲、 KDD、 Data mining 的關係 資料倉儲是經過處理及整合的資料庫。KDD 則是知識發現的一連串程序,而 Data Mining 是 KDD 中的一個步驟。不論進行 KDD 或 Data Mining 都需要 資料倉儲最為前制作業。 17. 不同的人有不同的看法:比較樂觀的是 Berry and Linoff (1997) 的說法: 分析報告給你後見之明 (hindsight) 統計分析給你先機 (foresight) DM 給你識見 (insight) 您的看法如何 ? 我同意上述看法。 不論是分析報告、統計分析或 Data Mining,都是為了瞭解 特性所存在的。只是所能提供的訊息程度不相同。分析報告是在所有結果發 生後告訴我們結果的情況,和預先我們所預期的是否相似。 統計分析則是預 先找出趨勢,讓我們有心理準備知道未來資料可能如何變化。而 Data Mining 則提供我們無法以人腦或報表即可發現的資料間關係,讓我們更瞭 解資料,掌握資料的特性。
  7. 7. 18. 知名的軟體,像 SAS, SPSS, SPLUS, STATISTICA ,其中多包含了 一些關於 DM 的 functions 或者 procedures 。一般還是離不了  regression (predictive model)  classification (supervised or non-supervised)  decision tree  association analysis (rule extraction)  time series ( for trend)  machine learning (recursive partitioning)  graphic methods (data visualization)  neural network 等這一類的工具。這些工具或者算則,並不是每一種都有證明的。 請與 SQL Server 比較 SQL Server 中亦包含有上述各種分析方法,並於視窗下方介紹其方法。而 結果跑出來後,亦會有解釋。與上述軟體有不同。 19.’’ 不久之前我曾聽過 SAS 的 Enterprise Miner 的三小時的說明。那時候 我只瞭解到抽樣建模的那一部分,因此我對 DM 的定義也有一點負面: 它相當於「 elementary statistical methods applied to huge data sets 。 」 但那算 是 global view,並不曾進到 algorithms 的層面上。對於做理論的人來說,我承 認我還看不到甚麼大的東西。也許是因為 DM 主要還是要靠去用。而用是 不一定需要數學證明的。我讀到的 DM 論文中,提到所建議的 algorithm 時,都蠻保守地說那是 heuristic。’’ 您的看法如何 ? Data Mining 與統計分析很大的不同在於所提供的訊息主要是應用於實務上,因 此學術上理論並不是著重的重點。當然,這也不是指說 Data Mining 並無學術理 論作為背景,只是主要的重點置於是否能夠與實務結合,因此若是以學術觀點 來看 Data Mining 便會覺得其結果不夠嚴謹,不夠使人信服。
  8. 8. 20. 請簡述 下列多變量分析方法 主成份分析 因素分析 判別分析 集群分析 路徑分析 典型相關分 析 主成份分析:主要用途在於整合變數,直交轉換以降低維度,使其互相獨立。 利用較少的總體指標代表所有變數,使資料更佳容易計算及比 較。 因素分析:與主成份分析相類似,也是希望降低變數數目。 但不同的是在具關 連且難解釋的資料中,找出有意義的並可解釋原始資料的共同 因素。 判別分析:在已經分群後的資料中,建立判別模型,以至於置入新的資料時 能判斷其應屬於何集群之中。 集群分析:與 classification 觀念相同,將資料予以分類。不同的是,事先並不 知道應分做幾群,及應以哪些變數分群。而分析後再做決定。 路徑分析:可視作標準化後的迴歸因果關係,屬 one-way。 需注意的是,因果 關係需要專業知識判斷,而非統計所及。 可利用於建構 pattern。 典型相關分析:與路徑分析相關,但屬 two-way。 21 請敘述 類神經網路的用途及他在 Data Mining 所扮演的角色 類神經網路適用於彌補傳統統計中需要許多假設方能執行的缺點,並可應 用於構建非線性模型之上。其運作情況就如生物神經網路一般,因此,幾乎 資料置入其中,皆能夠有滿意的結果產生。於 Data Mining 廣泛使用,透過 不斷學習以達最適合的模式。 22 簡述 迴歸分析與 時間數列 並闡述這兩種方法使用時機 迴歸分析和時間數列不同的地方在於迴歸分析是利用過去資料,找出一個 模型,觀察其趨勢,並未對未來進行預測。而時間數列則是觀察過去的資料, 對於未來進行預測。能否預測未來是兩者的差異所在。 23 台灣大哥大 想要在他的客戶資料庫中做 Data Mining 您對他有何建議 依目前瞭解台灣大哥大資料情況而言,因為電信業是新興行業,因此在資 料庫合併上問題較少。而申請行動電話亦會留有相當多的基本資料,因此可 以說在蒐集資料上相當完善。但須考慮到的是,申請手機和使用手機的人很 有可能是不同的人(例如母親辦給兒女),因此,利用申請手機時的基本 資料加以分析,是否真的能反應使用者的情況,還有待商榷。因此應想辦法 先解決此點上的問題,避免做出錯誤的行銷建議。
  9. 9. 24 大潤發量販電想要在他的客戶資料庫中做 Data Mining 您對他有何建 議 大潤發量販店目前以會員購物的情況紀錄消費者的購買行為,可以瞭解消 費者個別購買的商品。建議可朝 cross sale、購物籃分析著手,瞭解消費者 購買的情形,是否有商品之間具有關連性,進而改變商品擺設位置、提出不 同行銷手法,以期增加消費額及滿意度。 25 輔仁大學想要在他的校友資料庫中做 Data Mining 您對他有何建議 建議學校務必固定時間更新,使校友資料庫保持在最有效的情況。利用 Data Mining 找出可能會回饋學校的校友,定期或不定期寄送學校刊物,而 非僅於校慶等日子才予以通知,增加其與學校的連結程度。 26 上述 做客戶資料庫 Data Mining 方法有何差異 針對不同情形的資料庫以及不同情況的目標,利用不同的 Data Mining 分 析方法。並非每一種方法都要用到,而是找出真正需求的加以利用。以求找 出真正有用的金礦。 27 這是 Data mining 進度規劃請表達您的看法及評論 我認為撰寫得很完善,與我本學期所習得到的觀念、步驟相符合。建議在「籌 備階段」除與相關銀行人員深度訪談外,亦要對外蒐集二手資料。瞭解此行業的 現況如何。並應於一開始,瞭解究竟想要從資料中得到什麼,確立目標,才不至 於分散資源,而真正瞭解所不知道的部分。 階段 預計進行工作項目 預計執行方式或 預計成果 問題點 運用之技巧
  10. 10. 籌備階段 1. 瞭 解 銀 行 的 各 類 業 與 相 關 銀 行 人 員 1.針 對 銀 行 所 需 業 務 1. 是 否 仍 鎖 務及需求 進行深度訪談 內 容 , 初步 研討 可 定 中 華 銀 能 需建 構的 統計 分 行? 2. 瞭 解 銀 行 目 前 資 料 析方法或預測模式。 2. 相 關 銀 行 庫的狀況 2. 解 析 銀 行 所 提 供 的 的 配 合 意 3. 取 得 相 關 銀 行 的 配 資 料 庫 ,初 步 瞭 解 願 合 ,並 瞭解 其所 願意 資 料 庫 的可 使用 程 提 供作 為 產 學 合 作研 度。 究的資料庫內容。 3. 針 對 銀 行 針 對 資 料 庫 的建 構及 增修 提 出建議案。 準備階段 1.整理資料庫以便後 1. 確定整理變數 1.增強現有的相關資 可 使 用 的 資 源 續分析及模式建構之 型式 料庫的可使用性及 何在? 用 完整性。 2. 確定整理變數  人力資源 內容定義  設備資源 3. 解決遺失值問  時間資源 題  軟體資源 4. 解決錯誤值問 題
  11. 11. 導入階段 1. 瞭解必要變數的分 1. 次數分配及敘 1. 瞭解剖析銀行資 資料庫是否有 佈情形 述統計分析 料庫,並提出初 夠強的使用性? 步的說明。 2. 選擇有意義的相關 2. 單變量的各類 變數及目標變數 檢定 3. 稀有事件的解決 3. 抽樣 4. 抽樣問題 完成階段 1. 依據變數的型態及 1. 各類統計方法 1. 完成銀行資料庫 是否能找到最 分佈狀況,選擇適 的 data mining。提 適 模 式 , 失 敗 合的統計方法或預 2. 各類預測模式 出完整的報告。 的可能性? 測模型。 3. 各類 training、2. 數篇研究論文。 2. try and error 3. 模式的比較 evaluation、 3. 將預測模式系統 test 4. 建構分析系統或最 技巧 化。 適模型 4.模式評比法 **注意未來的定期 update 研究 28、 請敘述 您學期您交了哪些報告? 29、 請敘述 您這學期來老師教了哪些東西 ?

×