機器學習簡報 / 机器学习简报 Machine Learning

COPYRIGHT©2016 eBizprise Inc. & eBizprise Technology (TJ) Ltd.
機器學習
原理案例應用
Concept and Techniques
of Machine Learning
Will Kuan
官大鈞
in

C2B應用
(定性定量
預測)
演算法
IT
工具
2016.3
2016.4
BC
Foundation

• 甚麼是定性預測?
• 甚麼是定量預測?
• 各應用在甚麼樣的商業情境?
• 如何能結合應用?

屬性變數
定性屬性
qualitative attribute
 名目屬性
 二元屬性
 順序屬性
描述物件的特徵，但不給定實際的
數量或大小，這些定性屬性的值是
表示類別的詞彙，如果定性屬性的
值使用數值，則代表該類別的編碼，
而不是可被量測的數量
定量屬性
quantitative attribute
 數值屬性
可量測的數量，可用整數或實
數來表示

分析預測
定性預測
根據事件的性質和特點以及過去和現
在的有關資料，對事物做非數量化的
分析，然後根據這種分析對事物的發
展趨勢做出判斷和預測。很大程度上
取決於經驗和專家努力，依靠人們的
主觀判斷來取得預測結果。
缺乏統計資料時，不能構成數學模型
或環境變化很大，歷史統計資料無法
反映事物變化規律時一般用定性預測
定量預測
利用歷史統計資料並通過一定的數學
方法建立模型，以模型為主對事物的
未來做出判斷和預測的數量化分析，
也稱為客觀預測。
如迴歸分析、時間序列分析、類神經
網路等

CONCEPT OF
MACHINE LEARNING
ALGORITHMS
機器學習演算法
分類及概念

COPYRIGHT©2016 eBizprise Inc. & eBizprise Technology (TJ) Ltd.COPYRIGHT©2015 eBizprise Inc. & eBizprise Technology (TJ) Ltd.
圖片取自Coursera機器學習基石課程網頁、
台灣大學資訊工程暨研究所網頁

何謂機器學習?
屬於Weak AI ( Artificial Narrow Intelligence ) 的一種。研究電腦如何
能根據資料來學習或提高效能，讓電腦程式如何能根據資料『自動地』
學習如何辨識複雜的樣式，以及做出智慧的決策。
機器如何學習 ?
- 監督式學習：與分類和預測方法同義。監督的意思為，透過訓練資料集中的
標籤資訊來監督學習
- 非監督式學習：與分群方法同義。資料不具有可分類的標籤
- 半監督式學習：模型中，同時使用有標籤和無標籤的資料樣本。
- 增強式學習：給予機器獎勵或處罰訊號，機器則會據此修改學習。
機器 + 學習 ?

監督式學習 vs. 非監督式學習
 監督式學習
(Supervised Learning)
由訓練資料中學到或建立一個模式，
並依此模式推測新的實例。
有一個IF-THEN的規則
(Production Rule)
- 決策樹(Decision Tree)
- 支持向量機(SVM)
- 隨機森林(Random Forest)
- 最近鄰居法(KNN)
 非監督式學習
(Unsupervised Learning)
無標準的結果標籤或答案，不是依據過
去蒐集的資料範例推論現有資料，而是
依現有資料選取適當的變數標籤做進一
步的分群推論
無標準答案，只能依目的比較優劣
- 群集分析(Cluster Analysis)
- 無監督式學習網路
- 最大期望演算法(EM)

模型建立時，同時使用有標籤與無標籤的樣本。
其一方法為，使用有標籤的樣本來學習分類的模型，並使用無標籤的樣
本來改善類別間的邊界。對於兩類別的分類問題，可以將其中一個類別
的資料是為正樣本(positive example)，而另一個類別的資料是為負樣
本(negative example)
半監督式學習
Semi-supervised Learning
正樣本
負樣本
無標籤樣本
不使用無標籤樣本所得到的決策邊界
使用無標籤樣本所得到的決策邊界
雜訊/離群值

增強式學習
Reinforcement Learning
機器學習亦有其他學習法，如主動學習法(active learning)等

群集分析
Clustering Analysis
 依據資料的相似度(similarity)或相異度(dissimilarity)將資料分群歸
屬到數個群集(clusters)
 使同一群內的資料或個體相似度大，各群間的相似度小
 事先並不知道群集數目，分群結果的特徵及所代表的意義僅能事後加
以解釋
 非監督式學習法

- 不斷切割群集，表示成樹狀圖
- 近朱者赤，近墨者黑，不斷將資料重新分組
- 最大化同類資料間的相似度；最小化異類資料間的相異度
基本原理
不
同
分
群
結
果
以R實作美國葡萄酒資料的階層分群法

屬於同一群集的文件數目

1. 資料準備與分群特徵選取：根據問題特性、資料類型及分群演算法
等，選取具代表性的變數作為分群特徵屬性
2. 相似度計算：在選取衡量相似度的方式時，需考慮資料的類型以及
後續使用的分群演算法
3. 分群演算法：為群集分析中最重要的階段，利用分群演算法將資料
分組，有些分群演算法可能需要自行決定群數
4. 分群結果評估與解釋：當分群結束後需檢視分群結果是否合理。另
外，由於分群結果可能作為另一個方法的輸入資料，需對群集結果
進行定義及命名
群集分析的階段步驟

分群演算法
- K-Means
- Fuzzy C-Means
- Dirichlet
- Canopy
- Spectral Clustering
- 混和高斯模型

K平均法
(K-Means)
 將資料分割成K個互不相交的群集，當資料點與該群集中心的相似度
高於其他群集時，則歸類於該群集中，反之，歸屬於新群集，再以新
群集的平均值為中心，反覆計算直到結果收斂。
 目的：使各資料點到所屬群集中心的總距離變異平方和最小
E = 𝒊=𝟏
𝒌
𝒑∈𝑪𝒊 𝒅𝒊𝒔𝒕 𝒑, 𝑪𝒊 𝟐
∀Cluster Ci
把最像的資料分在一起，而“像”這個定義由使用者決定，
如歐基里德距離的最小、曼哈頓距離最小，等等。

1. 隨機指派群集中心：
– 在訓練組資料中「隨機」選取K筆資料點來作為K個初始種子(K個起始群集的
中心點)
2. 產生初始群集：
– 計算每一筆資料到各個種子之間的距離，然後比較該筆資料究竟離哪一個種
子最近，然後這筆資料就會被分配到最接近的那個群集中心，此時就會形成
一個群集邊界，產生了初始群集的成員集合
3. 產生新的質量中心：
– 根據各群集內的每一個資料點重新計算出該群集的質量中心(平均值)，利用新
的質量中心取代之前的隨機種子，來做為該群集新的中心點
4. 變動群集邊界：
– 指定完新的質量中心之後，再一次比較每一筆紀錄與新的群集中心之間的距
離，然後根據距離，再度重新分配每一個案例所屬的群集
5. 持續反覆步驟3和4，一直執行到群集成員不再變動或達到所設定的計算次
數為止
步驟

隨機指派群集中心(K = 3)

產生初始群集

產生新的質量中心

變動群集邊界

動畫示範

K-Means 演算法的優劣
Pros and Cons of K-Means
優點Advantages
 快速
 簡單
 分群效果中上

缺點Disadvantages
 一開始難以決定群集數量與群集中心，且起始群集中心選擇的不同會造成不同
的分群結果及重複次數，運氣成分大
 易受到離群值或雜訊影響，容易使群集中心偏移，可改用K中心法(K- Medoids)
 當群集間的特性非常相似時，可改用柔性群集法(Soft Clustering)
 無法直接處理類別資料，可改用K眾數法(K-Mode)
 資料分佈成甜甜圈時，群集中心可能永不停住
 無法適用於所有的資料群集型態
 群集分界不能是曲線或折線
 須事先決定群集數目
 可能出現空的群集
 群集不能重疊

模糊C-Means分群法
(Fuzzy C-Means Clustering, FCM)
 又稱Soft K-Means，透過模糊邏輯的概念，進一步提升分群的效果。
FCM與K-Means最大的差異在於加入了模糊的概念，資料點x將不在
絕對屬於任何群集，而是以一個介於0-1之間的數字來表示x隸屬於某
個群集的程度
 目的：對於特性相似的群集，可提升分群效果

範例：鳶尾花分群
使用R內建的鳶尾花資料集
iris，將150筆資鳶尾花資料
分群。
資料集共5個欄位：
1. Sepal Length(花萼長度)：公分
2. Sepal Width (花萼寬度)：公分
3. Petal Length(花瓣長度)：公分
4. Petal Width (花瓣寬度)：公分
5. Class(類別)：三個品種
Setosa
Versicolor
Virginica

從資料集中隨機抽10筆顯示其資料內容集欄位

選取原資料集的前3個欄位，
建立新的資料集，共3欄150筆資料
……..

進行FCM分群法，
初始集群設為3個，設定最大計算次數為50次
計算到第23次時已達收斂，
不需再繼續計算

Fuzzy c-means clustering with 3 clusters
Cluster centers:
[,1] [,2] [,3]
1 5.003653 3.412805 1.484776
2 5.874036 2.760273 4.382523
3 6.793625 3.054511 5.644350
Closest hard clustering:
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[43] 1 1 1 1 1 1 1 1 3 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 2 2 2 2 2 2
[85] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 3 3 3 3 2 3 3 3 3 3 3 2 2 3 3 3 3 2 3 2 3 2 3 3
[127] 2 2 3 3 3 3 3 3 3 3 3 3 2 3 3 3 2 3 3 3 2 3 3 2
分群結果

Memberships：
…..

主題模型
- LDA

Things Owen Wilson Says
歐文威爾森電影台詞統計排名

 台詞『as crazy as a road lizard』出現在電影裡的可能性（單純就演
員自由發揮的電影）
P(台詞｜電影) ＝ p(台詞｜歐文威爾森) x p(歐文威爾森｜電影)
＋
p(台詞 | 演員A) x p(演員A | 電影)
＋
p(台詞 | 演員B) x p(演員B | 電影)
+
思考一下…
…

 欲取得每一篇文章的每個字詞的過程：
p（詞 | 文檔）＝ ∑主題 p(詞 | 主題)×p(主題｜文檔)
以一定機率選擇某一主題，而該主題以一定機率出現某一個詞
主題模型

主題模型
 主題模型（Topic Model）在機器學習和自然語言處理等領域是用來
在一系列文件中發現抽象主題的一種統計模型。直觀來講，如果一篇
文章有一個中心思想，那麼一些特定詞語會更頻繁的出現。比方說，
如果一篇文章是在講狗的，那「狗」和「骨頭」等詞出現的頻率會高
些。如果一篇文章是在講貓的，那「貓」和「魚」等詞出現的頻率會
高些。而有些詞例如「這個」、「和」大概在兩篇文章中出現的頻率
會大致相等。但真實的情況是，一篇文章通常包含多種主題，而且每
個主題所占比例各不相同。因此，如果一篇文章10%和貓有關，90%
和狗有關，那麼和狗相關的關鍵字出現的次數大概會是和貓相關的關
鍵字出現次數的9倍。一個主題模型試圖用數學框架來體現文檔的這
種特點。主題模型自動分析每個文檔，統計文件內的詞語，根據統計
的訊息來斷定當前文件含有哪些主題，以及每個主題所占的比例各為
多少。
 主題模型最初是運用於自然語言處理相關方向，但目前以及延伸至例
如生物資訊學的其它領域。

狄利克雷分佈
Dirichlet Distribution
 狄利克雷分布是一組連續多變量機率分布，是多變量普遍化的β分布。
為了紀念德國數學家約翰·彼得·古斯塔夫·勒熱納·狄利克雷（Peter
Gustav Lejeune Dirichlet）而命名。狄利克雷分布常作為貝氏統計的
先驗機率。當狄利克雷分佈維度趨向無限時，便成為狄利克雷過程
（Dirichlet Process）。
 狄利克雷分佈奠定了狄利克雷過程的基礎，被廣泛應用於自然語言處
理(Natural Language Processing, NLP)特別是主題模型（Topic
Model）的研究。

Latent Dirichlet Allocation, LDA
潛在狄利克雷分佈
 潛在狄利克雷分佈簡稱LDA(Latent Dirichlet allocation)，是一種主
題模型，它可以將文件集中每篇文件的主題按照機率分佈的形式給出。
同時它是一種非監督式學習法，在訓練時不需要手工標註的訓練集，
需要的僅僅是文件集以及指定主題的數量k即可。此外LDA的另一個
優點則是，對於每一個主題均可找出一些詞語來描述它。
 LDA首先由Blei, David M.、吳恩達和Jordan, Michael I於2003年提
出，目前在文字探勘領域包括文本主題識別、文本分類以及文本相似
度計算方面都有應用。

 擁有兩種骰子：
1. doc-topic骰子 → K個面，每面是一個topic編號
2. topic-word骰子 → V個面，每面對應一個詞，總共有K個topic-word骰子
 產生一篇文章前，先為這篇文章製造一個特定的doc-topic骰
子，接著不斷重複下列過程來產生文章中的詞：
- 擲doc-topic骰子，得到編號z的topic
- 擲編號z的topic-word骰子，擲骰並產生一個詞
PLSA Model運作機制
(Probabilistic Latent Semantic Analysis)

PLSA Model
交通
經濟教育交通
大學市場高鐵
主題數K
單字數V

 兩桶骰子，第一桶裝doc-topic骰子，第二桶裝topic-word骰子
 隨機從第二桶中獨立抽取K個骰子
 在生成一篇文章前，先從第一桶隨機抽取一個doc-topic骰子，
接著重複下列步驟：
- 擲doc-topic骰子得到編號z的topic
- 選擇K個骰子中編號為z的骰子，擲骰並產生一個詞
LDA運作機制

Latent Dirichlet Allocation, LDA
潛在狄利克雷分佈
PLSA Model
LDA

Canopy演算法
 Recall：
K-Means的缺點 - 起始群集中心選擇的不同會造成不同的分群
結果及重複次數(e.g. 若初始中心為離群值)
 解決方法：
先對資料集進行一個較為『粗略』的分群過程。目的是對全體資料集
進行一個大致上的分組，然後以組為單位，選取各組的中心作為
K-Means的初始群集中心。

1. 將所有資料點記入一個串列中(list)，設定兩個距離值 T1, T2，且T1 > T2
2. 從list中，隨機選取一個資料點作為Canopy的中心點，並將該點從list中
刪除
3. 從list中的第一個資料點開始，計算此點到各個Canopy的距離，如果距
離<T2，則將此點記為強標記，表示此點屬於該Canopy群集，從list中刪
除此點；如果距離<T1，則將此點記為弱標記，但不從list中刪除此點；
如果到任何Canopy的距離都>T1，則將此點設為一個新的Canopy的中
心點，並從list終將此點刪除。
4. 重複第3步驟，比較list中的所有資料點
5. 將list中尚未屬於任何Canopy的資料點設為新的Canopy的中心點
步驟

 8筆資料，{ (8, 8), (7, 7), (6, 6), (7, 7), (2, 3), (1, 1), (0, 0), (3, 3) }
範例
1
2,4
3
5
6
7
8

 首先，選擇量測距離的標準，在此我們選擇曼哈頓距離為距離的量測，
即 | x1 - x2 | + | y1 – y2 |
 設定T1為8，T2為5，T2 < T1
 選取(8, 8)作為第一個Canopy的中心，並從list中移除此點
 第二個點P2(7, 7)距離Canopy1(8, 8)的距離為2 <T2，所以第二個點
屬於Canopy1，將此點加入Canopy1並從list中移除此點
 第三個點P3(6, 6)距離Canopy1(8, 8)的距離為4<T2，所以第二個點
屬於Canopy1，將此點加入Canopy1並從list中移除此點
 第四個點P4(7, 7)與第二個點是相同的
 第五個點P5(2, 3)距離Canopy1的距離為11>T1，所以第五個點不屬
於任何Canopy，新生成一個Canopy2，其中心為(2, 3)，並從list中
移除此點

 第六個點P6(1, 1)距離Canopy1的距離為14>T1，距離Canopy2的距
離為3<T2，所以第六個點屬於Canopy2，並從list中移除此點
 第七個點P7(0, 0)距離Canopy1的距離為16>T1，距離Canopy2的距
離為5=T2，所以將第七個點記為屬於Canopy2的弱標籤，但不將此
點從list中移除
 第八個點P8(3, 3)距離Canopy1的距離10>T1，距離Canopy2的距離
為1<T2，所以第八個點屬於Canopy2，並從list中移除此點
 此時所有Canopy的狀態為：
Canopy1 (8, 8) : [(8, 8), (7, 7), (6, 6), (7, 7)]
Canopy2 (2, 3) : [(2, 3), (1, 1), (0, 0), (3, 3)]
 List中剩下的元素為(0, 0)，將此點作為新的Canopy，Canopy3(0, 0)

 Canopy的最後狀態為：
Canopy1 (8, 8) : [(8, 8), (7, 7), (6, 6), (7, 7)]
Canopy2 (2, 3) : [(2, 3), (1, 1), (0, 0), (3, 3)]
Canopy3 (0, 0) : [(0, 0)]
 最終的Canopy群集中心為(7, 7)，(1.5, 1.75)，(0, 0)
 接著，就可以用此三點作為K-Means的初始群集中心了。

Spectral Algorithms
 廣義上來說，任何演算法中有用到奇異值分解SVD或特徵分解Eigen
Decomposition (又稱譜分解Spectral Decomposition)，都稱為
Spectral Algorithm

矩陣分解
- SVD
- QR

奇異值分解
Singular Value Decomposition, SVD
「對特定資料集合做拆解，以便找出相對數量少卻富含重要資
訊的要素組成新資料集合，並以此來近似原先的資料集合」，
達到以簡馭繁或是減少雜訊的目的( a low-dimensional
representation of a high-dimensional matrix )

A = UΣVT
奇異值分解
Singular Value Decomposition, SVD

Term1 Term2 Term3 …
Doc1
Doc2
Doc3
…
Concept1 Concept2 …
Doc1
Doc2
Doc3
…
Concept1 Concept2 …
Concept1
Concept2
Concept3
… Term1 Term2 …
Concept1
Concept2
Concept3
…

矩陣分解
- SVD
- QR
同樣應用在機器學習上時，也是一種維度縮減的方法。因完
全涉及線性代數的運算，所以不另外說明。

 GMM和K-Means其實是十分相似，差別在於我們對GMM引入機率
的概念。
- 機率模型 P(Y|X)
在分群過程中，根據不同的資料X所獲得Y值的一個機率分佈，
也就是訓練後模型得到的輸出結果不是一個具體的值，而是一系
列值的機率（對分群問題來說，就是對應於各個不同的群的機
率），然後我們可以選取機率最大的那個群集作為判決物件
（屬於軟分類soft assignment）。
- 非機率模型 Y = f(X)
模型是一個決策函數Y=f(X)，輸入資料X是多少就可以投影得到
唯一的一個Y，就是判決結果（屬於硬分類hard assignment）。
高斯混合模型
Gaussian Mixture Model, GMM

學習的過程就是訓練出幾個機率分佈，所謂混合高斯模型就是指對樣本
的機率密度分佈進行估計，而估計的模型是幾個高斯模型加權總和。至
於高斯模型數目則須在訓練前建立完成。每個高斯模型就代表了一個群。
樣本中的資料分別在各個高斯模型上投影，就會分別得到屬於各個群集
上的機率，然後我們可以選取機率最大的群集作為決策結果。
高斯混合模型

高斯混合模型

分類
Classification
 Recall：監督式學習
 找出能描述與鑑別資料類別或概念的模型(函數)之程序，此模型是根
據對於一組訓練資料( training data，即資料物件的類別標籤為已知 )
分析而推演出來的，此模型(亦可稱為分類器)可以對於那些類別標籤
為未知的資料物件，用來預測該資料物件對應的類別標籤
註：機器學習的模型係指演算法與假說集合

資料分類的階段步驟
1. 學習步驟(Learning Step)：即訓練階段，建立分類器(classifier)。
透過訓練資料，建立一個分類器(如分類規則、數學公式)來描述給定
資料集合中的類別或概念資訊。
2. 分類步驟(Classification Step)：評估正確率(accuracy)並進行預測。
使用測試資料集(test set)來評量分類器的準確度，而此測試料集獨
立於訓練資料集。若分類器的正確率被認為是可接受的，則此分類
器可以用來分類未來類別標籤未知的資料。
計算結果
實
際
結
果
混亂矩陣
Confusion Matrix

過度配適(過度學習)
Overfitting
 又稱過度擬合，機器在學習時，對於訓練資料過度訓練，導致模型記
住的不是訓練資料的一般特性，而是學習訓練資料集中某些特別的異
常資料或局部特性，而這些訓練資料集中的異常並不會出現在一般化
的整體資料集中。
 需注意於訓練資料建立的分類器其正確率是否過於樂觀，若過於樂觀
的話，此分類器可能傾向過度配適於訓練資料集，對測試樣本的分類
會變得不精確
計算結果
實
際
結
果

Overfitting

分類演算法
- 羅吉斯迴歸
- 隨機森林
- 隱馬可夫模型
- KNN
- SVM
- 類神經網路

羅吉斯迴歸
Logistic Regression/ Logit Regression
 又稱邏輯迴歸/成長曲線迴歸，是一種複迴歸
 迴歸分析：描述兩個或多個變數間的關係，建立因變數Y（或稱依變數、
反應變數）與自變數X（或稱獨立變數、解釋變數）之間關係的模型
 簡單線性迴歸使用一個自變數X
 複迴歸(多變量迴歸、多元迴歸)使用超過一個自變數(X1 , X2 , X3 , …, Xi )
 一般所指的迴歸分析之自變數：連續變數或虛擬變數
因變數：連續變數
 羅吉斯迴歸的自變數：連續變數或類別變數
因變數：類別變數

 羅吉斯迴歸→二元羅吉斯迴歸 (簡稱羅吉斯迴歸)
多項式羅吉斯迴歸/多元羅吉斯迴歸 (沒人簡稱它)
 Example：
1. 用父母的身高(X1 , X2 ) 小孩的身高Y (幾公分)
2. 用父母的身高(X1 , X2 ) 小孩的身高是否170公分以上
3. 用父母的身高(X1 , X2 ) 小孩的身高在哪個區間
150↓、(150, 160]、(160, 170]、170↑
 Answer：
1. 複迴歸
2. 羅吉斯迴歸
3. 多項式羅吉斯迴歸
羅吉斯迴歸
預測/解釋

 二元羅吉斯迴歸又譯作「二元勝算對數分析」（binary logit
analysis）
 對於欲預測的結果類別為1或0：
p( y = 1 | x ) =
𝑒 𝑓(𝑥)
1 + 𝑒 𝑓(𝑥)
 使用時機點：
預測或評斷二元選擇事件發生的機率。例如，治療方式是否有效？
價格會上漲或下跌？A隊與B隊，誰將贏得比賽？
羅吉斯迴歸

範例：糖尿病診斷
Julian Faraway教授於2016年2月12釋出
的R套件faraway，其中的pima資料集為
來自加州大學爾灣分校的768筆去識別化
的美國原住名女性病人的糖尿病診斷資料

9
個
欄
位
(
變
數
)

 選擇在統計上具顯著性的變數，且須考慮變數間的共線性關係，此步驟省略
 使用bmi變數建立簡化的模型：
 推斷BMI指數為32的女性印地安人其糖尿病診斷結果為陽性的機率：
 預測BMI指數落於第90個百分位的女性原住民其糖尿病診斷為陽性的機率：

進行羅吉斯迴歸前，需考慮個變數間的共線性，如果沒有消除變數間的較大的共線性
關係，會造成羅吉斯迴歸的不穩定。而消除共線性可考慮使用主成份分析法。
 一種維度縮減的方法
 原理：對原有的變數進行線性組合，產生新的變數
 特點：
1. 很少的幾個變數即可表達原來絕大部份的資訊
2. 這些變數之間是無線性關係的
 對羅吉斯迴歸帶來的好處：
減少了變數的個數，而只損失很少的資訊
主成份分析
Principal components analysis, PCA

決策樹
Decision Trees
 藉由已知分類的事件集合來建立一樹狀結構，並從中歸納出事件集合裡
的某些規律；而產生出來的決策樹，也能利用來做樣本外的預測。
 步驟：
1. 資料設定：將原始資料分成兩組，分別為訓練資料集及測試資料集
2. 決策樹生成：使用訓練資料集來建立決策樹，而在每一個內部節點，
則依據屬性選取量測(attribute selection measure/method)來評估
選擇哪個屬性做為分支的依據。又稱節點分割(splitting node)、分割
規則(splitting rule)，因為它決定在某個節點上的值組被如何分割
3. 剪枝：使用測試資料集來進行決策樹修剪
4. 重複步驟1~3，直到所有的新產生節點皆為樹葉節點為止
常見決策樹演算法：ID3、C4.5、C5.0、CART、CHAID

預估「是否會玩網路遊戲」
年紀 ?
學生 ? 有工作 ?會
25 - 35 > 35< 25
會不會不會會
是不是有沒有

決策樹的修剪
 當原始訓練資料呈現不完整、稀疏或是含有雜訊時，則容易造成決策
樹「過度配適」的問題，以至於所產生的決策樹太過於複雜，因此必
須再做適當的修剪。
 發生過度配適的主要原因有兩個：
– 屬性太多：演算法剛好選擇到和類別不相關的屬性。
– 偏差(Bias) ：每個演算法都有屬性選擇的偏好順序，因此可能發
生演算法偏好的屬性和類別毫不相關。

隨機森林
Random Forest
 Brieman在2001年提出的Random Forest決策樹即為隨機森林
 將訓練樣本所有觀察值作多次抽出放回的隨機取樣(拔靴法Bootstrap)，
再用這些隨機樣本建構出數百數千棵決策樹，一個新物件會被分到哪個
分類是由許多樹共同投票來決定
 隨機森林可以應用在分類，也可以用在集群分析的領域

隱馬可夫模型
Hidden Markov Model, HMM
 Hidden Markov Model 是機器學習領域中常常用到的理論模型，從語
音辨識（Speech Recognition）、手勢辨識（gesture recognition），
到生物資訊學（Bioinformatics）裡的種種應用，都可以見到這個工具
的身影。
 目前應用最為成功的語音辨識系統大多是基於隱馬可夫模型建構的，如
CMU的Sphinx連續語音辨識系統，對997個單字在有/無文法限制條件
下，識別率分別為96%和82%，IBM的Tangora語音辨識系統在2000個
單字下的辨識率為95%

以上圖示截自網頁http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/
隱馬可夫模型

隱馬可夫模型
以上圖示截自網頁http://cmusphinx.sourceforge.net/

隱馬可夫模型
柏拉圖的洞穴預言（Allegory of Cave）

 馬可夫鏈與馬可夫模型的延伸
 馬可夫鏈：一連串事件接續發生的機率
同類型的事件（不同的狀態）依序發生的機率，舉例來說，假設天氣有
三種狀態：「晴天」、「陰天」跟「雨天」。如果昨天是雨天，那麼今
天是「雨天」的機率，會跟昨天是「晴天」而今天是「雨天」的機率有
所不同，這是因為我們相信天氣現象在時間上有某種連續性，前面發生
的狀態會影響到後面發生的狀態，而馬可夫模型就是描述這種前後關係。
隱馬可夫模型

「隱馬可夫模型」，顧名思義的，就像是有什麼東西「隱藏」起來了。以天氣為例，假
如我因為腳受傷，必須住在一個房間裡，看不到外面的天氣（純粹假如…），但是我可
以看到我隔壁房間的室友每天從事的運動：「跑步」、「健身操」或是「游泳」。
如果把室友每天從事的運動項目記錄下來，就是他「運動」這個事件的馬可夫鏈，這是
我可以觀察的到的現象。然後，我又依照過去的經驗，知道在每種天氣狀況下，他從事
各項運動的機率，那麼我是不是可以透過我的觀察和經驗知識，去推測每天的天氣？
在這個例子裡，有兩個事件的序列：一個是我觀察得到的，室友每天所從事的運動項目；
另一個是我看不到的，也就是對我來說是隱藏的，「外面每天的天氣」。由於我知道這
兩個馬可夫鏈之間的關係，所以我便可以由其中一個馬可夫鏈的狀態，去預測另一個馬
可夫鏈的狀態。而「隱馬可夫模型」，便是描述這樣的兩個序列的關係的統計模型。

 簡單的說，「隱馬可夫模型」提供了一套數學的理論以及工具，讓我們可以
利用「看得到的」連續現象去探究、預測另一個「看不到的」連續現象。
當然，這裡的「看不到」並不表示真的無從觀察，以前面所舉的例子來說，
我在腳沒受傷的時候，還是可以到外面去觀察天氣的，只是在某個特定的條
件之下，天氣對我來說被隱藏起來了。
隱馬可夫模型

3種骰子及其可能產生的結果
每個骰子被挑到的機率：1/3
骰
子
每
面
機
率
1/6 1/4 1/8
初始狀態機率
( initial state probability )
隱馬可夫模型

隱馬可夫模型
可見狀態鏈
隱含狀態鏈
轉換機率(transition probability)：
隱含狀態之間的機率
D6 → D4, D6,D8 : 1/3
D4, D8 → D4, D6, D8 : 1/3
輸出機率(emission probability)：
隱含狀態和可見狀態之間的機率
D6 → 1 : 1/6 D6 → 2,3,4,5,6 : 1/6

西瓜偎大邊大法

最近鄰居法
K-th Nearest Neighbor, KNN
 監督式學習
 步驟：
1. 對屬性進行正規化(normaliztion)
2. 計算未知資料點與K個訓練資料點的距離(依據問題選擇適當的距離度量法)
3. 計算K-NN的錯誤率
4. 重複步驟2和3，選擇錯誤率較低的K-NN便決定最佳K值
5. 分類或預測未知資料點

KNN方法
1-NN
K = 1, 黑點被分類為藍色

7-NN
K = 7, 黑點被分類為紅色
KNN方法

KNN的優劣
Pros and Cons of KNN
Advantages
 易推測結論
 能運用於任何資料型態，
甚至是非關聯式資料庫上
Disadvantages
 空間複雜度高，計算量大
 特徵的選取不易
e.g.
如果用頭髮長度和臉大小的
面積來讓判斷，如果遇到留
長髮的男生或是輪廓比較大
的女生，可能就判斷錯誤。

支持向量機
Support Vector Machine, SVM
 又譯支援向量機
 監督式學習
 線性/非線性的分類方法
 訓練時間可能會很久，但能夠建構出複雜的非線性決策分界線，且具
有極高正確率，相較於其他分類方法，SVM較沒有過度配適的問題。

使用非線性轉換 (nonlinear transformation) 將原始資料映射 (mapping) 至較
高維度的特徵空間 (feature space) 中，然後在高維度特徵空間中,它找出一個
最佳的線性分割超平面 (linear optimal separating hyperplane) 來將這兩個類
別的資料分割開來，此分割超平面也可稱為決策分界線 (decision boundary)。
藉由挑選適當的非線性轉換，以及將資料映射至足夠高維度的特徵空間，這兩
個類別的資料在高維度特徵空間中必定能被一個超平面分隔開來，SVM利用重
要的資料作為建構分割超平面的支持向量 (support vector)，而最佳的超平面
係指邊界 (margin) 最大化的超平面。
SVM原理

 若資料點為線性可分割(linear Separable)
Case A

 若資料點為非線性可分割(non-linear Separable)
Case B

類神經網路
Artificial Neural Network, ANN
 又稱人工神經網路或簡稱為神經網路(Neural Network, NN)
 非線性資料建模工具
 具有平行計算及訊息分散處理的能力
 依學習策略（Algorithm）分類：
- 監督式學習(大宗)
- 非監督式學習
- 混合式學習(Hybrid Learning)
- 聯想式學習(Associate Learning)
- 最適化學習(Optimization Application)
 依網路架構(Connectionism)分類：
- 前授型(Feed Forward)
- 回饋型(Recurrent)
- 強化型(Reinforcement)

 「當人腦在學習不同的事物時，每個腦細胞的連結都隨時在改變，如
果一個腦細胞受到另一個腦神經細胞連續的作用時，他們之間的連結
力量就會增強」 - Donald O. Hebb
(Donald O. Hebb提出的學習規則，與實際的神經細胞的學習規則是否完全相符，仍存有
許多的爭議。但是這個學習規則卻引導了幾十年來大家在神經網路上的研究。)
Hebbian Learning

Hebbian Learning
VS.
STDP
(Spike Timing Dependent Plasticity)

圖片取自網頁：http://si.secda.info/buss-math/index.php/2013-01-12-15-28-58/2012-09-23-07-08-48

Example
節點1
節點3
節點2
節點j
W1j = 0.2
W2j = 0.3
W3j = -0.1
1.0
0.4
0.7
𝝨 f(x)
x = 𝝨(Wij)(輸入值)
= (0.2)(1.0) + (0.3)(0.4) + (-0.1)(0.7) = 0.25
f(x) =
1
1+ 𝑒−𝑥
f(x = 0.25) ≈ 0.562 = yj
yj

前授型類神經網路
Feed Forward Neural Network
回饋型類神經網路
Recurrent Neural Network
圖片取自網頁：http://blog.josephwilk.net/ruby/recurrent-neural-networks-in-ruby.html

Input Layer Output LayerHidden Layer
圖片取自網頁：http://si.secda.info/buss-math/index.php/2013-01-12-15-28-58/2012-09-23-07-08-48
倒傳遞網路
Back-Propagation Network, BPN

 輸入層：
輸入外在環境的訊息，通常就是所要學習的項目類別。以先前判斷交通工具
為例，「交通工具大小」、「交通工具形狀」、「動力來源」就是三種要輸
入的變數項目。
 隱藏層：
使用非線性轉換函數，層內的節點無標準方法可決定，通常以試驗方式
決定最佳數目，並提供處理單元間的交互作用，與反應問題的內在架構。
較多的隱藏層數通常表示處理的問題複雜程度較高，但過多的隱藏層會
導致學習過程難以收斂，一般以一至二層時具有最好的收斂效果
 輸出層：
訊息在神經元中經過演算法的判斷、歸納等學習過程，形成輸出結果。同樣
以判斷交通工具為例，「腳踏車」、「機車」、「汽車」、「巴士」、「貨
車」就是輸出的結果。

1. 學習階段(Learning)
在學習過程中，網路依學習演算法，從範例中學習，經反覆的運算，以
調整網路連結的加權值。
2. 回想階段(Recalling)
在回想過程中，網路接受外來輸入，並依回想演算法，經反覆運算後，
由輸出層神經元將結果送出。
類神經網路的運作過程

 平行處理
 錯誤容忍度高
 聯想記憶（Associative Memory）
 解決最佳化（Optimization）問題
類神經網路特性

 黑箱：可解讀性差
類神經網路就像一個黑盒子，我們如何理解類神經網路學習到什麼知識
呢？類神經網路最大的缺點是知識的表達方式，對於網路中互相連結的
處理單元，從這些聯結上的權重值取得的知識是很難被人類所理解的，
這項特質激勵許多學者研究如何萃取出鑲嵌在訓練過類神經網路上的知
識，並且符號化的表達這些知識，這些方法包含規則萃取與敏感度分析
(sensitivity analysis)。
類神經網路的缺點

深度學習
Deep Learning
類神經網路過去因為電腦計算能力的不足，卻又需耗費龐大的計算能力，
以及只有一層隱藏層時效果不如羅吉斯迴歸等傳統統計，多層隱藏層時
又因當時電腦計算能力的不足而導致效能不佳，以致80年代後期，類神
經的研究就進入大寒冬，連各家期刊都把類神經打入冷宮，只要有類神
經字眼的論文一律視為垃圾不刊登，但在2006年，Hinton等人提出新的
類神經觀點，但為了不讓黃金變垃圾，所以他們用了另一種字眼來詮釋
類神經網路，也就是”深度學習”，而他們那年發表了「A fast
learning algorithm for deep belief nets」這篇論文，讓類神經網路就
此復甦，再加上摩爾定律的效應與分散式架構的興起，現今的硬體運算
能力已足夠讓深度學習有更蓬勃的發展。

「A fast learning algorithm for deep belief nets」

的核心技術
卷積神經網路
+
增強式學習
+
蒙地卡羅搜尋樹
策略網路
評價網路

 局部感知域(local receptive fields)
 權重共享(shared weights)
 池化(pooling)
卷積神經網路
Convolutional Neural Networks, CNN

AlphaGo的第一個大腦「策略網路」基本上就是一
個單純的監督式學習，用來判斷對手最可能的落子
位置。它的做法是大量的輸入這個世界上職業棋手
的棋譜，用來預測對手最有可能的落子位置。在這
個網路中，完全不用去思考「贏」這件事，只需要
能夠預測對手的落子即可。
策略網路
Policy Network

AlphaGo的第二個大腦是評價網路。在評價網路中則是關注
在目前局勢的狀況下，每個落子位置的「最後」勝率，而非
是短期的攻城略地。也就是說策略網路是分類問題(對方會下
在哪)，評價網路是評估問題(我下在這的勝率是多少)。評價
網路並不是一個精確解的評價機制，因為如果要算出精確解
可能會耗費極大量的計算能力，因此它只是一個近似解的網
路，而且透過卷積神經網路的方式來計算出卷積核範圍的平
均勝率，最終答案會留到最後的蒙利卡羅搜尋樹中解決。
評價網路
Value Network

蒙地卡羅搜尋樹
Monte-Carlo Tree Search, MCTS
選取→展開→評估(模擬)→倒傳導(更新)

預測演算法
- ARIMA
(整合移動平均自我迴歸模型
Autoregressive Integrated Moving Average model)
- GM(N, M)
(灰色預測模型 Grey Model)
- SARIMA
- (季節整合移動平均自我迴歸模型 Seasonal ARIMA)
- 多元迴歸
- ARMAX-GARCH

控制理論中，常用顏色的深淺形容資訊的明確程度，如用“黑”表示資訊未知，
用“白”表示資訊完全明確，用“灰”表示部分資訊明確、部分資訊不明確。相
對地，資訊完全透明的系統稱為白色系統；資訊完全不透明的系統稱為黑色系統；
部分資訊明確、部分資訊不明確的系統稱為灰色系統。灰色系統理論的研究對象
是「部分資訊已知，部分資訊未知」的貧乏資訊不確定系統
主要是針對系統模型之不明確性，資訊之不完整性之下，進行關於系統的關聯分
析（Relational Analysis）、模型建構（Constructing A Model）、借由預測
（Prediction）及決策（Decision）之方法來探討及瞭解系統。
灰色系統理論
Grey System Theory

 差異訊息原理
差異是資訊，凡資訊必有差異。e.g. 兩件事物不同，即含有一事物對另一事
物之特殊性有關信息
 解的非唯一性原理
由於系統信息的不確定性，就不可能存在精確的唯一解
 最少訊息原理
灰色系統理論的特點是充分開發利用已占有的最少訊息，研究小樣本、貧乏
訊息不確定性問題，所獲得的訊息量是判斷灰與非灰的分水嶺
 認知根據原理
資訊是認知的根據，認知必須以資訊為依據
 新訊息優先原理
新訊息認知的作用大於舊訊息，直接影響系統未來趨勢，對未來發展起主要
作用的主要是現實的訊息
 灰性不滅原理
資訊不完全是絕對的
灰色系統理論的基本原理

灰色系統理論主要內容
 處理灰元
信息不完全的元素，稱之為灰元或灰參數
 淡化(白化)
如何使系統結構上、模型上、關聯上由灰變白，或使系統的白度增加

灰色系統應用
 灰色預測
人口預測、初霜預測、災變預測…等等
 灰色關聯度分析
語音辨識
 灰色決策
 灰色預測控制

現實世界中，許多系統即使是有大樣本，分佈也不一定是典型的，非典型的隨機
過程是難以用統計方法處理的，且現實中的許多灰系統，因為沒有物理原型，資
訊難以完全判斷，而且數據很少，就難以用統計方法處理。
 不需要大量的樣本（四筆以上）。
 樣本不需要有規律性分布。
 計算工作量小。
 定量分析結果與定性分析結果不會不一致。
 可用於近期、短期，和中長期預測。
 灰色預測精準度高。
灰色分析的優點

蒐集國泰女子籃球隊參加第十六屆瓊斯盃籃球賽，所遭遇的6個隊伍、7場比賽時，
11種籃球攻防技術表現得失分資料，且依時間順序，列成動態數列，以灰色系統關
聯理論來分析探討各場次勝率與11種籃球攻防技術之間的動態發展關聯，以了解11
種攻防技術在國泰女子籃球隊中應佔地為及其對比賽勝率所起的作用，並預測其未來
攻防技術表現。
1、應用關聯分析法探討各種攻防技術與比賽勝率之間的相互關係及他們在國泰女籃
隊運動訓練過程中應佔的地位，對於科學安排、控制訓練全部過程及對提昇其比賽成
績提供量化的參考。
2、以國泰女籃隊參加第十六屆瓊斯盃的比賽攻防技術表現為依據，應用GM（1，1）
建模的方法預測未來階段訓練之精確定量描述，以提供教練訓練過程中作為檢查評定
的依據，以期有助於訓練目標的實現與實力的提昇。
國泰女子籃球隊參加
第十六屆瓊斯盃籃球賽

資料降維演算法
- PCA
- K-PCA
- 字典學習(Dictionary Learning)
- 因素分析

核主成份分析
Kernel Principal Component Analysis, KPCA
 大多簡稱為”Kernel PCA”
 PCA為變數(維度)間的線性組合，但時常變數間的關係是非線性的，
若勉強使用PCA則效果會不突出，此時則需使用Kernel PCA來達成
效果佳的資料降維。
 PCA的非線性擴展

因素分析
Factor Analysis, FA
 又稱因子分析
 結構方程模式分析(Structural equation model，簡稱SEM)裡面的一環
 探索性因素分析(Exploratory Factor Analysis)：
在無限制下，找出因素的結構
驗證性因素分析(Confirmatory Factor Analysis)：
在已知可能的結構下，驗證是否仍適用
 起源於心理學研究。在心理學上常會遇到一些無法直接量測的因素，例如人
的智力、EQ、人格特質、食物偏好、消費者的購買行為等。對於這些無法明
確表示(抽象的)或無法測量的因素，希望可以經由一些可以測量的變數，加
以訂定出這些因素。

因素分析是一種縮減維度的技術，能以較少的維度(構面)來表示原先的資
料結構，而又能提供原先的資料結構所具備的大部分資訊內涵，也就是
說，它是一種能夠將一組具有共同特性的測量分數，抽離出背後潛在構
念的統計分析技術，所以被廣泛用在：
 證實量表要量測的潛在特質。
 釐清潛在特質的內在結構。
因素分析技術

 構面或因素隱含在許多可觀察(可測量)的事物，雖然這些內容無法像
高度、重量、距離一樣，可以利用工具直接測量得到，但是我們可以
從構面或因素隱含的事物上，運用數學模式去計算出其內涵。
 為了計算這些內容，因素分析假設每個變數維度，均由二個部分析構
成：即共通因素(common factor)和獨特因素(unique factor)。
 其計算的數學原理是共變異(covariance)的抽取，也就是說，受到同
一個構面(因素)影響的測量分數，共同相關的部分，就是構面所在的
部份，以統計術語來說，構面是由被稱為「因素」的共同相關的部分
得分來表示。
基本假設

 有k個變數X1、X2、…、Xk，則一個變數Xi的變異可分成幾個部分：
共通性(communality)：變數Xi的變異量成份中，屬於與其他變數共通的部分
獨特性(uniqueness)：變數Xi的變異量成份中，不屬於與其他變數共通的部分
特定性(specificity)：變數Xi的變異量獨特成份中，屬於可信賴的部分
可信賴性(reliability)：變數Xi的變異量成份中，屬於共通與特定的部分
隨機誤(random error)：變數Xi的變異量獨特成份中，屬於不可信賴的部分
變異成份概念

變數組成的特性
共通因素的特性
 共通因素數目＜變數數目
 所有共通因素間彼此可能有
相關，也可能沒有相關
 直交轉軸狀態下，表示共通
因素間彼此無相關
 斜交轉軸狀態下，表示共通
因素間彼此有相關
獨特因素的特性
 每個指標皆有一個獨特因素，
若量表有n個題項，就有n個唯
一因素
 唯一因素有二個假定特性：
1. 所有的獨特因素間彼此無相關
2. 唯一因素與所有的共通因素間無
相關

因素分析模式

變數
(變項)
共通性
(共同性)
獨特性
(唯一性)

四個變項在二個共同因素上的因素負荷量分別為
a11、…、a42。

將各個變項在二個共同因素上的因素負荷量平方
值加起來，即可得該變項的共同性

各個變項的獨特因素為( 1-共同性 ) = ( 1-hj
2)

將各個變項在某個共同因素上的因素負荷量平方
值加起來，即可得某共同因素的特徴值

將特徵值除以變項數(此例為4)，
即得某共同因素的解釋量

 因素
因素分析模式中的因素F，實質上並不是一個隨機變數，而是一群隨機變
數的函數，即F = f(W1, W2, …, Wt)，而Wi是一個隨機變數，它可以是
模式中的隨機變數X或其他未知的變數。
 因素矩陣

9個隨機變數X1, …, X9，若變數X1、X4、X5和X8彼此具高度相關，而變數
X3和X7個關係與變數X2、X6和X9的關係亦為高度相關，但這三群變數間彼
此無關，則會產生三個因素F1、F2和F3

 因素負荷
因素分析模式中，因素負荷量 𝞪ij是一組線性方程式中的係數，
其用以度量共通因素Fj對隨機變數Xi之共通變異的貢獻度。若變數與因
素均已標準化且各因素間彼此是獨立的，則因素負荷量是一個表示該變
數與因素間相關性的指標，其意義與兩者的相關係數類似。因素負荷量
愈高，則變數對因素之本質意義的影響就愈大，因此因素的內涵(名稱、
特質)可由一群高因素負荷量的變數來引申。

以SPSS實作Wine資料集的FA

因素分析步驟程序

過關
過關

萃取3個共同因素，
轉軸後的解釋變量是66.530

因為擷取設定時，
要求特徵值大於1

此步驟的主要目的是要使因素容
易解釋。換言之，經由轉軸的過
程，可使與因素具有高度相關的
隨機變數群顯現出來，以便於我
們判斷變項與共同因素的屬性，
因而使得因素的涵義更加明確，
因素轉軸
Factor Rotation
容易命名，故轉軸後，變項在每個因素的負荷量不是變大就是變小。

因素分數
Factor Scores
當因素決定後，每個個案的因
素資料就可依需要求出，這些
因素分數將可進一步地應用，
對研究問題做深入的探討

群體識別
- User-Based
- Item-Based
- Slope one
- 基於分類
- 基於SVD
- 基於RBM

 利用與特定使用者擁有類似經驗之群體的所顯示的偏好來推薦使用者
感興趣的資訊，或預測使用者未呈現的偏好資訊，個人透過合作的機
制給予資訊相當程度的回應（如評分）並記錄下來以達到過濾的目的
進而幫助別人篩選資訊，回應不一定侷限於特別感興趣的，特別不感
興趣資訊的紀錄也相當重要。
 協同過濾又可分為評比（rating）或者群體過濾（social filtering）
 簡單的說，就是我們常看到的推薦系統(recommendation system)
協同過濾
Collaborative Filtering, CF

協同過濾的優劣
Pros and Cons of CF
Advantages
 不需進行內容分析。
 能夠對複雜的、難以表述的概念（如資訊品質、個人品味）進行
推薦
 有推薦新資訊的能力，可以發現使用者潛在的的偏好
 能做個人化推薦
 自動化程度高

Disadvantages
 Cold Start 問題。新使用者及新項目剛出現時，CF系統的推薦品質較差
 稀疏性問題（Sparsity）：
在許多推薦系統中，每個用戶涉及的信息量相當有限，在一些大的系統
如亞馬遜網站中，用戶最多不過就評估了上百萬本書的1%~2%。造成評
估矩陣數據相當稀疏，難以找到相似用戶集，導致推薦效果大大降低。
 系統擴展性問題（Scalability）：
「最近鄰居」算法的計算量隨著用戶和項目的增加而大大增加，對於上
百萬之巨大數目，通常的算法將遭遇到嚴重的擴展性問題。
 系統精確性問題（ Accuracy）：
通過尋找相近用戶來產生推薦集，在數量較大的情況下，推薦的可信度
隨之降低。

 用相似統計的方法得到具有相似愛好或者興趣的相鄰使用者，並給予推薦
 步驟：
1. 收集使用者資訊
2. 最近鄰搜尋(Nearest neighbor search, NNS)
3. 產生推薦結果
以使用者為基礎的協同過濾
User-based

 以使用者為基礎的協同推薦演算法隨著使用者數量的增多，計算的時間就
會變長，所以在2001年Sarwar提出了基於項目的協同過濾推薦演算法
(Item-based Collaborative Filtering Algorithms)。以項目為基礎的協同
過濾方法有一個基本的假設「能夠引起使用者興趣的項目，必定與其之前
評分高的項目相似」，透過計算項目之間的相似性來代替使用者之間的相
似性。
 步驟：
1. 收集使用者資訊
2. 針對項目的最近鄰搜尋
3. 產生推薦結果
以項目為基礎的協同過濾
Item-based

 User-Based CF
如果要預測 user A 對 4 的評價，因為 user B 對 4 的評價是 5 分，
user F 對於 4 的評價是 1 ，則
user A → 4 分數 = 5 * similarities (user A, user B)
+
1 * similarities (user A, user F)
預測 user A 對 movie1和movie4 的評價

 Item-Based CF
要預測 user A 對 4 的評價，因為 user A 對 2 和 3 的評價都是 1 ，則
user A = 1 * similarities (item 4, item 2)
+
1 * similarities (item 4, item 3)

User B 會給 Item J 打幾分?
Slope One 的答案是：2.5
( 2 + (1.5 - 1) = 2.5 )
Slope One

Slope-One演算法的想法為：
平均值也可以代替某兩個未知個體之間的評分差異
Gal Gadot對Film_The Vampire Diaries的評分是幾分？
Jessica Alba對Film_Fast and Furious的評分是幾分？

Gal Gadot對Film_The Vampire Diaries的評分是幾分？ 3.5
[(5 – 4) + (3 - 5)]/2 = -0.5
(人們對The Vampire Diaries的評分一般比Sin City的評分高-0.5分)
4 + (-0.5) = 3.5
Jessica Alba對Film_Fast and Furious的評分是幾分？4.5
[(4 - 3) + (4 - 5)]/2 = 0.5
(人們對Sin City的評分一般比Fast and Furious的評分高0.5分)
5 – 0.5 = 4.5

目前廣泛被使用的評估工具有兩大類，第一類考量的是推薦系統的正確
性（Accuracy），也就是計算推薦系統的預測與消費者行為的誤差有多
大，誤差愈小，推薦系統的精準度愈高。
評估推薦系統

正確性的評估，還可以再細分為 Prediction Accuracy 和 Decision-Support
Accuracy ，前者以 MAE （Maximum Average Error）、RMSE （Root
Mean Square Error）等常用的統計工具，計算推薦系統對消費者喜好的預測
與消費者實際的喜好間的誤差平均值；而後者則以 Reversal Rate 、Precision-
Recall 或 ROC曲線為主要工具。。
Prediction Accuracy 指標很容易理解，計算方式也不複雜，Netflix Prize競賽，
就是以 Prediction Accuracy 作為評定得獎與否的依據，根據競賽辦法，得獎
者演算法的 RMSE 數值，需要比 Netflix 公司目前使用的推薦系統Cinematch
低百分之十，才能獲得百萬大獎。

frequent pattern

以R實作Item-Based CF的電影推薦
……
共10萬筆資料
userID：會員編號
itemID：電影編號
rating：評分
timestamp：時間戳記

itemID

將表格轉成稀疏矩陣Sparse Matrix能降低佔用的空間
(以10m的資料為例，原始的矩陣為5.6G，
經過sparse轉換後僅剩115m)
不過本範例只有100K大小

將電影資料分群
分成21個群：
……
群集編號：
itemID

定義相似度
輸入群集編號，則吐出
該群集內所有電影編號
計算群集內所有電影的
兩兩相似度
輸入電影編號，吐出同
一群集內與之相似程度

Item-base CF評價預測公式輸入會員與電影編號，依據Item-
based CF公式，回傳此會員對此
電影的評價預測
輸入會員編號，依據Item-based CF公式，
回傳此會員對所有電影的評分或評價預測
計算預測結果準確度：
預測值與實際值的差異平方
（RMSE）

預測評價隨機選取會員與電影，共50次，
計算每次的評價預測及準確度，

…
User_459對item_222的喜好程度，
我們預測的結果是4.19分，
其準確度約為0.19337
此50次評估預測的平均準確度約為
0.17978

參考文獻
1. 簡禎富、許嘉裕(2014)，”群集分析”，
https://dalab.ie.nthu.edu.tw/DMclass/file/%E8%B3%87%E6%
96%99%E6%8C%96%E7%A4%A6%E8%88%87%E5%A4%A7%
E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90_Ch6%20%
E7%BE%A4%E9%9B%86%E5%88%86%E6%9E%90_2014.pdf
2. 陳鐘誠(2010)，”K-Means分群演算法”，
http://ccckmit.wikidot.com/ai:kmeans
3. 維基百科，http://www.wikiwand.com/zh-tw/Wiki
4. Richard J. Roiger, Michael W. Geatz著，曾新穆、李建億譯
(2011)，”資料探勘 Data Mining A TUTORIAL-BASED
PRIMER”，Addison Wesley，東華書局
5. 張智星Roger Jang(2005)，” Data Clustering and Pattern
Recognition (資料分群與樣式辨認)”，
http://mirlab.org/jang/books/dcpr/

6. Stackoverflow，http://stackoverflow.com/
7. 江任捷，”演算法筆記”，
http://www.csie.ntnu.edu.tw/~u91029/index.html
8. WIKIBOOKS，https://en.wikibooks.org
9. 林淑芬，臺灣大學計算機及資訊網路中心教學研究組程式設計
師，”R統計分析與資料探勘入門—以鳶尾花資料集為例“，台灣大
學計算機及資訊網路中心，
http://www.cc.ntu.edu.tw/chinese/epaper/0031/20141220_31
05.html
10. 番婆林觀光花園，http://fpl.myweb.hinet.net/iris.htm
11. 謝舒凱，台大語言學研究所語言處理與人文計算實驗室，台大通識
課課程講義，”語言分析與資料科學 Linguistic Analysis and Data
Science”，
https://loperntu.gitbooks.io/ladsbook/content/index.html ，
https://www.gitbook.com/book/loperntu/ladsbook/details
12. 鄒慶士、湯明軒（2015），”文字資料探勘“，文字資料探勘實作
班，財團法人資訊工業策進會

13. Jiawei Han, Micheline Kamber, Jian Pei 著，郝沛毅、李御璽、黃
嘉彥譯(2014)，”資料探勘 DATA MINING Concepts and
Techniques 3/e”
14. 演衡學習筆記，https://c3h3notes.wordpress.com/
15. 陳倩瑜(2015)，國立台灣大學生物產業機電工程學系，”機器學習
於巨量生醫資料分析之應用”
16. 陳世杰，國立聯合大學資訊管理學系，”決策樹學習Decision Tree
Learning”
17. Greg Grudic, Longin Jan Latecki, Piyush Rai, “Decision Trees”
18. 研究生2.0，http://newgenerationresearcher.blogspot.tw/
19. Paul Teetor 著，張夏菁譯，O′REILLY，”R 錦囊妙計”
20. 泛科學(2013)，”隱馬可夫模型：探索看不到的世界的數學工具”
21. 黃俊傑，”KNN演算法”
22. 石傑方(2004)，“類神經網路”，
http://neuron.csie.ntust.edu.tw/homework/93/NN/homewor
k2/M9304302/welcome.htm
23. http://si.secda.info/buss-math/index.php/2013-01-12-15-28-
58/2012-09-23-07-08-48

24. 服務科學的分子廚房 MOLECULAR SERVICE SCIENCE，
HTTP://MOLECULAR-SERVICE-SCIENCE.COM/2014/07/16/EIGEN-
VALUE-SINGULAR-VALUE-DECOMPOSITION-PRINCIPAL-
COMPONENT-ANALYSIS/
25. 尹相志(2016)，尹相志Allan‘s blog，”淺談Alpha Go所涉及的深度學習
技術”，https://dotblogs.com.tw/allanyiin/2016/03/12/222215
26. Ramesh Sridharan，”Gaussian mixture models and the EM
algorithm”
27. 陳俊嶧(2010)，”一個蒙地卡羅之電腦圍棋程式之設計 A Design of
Monte-Carlo Computer Go Program”
28. 于天立，泛科學(2016)，”AlphaGo成為「棋靈王」是有多厲害？人工智
慧未來又要怎麼走？”
29. 陳順宇，”多變量分析”
30. MBA智庫百科，http://wiki.mbalib.com/zh-tw/
31. 協同過濾（Collaborative Filtering）簡介，
http://blog.xuite.net/metafun/life/131996342-
%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE%EF%BC%88C
ollaborative+Filtering%EF%BC%89%E7%B0%A1%E4%BB%8B
32. 洪欽銘，”決策理論與實務”

33. 简单高效的推荐算法：Slope one，
http://blog.xuite.net/metafun/life/184706454-
%E7%AE%80%E5%8D%95%E9%AB%98%E6%95%88%E7%9A%84
%E6%8E%A8%E8%8D%90%E7%AE%97%E6%B3%95%EF%BC%9AS
lope+one
34. Jared P. Lander 著，鍾振蔚譯，”R軟體資料分析基礎與應用 R for
Everyone: Advanced Analytics and Graphics”
35. http://tctspss.blogspot.tw/

機器學習簡報 / 机器学习简报 Machine Learning

More Related Content

What's hot

Similar to 機器學習簡報 / 机器学习简报 Machine Learning

機器學習簡報 / 机器学习简报 Machine Learning