Foodie warroom

指導老師:郭惠民老師、陳允彤、許馥顯老師
組長:蔡信一
組員:陳桂寶、莊承澔、邱煜哲、許立榆

爬蟲監控文字探勘前端呈現資料分析環境架構
報告人：蔡信一資料處理流程
Data Processing Flow
Word2Vec SVD

報告人：蔡信一資料預處理 – word2vec 詞向量化
processing
word2vec 是 Google 的一個開源工具，能夠根據輸入的「詞的集合」計算出詞與詞之間
的距離
在食記做完 TFIDF 後，取值最高的 20 個詞，透過 word2vec 產生每個詞為 10 維的詞向
量，所以每篇食記將由 200 維的詞向量所表示

報告人：蔡信一資料預處理 – SVD (Singular Value Decomposition) 降維
processing
Word2Vec 詞矩陣(A)維度原本為 m x 200 ，透過 SVD 拆解成 U x ∑ x V T 3 個矩陣的乘
積 : A = U * ∑ * V T
藉由從 ∑ 選取前 r 個奇異值 (Singular Value) 得出近似矩陣，維度為 m x 20：
A ~= U’* ∑ ’* V T '
∑ 矩陣

報告人：蔡信一分群
Clustering
動機
-根據食記內容將餐廳分群，以提供餐廳類型及
特徵，方便使用者用餐時選擇
- 根據食記作者 profile 將食記作者分群，以供協同
過濾 ( ALS ) 演算法使用

報告人：蔡信一分群 ─ K-M e a n s
Clustering
1. 給定 K 值，先隨機挑出 K 個點，當做
每一群的中心點
2. 計算剩下每個點跟每個群中心點的距
離，找到最近的中心分成同一群
3. 重新計算每個群的中心點
4. 重複 2 跟 3 直到收斂
K-Means 為非監督式學習 (Unsupervised learning) 分群演算法

報告人：蔡信一分群 ─ K-M e a n s + +
Clustering
l 計算每一個點到已設定的群集中
心的最短距離，以最短距離的 2
次方做為機率大小，決定下一個
群集中心。距離越遠，機率越大
l 優點是群集中心比較分散，不容
易擠在一起
l 改善 K-means 初始隨機選K點，
有機會遇到 noise 的缺點
K-Means++

報告人：蔡信一分群評量
Clustering
如何決定較好的
分群數目 ?
l 平均側影法 (Average silhouette Method)
l Within Set Sum of Squared Errors
(WSSSE)

Clustering
平均側影法
Average silhouette Method
特徵值相異
特徵值相似
ai : 群內距離
bi : 群間距離

Clustering
Within Set Sum of Squared Errors
(WSSSE)

報告人：蔡信一推薦系統 (Recommender System)
協同過濾 ( Collaborative Filtering) 為推薦系統主要使用方式，分為 User-based
Filtering 及 Item-based Filtering 兩種做法
User-based:
你可能會喜歡某個物品因為你朋友喜
歡它
Item-based:
你可能會喜歡某個物品因為你喜歡與
它類似的物品

報告人：蔡信一User-based Filtering – 圖片推薦餐廳
選擇圖片用戶喜好分析
Kmeans++ Model
用戶分群預測
推薦系統找出
推薦給該作者的餐廳
回覆 Line Both推薦的
5 家餐廳
以 Cosine Similarity 找出群中
最相似的食記作者

報告人：蔡信一User-based Filtering – 1) 食記作者分群
Kmeans++ Model

報告人：蔡信一User-based Filtering – 2) Cosine Similarity
-1 <= Sim(A,B) <= 1
Cosine Similarity 介於正負 1 之間，
越接近 1 表示相似度越高

報告人：蔡信一User-based Filtering – 3) ALS Modeling
抓取食記作
者、餐廳及
食記評分
測試不同參數值的 RMSE，選擇最小
RMSE 的參數建模
推荐系统根
據前端傳入
的用戶給與
推薦

Foodie warroom

Recommended

Recommended

More Related Content

Similar to Foodie warroom

Similar to Foodie warroom (15)

Foodie warroom