SlideShare a Scribd company logo
1 of 15
Download to read offline
指導老師:郭 惠 民 老 師 、 陳 允 彤 、 許 馥 顯 老 師
組長:蔡信一
組員:陳桂寶、莊承澔、邱煜哲、許立榆
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一資料處理流程
Data Processing Flow
Word2Vec SVD
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一資 料 預 處 理 – word2vec 詞向量化
processing
word2vec 是 Google 的一個開源工具,能夠根據輸入的「詞的集合」計算出詞與詞之間
的距離
在食記做完 TFIDF 後,取值最高的 20 個詞,透過 word2vec 產生每個詞為 10 維的詞向
量,所以每篇食記將由 200 維的詞向量所表示
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一資 料 預 處 理 – SVD (Singular Value Decomposition) 降維
processing
Word2Vec 詞矩陣(A)維度原本為 m x 200 ,透過 SVD 拆解成 U x ∑ x V T 3 個矩陣的乘
積 : A = U * ∑ * V T
藉由從 ∑ 選取前 r 個奇異值 (Singular Value) 得出近似矩陣 ,維度為 m x 20:
A ~= U’* ∑ ’* V T '
∑ 矩陣
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一分 群
Clustering
動機
-根據食記內容將餐廳分群,以提供餐廳類型及
特徵,方便使用者用餐時選擇
- 根據食記作者 profile 將食記作者分群,以供協同
過濾 ( ALS ) 演算法使用
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一分 群 ─ K-M e a n s
Clustering
1. 給定 K 值,先隨機挑出 K 個點,當做
每一群的中心點
2. 計算剩下每個點跟每個群中心點的距
離,找到最近的中心分成同一群
3. 重新計算每個群的中心點
4. 重複 2 跟 3 直到收斂
K-Means 為非監督式學習 (Unsupervised learning) 分群演算法
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一分 群 ─ K-M e a n s + +
Clustering
l 計算每一個點到已設定的群集中
心的最短距離,以最短距離的 2
次方做為機率大小,決定下一個
群集中心。距離越遠,機率越大
l 優點是群集中心比較分散,不容
易擠在一起
l 改善 K-means 初始隨機選K點,
有機會遇到 noise 的缺點
K-Means++
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一分 群 評 量
Clustering
如 何 決 定 較 好 的
分 群 數 目 ?
l 平均側影法 (Average silhouette Method)
l Within Set Sum of Squared Errors
(WSSSE)
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一分 群 評 量
Clustering
平均側影法
Average silhouette Method
特徵值相異
特徵值相似
ai : 群內距離
bi : 群間距離
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一分 群 評 量
Clustering
Within Set Sum of Squared Errors
(WSSSE)
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一推薦系統 (Recommender System)
協同過濾 ( Collaborative Filtering) 為推薦系統主要使用方式,分為 User-based
Filtering 及 Item-based Filtering 兩種做法
User-based:
你可能會喜歡某個物品因為你朋友喜
歡它
Item-based:
你可能會喜歡某個物品因為你喜歡與
它類似的物品
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一User-based Filtering – 圖片推薦餐廳
選擇圖片 用戶喜好分析
Kmeans++ Model
用戶分群預測
推薦系統找出
推薦給該作者的餐廳
回覆 Line Both推薦的
5 家餐廳
以 Cosine Similarity 找出群中
最相似的食記作者
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一User-based Filtering – 1) 食記作者分群
Kmeans++ Model
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一User-based Filtering – 2) Cosine Similarity
-1 <= Sim(A,B) <= 1
Cosine Similarity 介於正負 1 之間,
越接近 1 表示相似度越高
爬蟲 監控 文字探勘 前端呈現資料分析 環境架構
報告人:蔡信一User-based Filtering – 3) ALS Modeling
抓取食記作
者、餐廳及
食記評分
測試不同參數值的 RMSE,選擇最小
RMSE 的參數建模
推荐系统根
據前端傳入
的用戶給與
推薦

More Related Content

Similar to Foodie warroom

Qualitative Analysis And Caqdas2009 April 10th
Qualitative Analysis And Caqdas2009 April 10thQualitative Analysis And Caqdas2009 April 10th
Qualitative Analysis And Caqdas2009 April 10thKai Wu
 
手机腾讯网Js资源版本增量更新方案w3ctech
手机腾讯网Js资源版本增量更新方案w3ctech 手机腾讯网Js资源版本增量更新方案w3ctech
手机腾讯网Js资源版本增量更新方案w3ctech luyongfugx
 
Hello DNN
Hello DNNHello DNN
Hello DNNevan li
 
Dreaming Infrastructure
Dreaming InfrastructureDreaming Infrastructure
Dreaming Infrastructurekyhpudding
 
Master Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for ClassificationMaster Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for ClassificationChuancong Gao
 
微博实时搜索
微博实时搜索微博实时搜索
微博实时搜索亚军 汪
 
人人网开发一站式体验
人人网开发一站式体验人人网开发一站式体验
人人网开发一站式体验zhen chen
 
文本挖掘(Text mining)基础
文本挖掘(Text mining)基础文本挖掘(Text mining)基础
文本挖掘(Text mining)基础chuan liang
 
Surveillance System
Surveillance SystemSurveillance System
Surveillance SystemNam Le
 
Customer behavior analysis
Customer behavior analysisCustomer behavior analysis
Customer behavior analysisFEG
 
無標記擴增實境實驗平台建置與追蹤技術驗證
無標記擴增實境實驗平台建置與追蹤技術驗證無標記擴增實境實驗平台建置與追蹤技術驗證
無標記擴增實境實驗平台建置與追蹤技術驗證Tehuan Chung
 
Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式Allen Galler
 
論文導讀02_神經網路(智慧交通)
論文導讀02_神經網路(智慧交通)論文導讀02_神經網路(智慧交通)
論文導讀02_神經網路(智慧交通)Fuzhou University
 
云计算可信评估方法研究
云计算可信评估方法研究云计算可信评估方法研究
云计算可信评估方法研究iamafan
 
OWASPTop10ProactiveControls2016-Chinese
OWASPTop10ProactiveControls2016-ChineseOWASPTop10ProactiveControls2016-Chinese
OWASPTop10ProactiveControls2016-ChineseTony Hsu
 

Similar to Foodie warroom (15)

Qualitative Analysis And Caqdas2009 April 10th
Qualitative Analysis And Caqdas2009 April 10thQualitative Analysis And Caqdas2009 April 10th
Qualitative Analysis And Caqdas2009 April 10th
 
手机腾讯网Js资源版本增量更新方案w3ctech
手机腾讯网Js资源版本增量更新方案w3ctech 手机腾讯网Js资源版本增量更新方案w3ctech
手机腾讯网Js资源版本增量更新方案w3ctech
 
Hello DNN
Hello DNNHello DNN
Hello DNN
 
Dreaming Infrastructure
Dreaming InfrastructureDreaming Infrastructure
Dreaming Infrastructure
 
Master Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for ClassificationMaster Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for Classification
 
微博实时搜索
微博实时搜索微博实时搜索
微博实时搜索
 
人人网开发一站式体验
人人网开发一站式体验人人网开发一站式体验
人人网开发一站式体验
 
文本挖掘(Text mining)基础
文本挖掘(Text mining)基础文本挖掘(Text mining)基础
文本挖掘(Text mining)基础
 
Surveillance System
Surveillance SystemSurveillance System
Surveillance System
 
Customer behavior analysis
Customer behavior analysisCustomer behavior analysis
Customer behavior analysis
 
無標記擴增實境實驗平台建置與追蹤技術驗證
無標記擴增實境實驗平台建置與追蹤技術驗證無標記擴增實境實驗平台建置與追蹤技術驗證
無標記擴增實境實驗平台建置與追蹤技術驗證
 
Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式
 
論文導讀02_神經網路(智慧交通)
論文導讀02_神經網路(智慧交通)論文導讀02_神經網路(智慧交通)
論文導讀02_神經網路(智慧交通)
 
云计算可信评估方法研究
云计算可信评估方法研究云计算可信评估方法研究
云计算可信评估方法研究
 
OWASPTop10ProactiveControls2016-Chinese
OWASPTop10ProactiveControls2016-ChineseOWASPTop10ProactiveControls2016-Chinese
OWASPTop10ProactiveControls2016-Chinese
 

Foodie warroom

  • 1. 指導老師:郭 惠 民 老 師 、 陳 允 彤 、 許 馥 顯 老 師 組長:蔡信一 組員:陳桂寶、莊承澔、邱煜哲、許立榆
  • 2. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一資料處理流程 Data Processing Flow Word2Vec SVD
  • 3. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一資 料 預 處 理 – word2vec 詞向量化 processing word2vec 是 Google 的一個開源工具,能夠根據輸入的「詞的集合」計算出詞與詞之間 的距離 在食記做完 TFIDF 後,取值最高的 20 個詞,透過 word2vec 產生每個詞為 10 維的詞向 量,所以每篇食記將由 200 維的詞向量所表示
  • 4. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一資 料 預 處 理 – SVD (Singular Value Decomposition) 降維 processing Word2Vec 詞矩陣(A)維度原本為 m x 200 ,透過 SVD 拆解成 U x ∑ x V T 3 個矩陣的乘 積 : A = U * ∑ * V T 藉由從 ∑ 選取前 r 個奇異值 (Singular Value) 得出近似矩陣 ,維度為 m x 20: A ~= U’* ∑ ’* V T ' ∑ 矩陣
  • 5. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一分 群 Clustering 動機 -根據食記內容將餐廳分群,以提供餐廳類型及 特徵,方便使用者用餐時選擇 - 根據食記作者 profile 將食記作者分群,以供協同 過濾 ( ALS ) 演算法使用
  • 6. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一分 群 ─ K-M e a n s Clustering 1. 給定 K 值,先隨機挑出 K 個點,當做 每一群的中心點 2. 計算剩下每個點跟每個群中心點的距 離,找到最近的中心分成同一群 3. 重新計算每個群的中心點 4. 重複 2 跟 3 直到收斂 K-Means 為非監督式學習 (Unsupervised learning) 分群演算法
  • 7. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一分 群 ─ K-M e a n s + + Clustering l 計算每一個點到已設定的群集中 心的最短距離,以最短距離的 2 次方做為機率大小,決定下一個 群集中心。距離越遠,機率越大 l 優點是群集中心比較分散,不容 易擠在一起 l 改善 K-means 初始隨機選K點, 有機會遇到 noise 的缺點 K-Means++
  • 8. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一分 群 評 量 Clustering 如 何 決 定 較 好 的 分 群 數 目 ? l 平均側影法 (Average silhouette Method) l Within Set Sum of Squared Errors (WSSSE)
  • 9. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一分 群 評 量 Clustering 平均側影法 Average silhouette Method 特徵值相異 特徵值相似 ai : 群內距離 bi : 群間距離
  • 10. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一分 群 評 量 Clustering Within Set Sum of Squared Errors (WSSSE)
  • 11. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一推薦系統 (Recommender System) 協同過濾 ( Collaborative Filtering) 為推薦系統主要使用方式,分為 User-based Filtering 及 Item-based Filtering 兩種做法 User-based: 你可能會喜歡某個物品因為你朋友喜 歡它 Item-based: 你可能會喜歡某個物品因為你喜歡與 它類似的物品
  • 12. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一User-based Filtering – 圖片推薦餐廳 選擇圖片 用戶喜好分析 Kmeans++ Model 用戶分群預測 推薦系統找出 推薦給該作者的餐廳 回覆 Line Both推薦的 5 家餐廳 以 Cosine Similarity 找出群中 最相似的食記作者
  • 13. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一User-based Filtering – 1) 食記作者分群 Kmeans++ Model
  • 14. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一User-based Filtering – 2) Cosine Similarity -1 <= Sim(A,B) <= 1 Cosine Similarity 介於正負 1 之間, 越接近 1 表示相似度越高
  • 15. 爬蟲 監控 文字探勘 前端呈現資料分析 環境架構 報告人:蔡信一User-based Filtering – 3) ALS Modeling 抓取食記作 者、餐廳及 食記評分 測試不同參數值的 RMSE,選擇最小 RMSE 的參數建模 推荐系统根 據前端傳入 的用戶給與 推薦