SlideShare a Scribd company logo
1 of 32
Download to read offline
痞客邦Visitor Log 資
料挑戰賽
:以EEMD解析時間序列資料
徐 峻 賢
15年12月19⽇日星期六
About my self
• neurolinguistic studies of word recognition
• a database of Mandarin Chinese characters/
words
• human perception in detecting F0 changes
• nonlinearity of brain waves and speech
sounds
15年12月19⽇日星期六
Time-Frequency Analysis
(Talon-­‐Baudry	
  &	
  Bertrand,	
  1999)
15年12月19⽇日星期六
Main issues
• 2014-11-01 ⾄至 2014-11-30 期間,
10000 筆隨機取樣的台灣地區網站訪客
的瀏覽紀錄
• 預測10K 位訪客在 2014-12-1 ⾄至
2014-12-7 的瀏覽次數
15年12月19⽇日星期六
• 訪客瀏覽次數與⽇日期的關係:
• 不連續
• 個別差異
• 四位訪客的瀏覽次數
15年12月19⽇日星期六
• category_id: ⽂文章類別,41項
15年12月19⽇日星期六
• 「美味⻝⾷食記」的瀏覽次數(每⼩小時、每天)
15年12月19⽇日星期六
• 「美味⻝⾷食記」的瀏覽次數(每⼩小時、每天)
15年12月19⽇日星期六
美味⻝⾷食記 數位⽣生活
⼩小說連載 星座算命
15年12月19⽇日星期六
Hypothesis
• 每個類別的次數可當作「穩定的」時間
序列函數
• 所有類別次數的加總 = 所有訪客次數的
加總
• 與其觀察每個訪客,不如觀察網站類別
15年12月19⽇日星期六
hypothesis
• 從時間序列函數估計各個類別的趨勢,
作為期望值
• 未來的表現應該會近似於期望值
15年12月19⽇日星期六
E⻝⾷食記(freq.)
E⼩小說(freq.)
E數位(freq.)
E星座(freq.)
預期的訪客瀏覽次數 = ∑Ei(freq.) × weight
weight value:
counts of views of each account
total counts (11/1 ~ 11/30)
15年12月19⽇日星期六
Methods
• 計算的⽅方式∑Ei(freq.) 有很多種
• 試看看 Hilbert-Huang Transformation
(HHT; Huang et al., 1998; 2009)
•EEMD: ensemble empirical mode
decomposition
• Hilbert transfer
15年12月19⽇日星期六
• Length Of Days (a la Hahn, 1995)
15年12月19⽇日星期六
• data > (EEMD) > IMFs
• IMF: intrinsic mode function
15年12月19⽇日星期六
• 美味⻝⾷食記
• ∑Ei(freq.) = sum(IMF4–8 & Resid.)
15年12月19⽇日星期六
預期的訪客瀏覽次數 = ∑Ei(freq.) × weight
weight value:
counts of views of each account
total counts (11/1 ~ 11/30)
• Ei(freq.) = sum(IMF4–8 & Resid.)
15年12月19⽇日星期六
預期的訪客瀏覽次數 = ∑Ei(freq.) × weight
weight value:
counts of views of each account
total counts (11/1 ~ 11/30)
• Ei(freq.) = sum(IMF4–8 & Resid.)
第⼀一次上傳結果,得分:75.23
15年12月19⽇日星期六
15年12月19⽇日星期六
預期的訪客瀏覽次數 = ∑Ei(freq.) × weight
weight value:
counts of views (11月最後七天)
total counts (11月最後七天)
• Ei(freq.) = sum(IMF4–8 & Resid.) 瀏覽時間⼤大於500⼩小時
預測值介於 0~1 的數值改為 0 (次數分配偏向
exponential-like distribution)
15年12月19⽇日星期六
預期的訪客瀏覽次數 = ∑Ei(freq.) × weight
weight value:
counts of views (11月最後七天)
total counts (11月最後七天)
• Ei(freq.) = sum(IMF4–8 & Resid.) 瀏覽時間⼤大於500⼩小時
⼤大幅修改⽅方法之後的第⼀一次上傳
得分:76.39
預測值介於 0~1 的數值改為 0 (次數分配偏向
exponential-like distribution)
15年12月19⽇日星期六
15年12月19⽇日星期六
To improve the outcome
• Analysis of the page view data
• method: linear mixed effect model
• fix factors:
• Days (1–30), Hours (0–23), Days*Hours
• random factor: category (18 categories)
15年12月19⽇日星期六
15年12月19⽇日星期六
• dependent variables could be sums of IMFs
and residuals, or sums of IMFs.
15年12月19⽇日星期六
• dependent variables: sums of IMFs.
15年12月19⽇日星期六
預期的訪客瀏覽次數 = ∑Ei(freq.) × weight
weight value:
counts of views (11月最後七天)
total counts (11月最後七天)
• Ei(freq.) = sum(IMF4–8 & Resid.)
• 總瀏覽時間⼤大於500⼩小時, 取18pm 以後的次數
預測值介於 0~1 的數值改為 0 (次數分配偏向 exponential-
like distribution)
15年12月19⽇日星期六
預期的訪客瀏覽次數 = ∑Ei(freq.) × weight
weight value:
counts of views (11月最後七天)
total counts (11月最後七天)
• Ei(freq.) = sum(IMF4–8 & Resid.)
• 總瀏覽時間⼤大於500⼩小時, 取18pm 以後的次數
再次修改之後上傳
得分:79.86
預測值介於 0~1 的數值改為 0 (次數分配偏向 exponential-
like distribution)
15年12月19⽇日星期六
• 應⽤用⾙貝式定理
• adjusted weight:
• 1 - (0.1398^2) / ((0.1398^2) + 0.2383*(1-0.1398))
(⼈人數)
11月最後⼀一周
次數 > 1
11月最後⼀一周
次數 = 0
總次數 > 1 1398 2383
總次數 = 0 0 6219
15年12月19⽇日星期六
預期的訪客瀏覽次數 = ∑Ei(freq.) × weight
weight value:
counts of views (11月最後七天)
total counts (11月最後七天)
• Ei(freq.) = sum(IMF4–8 & Resid.)
• 總瀏覽時間⼤大於500⼩小時, 取18pm 以後的次數
預測值介於 0~1 的數值改為 0 (次數分配偏向 exponential-
like distribution)
將預測值乘上校正機率
15年12月19⽇日星期六
預期的訪客瀏覽次數 = ∑Ei(freq.) × weight
weight value:
counts of views (11月最後七天)
total counts (11月最後七天)
• Ei(freq.) = sum(IMF4–8 & Resid.)
• 總瀏覽時間⼤大於500⼩小時, 取18pm 以後的次數
再次修改之後上傳
得分:80.415
預測值介於 0~1 的數值改為 0 (次數分配偏向 exponential-
like distribution)
將預測值乘上校正機率
15年12月19⽇日星期六
R packages
• Rstudio 0.98.1028
• Rlibeemd
• lme4
• effects
• remef
15年12月19⽇日星期六

More Related Content

More from DSP智庫驅動

採購開竅 - OK Tasigle
採購開竅 - OK Tasigle採購開竅 - OK Tasigle
採購開竅 - OK TasigleDSP智庫驅動
 
採購開竅 - 採購輔助決策 (資料行者)
採購開竅 - 採購輔助決策 (資料行者)採購開竅 - 採購輔助決策 (資料行者)
採購開竅 - 採購輔助決策 (資料行者)DSP智庫驅動
 
採購開竅 - 標案天眼通
採購開竅 - 標案天眼通採購開竅 - 標案天眼通
採購開竅 - 標案天眼通DSP智庫驅動
 
採購開竅 - Follow the Money
採購開竅 - Follow the Money採購開竅 - Follow the Money
採購開竅 - Follow the MoneyDSP智庫驅動
 
Lessons Learned from OGP Summit 2016
Lessons Learned from OGP Summit 2016Lessons Learned from OGP Summit 2016
Lessons Learned from OGP Summit 2016DSP智庫驅動
 
Location Intelligence for Public Policy
Location Intelligence for Public PolicyLocation Intelligence for Public Policy
Location Intelligence for Public PolicyDSP智庫驅動
 
D4SG creates new opportunities for public service
D4SG creates new opportunities for public serviceD4SG creates new opportunities for public service
D4SG creates new opportunities for public serviceDSP智庫驅動
 
採購開竅資料挑戰賽說明會
採購開竅資料挑戰賽說明會採購開竅資料挑戰賽說明會
採購開竅資料挑戰賽說明會DSP智庫驅動
 
DSP資料科學教學模式分享
DSP資料科學教學模式分享DSP資料科學教學模式分享
DSP資料科學教學模式分享DSP智庫驅動
 
Data for social good – data driven charity
Data for social good – data driven charityData for social good – data driven charity
Data for social good – data driven charityDSP智庫驅動
 
當遊戲營運遇上痞客邦
當遊戲營運遇上痞客邦當遊戲營運遇上痞客邦
當遊戲營運遇上痞客邦DSP智庫驅動
 
空間資料與地理互聯網
空間資料與地理互聯網空間資料與地理互聯網
空間資料與地理互聯網DSP智庫驅動
 
55688 創新服務新概念
55688 創新服務新概念55688 創新服務新概念
55688 創新服務新概念DSP智庫驅動
 
鼎漢的交通大數據探索
鼎漢的交通大數據探索鼎漢的交通大數據探索
鼎漢的交通大數據探索DSP智庫驅動
 
Key Failure Factors of Building a Data Scientist Team
Key Failure Factors of Building a Data Scientist TeamKey Failure Factors of Building a Data Scientist Team
Key Failure Factors of Building a Data Scientist TeamDSP智庫驅動
 
藉由宏碁自建雲雲端開放平台,打造您個人的資料價值
藉由宏碁自建雲雲端開放平台,打造您個人的資料價值藉由宏碁自建雲雲端開放平台,打造您個人的資料價值
藉由宏碁自建雲雲端開放平台,打造您個人的資料價值DSP智庫驅動
 
Data Strategy (資料策略)
Data Strategy (資料策略)Data Strategy (資料策略)
Data Strategy (資料策略)DSP智庫驅動
 

More from DSP智庫驅動 (20)

採購開竅 - OK Tasigle
採購開竅 - OK Tasigle採購開竅 - OK Tasigle
採購開竅 - OK Tasigle
 
採購開竅 - 採購輔助決策 (資料行者)
採購開竅 - 採購輔助決策 (資料行者)採購開竅 - 採購輔助決策 (資料行者)
採購開竅 - 採購輔助決策 (資料行者)
 
採購開竅 - 標案天眼通
採購開竅 - 標案天眼通採購開竅 - 標案天眼通
採購開竅 - 標案天眼通
 
採購開竅 - Follow the Money
採購開竅 - Follow the Money採購開竅 - Follow the Money
採購開竅 - Follow the Money
 
Lessons Learned from OGP Summit 2016
Lessons Learned from OGP Summit 2016Lessons Learned from OGP Summit 2016
Lessons Learned from OGP Summit 2016
 
Location Intelligence for Public Policy
Location Intelligence for Public PolicyLocation Intelligence for Public Policy
Location Intelligence for Public Policy
 
D4SG creates new opportunities for public service
D4SG creates new opportunities for public serviceD4SG creates new opportunities for public service
D4SG creates new opportunities for public service
 
採購開竅資料挑戰賽說明會
採購開竅資料挑戰賽說明會採購開竅資料挑戰賽說明會
採購開竅資料挑戰賽說明會
 
DSP資料科學教學模式分享
DSP資料科學教學模式分享DSP資料科學教學模式分享
DSP資料科學教學模式分享
 
Data for social good – data driven charity
Data for social good – data driven charityData for social good – data driven charity
Data for social good – data driven charity
 
Kamera first-solution
Kamera first-solutionKamera first-solution
Kamera first-solution
 
當遊戲營運遇上痞客邦
當遊戲營運遇上痞客邦當遊戲營運遇上痞客邦
當遊戲營運遇上痞客邦
 
D4SG 計畫介紹
D4SG 計畫介紹D4SG 計畫介紹
D4SG 計畫介紹
 
用光達點雲秀3D
用光達點雲秀3D用光達點雲秀3D
用光達點雲秀3D
 
空間資料與地理互聯網
空間資料與地理互聯網空間資料與地理互聯網
空間資料與地理互聯網
 
55688 創新服務新概念
55688 創新服務新概念55688 創新服務新概念
55688 創新服務新概念
 
鼎漢的交通大數據探索
鼎漢的交通大數據探索鼎漢的交通大數據探索
鼎漢的交通大數據探索
 
Key Failure Factors of Building a Data Scientist Team
Key Failure Factors of Building a Data Scientist TeamKey Failure Factors of Building a Data Scientist Team
Key Failure Factors of Building a Data Scientist Team
 
藉由宏碁自建雲雲端開放平台,打造您個人的資料價值
藉由宏碁自建雲雲端開放平台,打造您個人的資料價值藉由宏碁自建雲雲端開放平台,打造您個人的資料價值
藉由宏碁自建雲雲端開放平台,打造您個人的資料價值
 
Data Strategy (資料策略)
Data Strategy (資料策略)Data Strategy (資料策略)
Data Strategy (資料策略)
 

dc-visitorlog-kevin