Computing Probabilities With R: mining the patterns in lottery

Computing
Probabilities With R
mining the patterns in lottery
Chia-Chi@MLDM Monday
20160912

Sample Codes
https://github.com/c3h3/mldm20120912

在開始演講前
想先調查一下現場聽眾

近一年內 ...
有買過樂透的朋友？

你買彩卷時 ...
不知道當年度最常出現的號碼的？
一向都用電腦選號的？

你相信 ...
彩卷的號碼是有規律的？

你相信 ...
彩卷的號碼是沒有規律的？

對於，不相信的朋友 ...
是驗證過，嘗試過，發現沒有 pattern，才不相信？
還是是沒驗證過，沒嘗試過，直接不相信？

對賭徒來說 ...
最重要的兩件事
瘋險控管
不對稱資訊

瘋險的種類？
● 猜錯行情 (Prediction)
○ 在該下注時，不下
○ 再不該下時，拼命下
● 下注數量控制失衡 (Position Sizing)
○ 輸的時候，下注過大
○ 贏得時候，下注太小
● 陷入負期望值，而未自覺

瘋險控管的核心
(1) 套利 Versus 套損
(2) 勝率 Versus 賠率

以股票為例
什模是賺錢的唯一法則呢？

賺錢的唯一法則？
低買高賣

賺錢的唯一法則？
● 行情向上時，先低買，後高賣
● 行情向下時，先高賣，後低買

市場上有兩種 Trader
Buy-Side / Sell-Side
Trend Follower / Mean Reversion
high p, low WLR / low p, High WLR

什麼是高？什麼是低？
標準是 ...... ？

兩種 Traders:
● Type I (Trend Follower)
○ 順勢操作，追高殺低
○ 低勝率，高報酬
● Type II (Mean Reversion)
○ 逆勢操作，買黑賣紅
○ 高勝率，低報酬

套損 Versus 套利
E = pW - (1-p)L - T > 0

套損 Versus 套利
假設 T = 0, WLR = W/L
p > 1 / (1+WLR)

你相信 ...
投擲硬幣正面和反面的機率是平均的？

你覺得 ...
投擲硬幣正面和反面的機率是多少呢？
這些機率，受到什模影響呢？

大家覺得 ...
P(H) = ? and P(T) = ?
P(H| ?? ) = ? and P(T | ??) = ?

大家覺得 ...
什模是 "機率" ？
(這其實是今天演講中，最重要的問題之一！)

樂透的空間 pattern
各個號碼出現的次數？

平均 ... ?
但如果看條件機率呢？

利用條件機率進行預測
P(Xt | Xt-1)

利用條件機率進行預測
P(Xt | Xt-k)

策略回測
E = W*p - L*(1-p)

首先 ...
要知道 W =? L =?

Avoid Overfitting
Walk Forward Analysis

樂透的時間 pattern
各個號碼出現的 Stopping Time ？

怎樣才是 ...
正確的週期？正確的時間尺度？
來看空間的 pattern ！

進擊的條件機率進行預測
P(DISTt | DISTt-1)

感謝大家 !
c3h3.tw@gmail.com

詳情請搜尋
Learning by Hacking 粉絲團
課程說明：
http://goo.gl/CTR7nk

dplyr 101
df %>% group_by(...) %>% summerize(...)

tidyr 101
df %>% spread(key,value)
df %>% gather(key,value,...)
gather ->
<- spread
Long
format
Wide
format

ETL: dplyr + tidyr
Cheat Sheet

Before go into ggplot2
Please make sure that your data.frame is
in the long format !

Recommended