SlideShare a Scribd company logo
1 of 15
Download to read offline
iNEXT : an R package for interpolation and
extrapolation species diversity
種類數的稀釋與預測方法
謝宗震 (Johnson)
About me
· 清華統計所
- 研究領域:Statistics,

ecology

and

genetics
· Taiwan R User Group Officer
· Data Science Program 籌備委員
· R 相關作品:
- R package: CARE1 [主要作者], iNEXT
[主要作者], ChaoEntropy, ChaoSpecies
- Shiny app: iNEXT-Online [主要作者], LoL
Champion

2/15
關於集合的種類數
1. 植物學家想要知道一座森林有多少種樹木
2. 程式設計師想要知道軟體中有多少種臭蟲
3. 衛生單位想要知道某地發生多少種流行病
4. 文學家想要知道國學大師了解多少種字彙

3/15
實例1:曹雪芹懂得多少種字彙
以撰寫經典名著紅樓夢的作者曹雪芹先生為例,取紅樓夢前80回字彙資料(李蕙帆 2008) 為例,試問曹
雪芹懂得多少字彙?
i

1

2

3

4

5

6

7

8

9

10

10UP

f

743

394

245

190

144

127

115

104

90

81

1182

以及觀察到的種類數

sb o S

n , . . . ,2 ,1 = i , if

i

透過抽樣,得到樣本中種類出現頻率

,並滿足關係式

n
0

f+

sb o S

=

0

f+

i

f∑ = S
1= i

趙連菊教授 (Chao 1984) 推導出
2
1
2

4/15

f

f2

+

sb o S

=

f +
ˆ

0

sb o S

= S
ˆ
實例1:曹雪芹懂得多少種字彙(續)
tb< cid11,c73 34 25 10 14 17 15 14 9,8,18)
a - bn(:1 (4, 9, 4, 9, 4, 2, 1, 0, 0 1 12)
Sb < smtb,2)
os - u(a[ ]
f < tb1 2
1 - a[, ]
f < tb2 2
2 - a[, ]
f.a < f^//2
0ht - 122f
rudcidf.a,f,f,Sb,Sa =Sb +f.a)
on(bn(0ht 1 2 os ht
os
0ht)

#
#
f.a f f Sb Sa
0ht 1 2 os ht
# [,
# 1]
71733431 41
0 4 9 45 16

5/15
抽樣與種類數的關係
a. 被觀察到的種類數和樣本大小有關
b. 增加抽樣成本能否得到對應的回報
c. 需要多少的樣本才能大致代表母體

6/15
統計方法 — 種類數的稀釋與預測
時,

)m (S

資料中出現的種類數

m

利用樣本數對種類數的稀釋與預測曲線 (rarefaction and extrapolation curve),來描述樣本數為

7/15
8/15
1

n > m fi ])
2

fn
f2
)

n ≤ m fi
)

− 1( − 1 [ 0f +
ˆ
m
n

(

x− n

sb o

S = )m ( S
ˆ

0> i x

∑ −

m
i

sb o S

(

= )m ( S
ˆ

統計學家 (Smith and Grassle 1977, Shen et al. 2003) 得到估計量
1= i

]

) ip − 1 ( − 1[∑ = )m (S

m

S

稀釋與預測函數的期望值 (Good 1953)

統計方法 — 種類數的稀釋與預測(續)
R套件 iNEXT
R package iNEXT = mehtod of iNTerpolation and EXTrapolation curve
isalpcae(dvol"
ntl.akgs"etos)
lbaydvol)
irr(etos
isalgtu(iET,"onoHih)
ntl_ihb"NX" Jhsnse"
lbayiET
irr(NX)

9/15
案例2:傳染病監測數據
採用衛生福利部疾病管制署所提供的2013年傳染疾病監測數據作為例子,以台灣地區第1-20週法定傳
染病累計確認病進行傳染病的稀釋與預測分析。

10/15
案例2:傳染病監測數據(續)
lbayiET
irr(NX)
dt< ra.s(r(ht:/ldobxsrotn.o//6449empe.s"
a - edcvul"tp/d.rpouecnetcmu2995/xal2cv,
ecdn ="i5) rwnms=1
noig
bg", o.ae
)
Sb < apydt 2 fnto()smx>0)
os - pl(a, , ucinx u(
)
n< apydt 2 fnto()smx)
- pl(a, , ucinx u()
ot< iETdtwe2,dttp ="bnac" ed=100
u - NX(a$ek0 aaye
audne, n
50)
prld=2 ph=1,cx=13 fml ="Tet"
a(w
, c
9 e
., aiy
SHii)
po.NX(u,mi ="aeato/xrplto a we2" ya ="
ltiETot an
Rrfcinetaoain t ek0, lb
傳染病數目"
,
xa ="
lb
確認病患數目"
)
pit(,Sb,cl=2 ph=4 cx=15 ld=2
onsn os o
, c
, e
., w
)
tx(,Sb,clae(a) cl=2 ps=1 cx=1
etn os onmsdt, o
, o
, e
)
otsmay
u$umr

#
#
nSosSht Chtf f f f f f f f f f0
.b .a
.a 1 2 3 4 5 6 7 8 9 1
# 61
# 20
3 3. 099 3 5 1 2 1 2 4 0 0 0
5 59 .95

11/15
案例2:傳染病監測數據(續)
· 以1-20週為參考樣本的稀釋與預測曲線(黑
線)和真實觀察數據(紅色X)趨勢相似
· 準確預測出第30的結果,第44週略微低估
· 從樣本數6000增加至15000時,額外出現的傳
染病數目只增加0.89

12/15
案例3:英雄聯盟對戰數據
· 資料取自線上資料庫英雄聯盟戰績網召喚師在遊戲中獲勝過的場次使用的英雄記錄
· 透過R套件iNEXT與Shiny包裝成線上軟體: 英雄聯盟口袋深度分析

13/15
結語
a. 三種不同領域的資料分析,說明種類數的分析的重要性
b. 估計量數學形式簡單,應用到Big Data上仍有效率
c. 統計方法所省略的推導細節,請見參考文獻

14/15
參考文獻
1. Chao, A. 1984. Nonparametric estimation of the number of classes in a population. Scandinavian
Journal of Statistics 11:265-270.
2. Colwell, R. K., A. Chao, N. J. Gotelli, S. Y. Lin, C. X. Mao, R. L. Chazdon, and J. T. Longino.
2012. Models and estimators linking individual-based and sample-based rarefaction,
extrapolation and comparison of assemblages. Journal of Plant Ecology 5:3-21.
3. Hsieh, T. C., K. H. Ma, and A. Chao. 2013. iNEXT online: interpolation and extrapolation
(Version 1.3.0) [Software]. Available from http://chao.stat.nthu.edu.tw/blog/software-download/.
4. Hsieh, T. C., K. H. Ma, and A. Chao. 2013. iNEXT: an R package for interpolation and
extrapolation species diversity. http://johnsonhsieh.github.io/iNEXT/
5. Ramnath V. 2012. slidify: Generate
http://ramnathv.github.com/slidify/

reproducible

html5

slides

from

R

markdown.

6. Taiwan R User Group. 2013. R topic - estimation and prediction of richness. Programmer
magazine 12:48-53. http://programmermagazine.github.io/201312/htm/article6.html

15/15

More Related Content

More from Johnson Hsieh

資料原力,改變社會
資料原力,改變社會資料原力,改變社會
資料原力,改變社會Johnson Hsieh
 
Who believes in data science
Who believes in data scienceWho believes in data science
Who believes in data scienceJohnson Hsieh
 
資料視覺化的力量
資料視覺化的力量資料視覺化的力量
資料視覺化的力量Johnson Hsieh
 
資料科學推廣教育的實踐
資料科學推廣教育的實踐資料科學推廣教育的實踐
資料科學推廣教育的實踐Johnson Hsieh
 
媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例Johnson Hsieh
 
資料科學計劃的成果與展望
資料科學計劃的成果與展望資料科學計劃的成果與展望
資料科學計劃的成果與展望Johnson Hsieh
 
Data science and ECFA media analysis
Data science and ECFA media analysisData science and ECFA media analysis
Data science and ECFA media analysisJohnson Hsieh
 
Intro shiny coscup2013
Intro shiny coscup2013Intro shiny coscup2013
Intro shiny coscup2013Johnson Hsieh
 

More from Johnson Hsieh (11)

資料原力,改變社會
資料原力,改變社會資料原力,改變社會
資料原力,改變社會
 
Who believes in data science
Who believes in data scienceWho believes in data science
Who believes in data science
 
資料視覺化的力量
資料視覺化的力量資料視覺化的力量
資料視覺化的力量
 
資料科學推廣教育的實踐
資料科學推廣教育的實踐資料科學推廣教育的實踐
資料科學推廣教育的實踐
 
媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例媒體報導關聯性分析:以太陽花學運為例
媒體報導關聯性分析:以太陽花學運為例
 
Data science101
Data science101Data science101
Data science101
 
資料科學計劃的成果與展望
資料科學計劃的成果與展望資料科學計劃的成果與展望
資料科學計劃的成果與展望
 
Data science and ECFA media analysis
Data science and ECFA media analysisData science and ECFA media analysis
Data science and ECFA media analysis
 
Statistics with R
Statistics with RStatistics with R
Statistics with R
 
Intro shiny coscup2013
Intro shiny coscup2013Intro shiny coscup2013
Intro shiny coscup2013
 
Paper Summary
Paper SummaryPaper Summary
Paper Summary
 

iNEXT: an r package for interpolation and extrapolation species diversity