資料科學於預防醫學之應用

資料科學於預防醫學之應用
華聯生物科技 (Phalanx Biotech Group )
劉家宏博士
All rights reserved

2
染色體異常
導致智能遲緩、發育障礙等相關疾病
300種疾病加總機率～1/ 1,000

預防醫學(Preventive medicine)
進行胎兒染色體異常篩檢
進行新生兒染色體異常篩檢
進行兒童染色體異常篩檢

Outline
• 染色體晶片分析簡介
• 染色體、基因及拷貝數變異簡介
• 晶片探針設計
• 佈放探針至晶片
• 晶片資料分析
• 染色體晶片科學證據和國際趨勢
• CytoOneArray

染色體異常篩檢、染色體晶片、資料科學?
1. 已有許多婦產/小兒科已應用染色體晶片進行
胎兒/兒童染色體異常篩檢
2. 染色體晶片是利用晶片式比較性基因體雜交
技術(Array Comparative Genomic
Hybridization, ArrayCGH)開發而成
染色體晶片
⇒ 如何使用資料科學進行染色體晶片設計和晶片檢測資料的分析?

染色體晶片分析簡介 (1/2)
正常人的DNA
(參照樣本)
羊水中的胎兒DNA或新生兒血液DNA
(受檢樣本)
幫兩類樣本標定不同
色的螢光訊號
探針 – ATTACGCATA
樣本DNA – TAATGCGTAT
探針: 短DNA序列
代表疾病區域
雜交
受檢樣本和正常樣本相比
出現異常訊號
(2).檢測實驗 (比較性基因體)
晶片
(1). 晶片探針設計
(3). 數據分析

染色體晶片分析簡介 (2/2)
Gain or Loss是拷貝數變異(Copy number variation, CNV)
每個探針訊號的測量: Log2(T/R)
T: 測量出的DNA拷貝數(copy number)
R=2 for humans (diploid organisms)
受檢樣本
參照樣本
Gain
Loss

染色體簡介
1個DNA鹼基對
為A-T or G-C核苷酸組成
正股– ATTACGCATA
反股– TAATGCGTAT
核苷酸為DNA的一個基本
單位依據核苷酸所含鹼基
的不同可分成四類(ATGC)
人類基因體含有約30億個DNA鹼基對!!!　
極小空間儲存極大資料!!!
23對染色體
多一條21號染色體???

拷貝數變異(Copy number variation, CNV)
紅色區域代表病人和正常人相比多的拷貝數數目(gain)
綠色區域代表病人和正常人相比少的拷貝數數目(loss)
問題:
1. 怎麼知道我想檢測的疾病，有哪些
染色體區域有問題?
2. 如果我想同時檢測數種疾病(染色
體區域) ，有什麼有效率的方法?
傳統的色帶分析法：顯微鏡觀察判讀(肉眼) = 低解析度
染色體晶片檢測：使用電腦軟體分析數據 = 高解析度

晶片探針設計 (1/2)
疾病名稱
染色體變異區域
先天性腎上腺發育不良症
1 14984XXXX-14994XXXX
腎上腺腦白質失養症
3 14298XXXX-14356XXXX
布魯頓氏低免疫球蛋白血症
3 18139XXXX-18146XXXX
阿拉吉歐症候群
4 481XXXX-491XXXX
白化症第2型
11 197XXXX-207XXXX
甲型海洋性貧血併智力遲緩
症
11 286XXXX-295XXXX
亞伯氏症候群
11 7031XXXX-7093XXXX
家族性阿茲海默症
雄性激素不敏感症候群
13 10058XXXX-10068XXXX
天使症候群；Angelman氏症
候群
14 10118XXXX-10136XXXX
無虹膜症
16 118XXXX-128XXXX
X性聯遺傳亞斯伯格症候群
自閉症 (A2BP1 基因缺陷)
自閉症 (ANKRD11 基因缺陷)
共有數百個因染色體變異造成的發育遲
緩和智能障礙疾病
chr11:
7031XXXX-7093XXXX
TCACCAGAAGCCTTTCCCTGCTCCCACGGGCCACTGCGCTTGGCCCTTTTA
TTTTGTTTTATTTGTTTGTTTTTTTAAGTTAGTGCTAACTGCCAGCAAGTG
GATGCCTTTTGTGTTTGCTGTCACACAGGATGGAGCCACCAAATATCCCAG
TGTCTGAGGTGGATCTCAAACCAAGAAGTGTGACTTATCTCATGCACCAGA
GAAGTTCCTCAAGAAAAGAAGCATGTCATTAGTAATTGCTGCATTGCACAT
TTGGAGAGGAAATAGCATTCTCCAGCCAACAGGCCTGGTGTGCTTTGCTTC
CTGCTGTCTCTTCTACATCTAAAATGATGCTTCGTACATAGCATGGCACAA
GTTGGCACTCAATAAAGGCTTCTTGCATGGAAGAAGGATAAACACCCTGAC
ACACCAATTATGGCATCAGTGTGGGTCCCACCATCTCCCATCTGCTTTGCT
AGACATCCCCCTTTCAAACTCCACACCCTCTTCTCAACCCCACTACTACAC
AGGGTACAAGAGAAGACCAAGGAGGCCGGGCGCGGTGGCTCACACCTCTAA
TCCTGACACTTTGGGAGGCCGAGGTGGGCGGATCACTTGAGGTCAGGCATT
CGAGATCAGCCTGGCCAACATGGTGAAACCCCATCTCTACTAAAAAACAAA
AATACAAAAATATATTAAAATCACCCGGGCACGGCCGGGCGCAGTGGCTCA
CGCCTGTAATCCCAGCACTTTGGGAGGCCAATGCGGGCAGATCACGGGTCA
GGAGTTCGAGACCAGCCTGGCCAACATAGTGAAATCCTGTCTCTACTAAAA
ATACAAAAACTTAGCCACGCATGGTGGCAGGCACTGGTAATCTCAGCTACT
CAGGAGGTTAAGGCAGGAGAATTGCTTGAACCCGGGAGGCGGAGGTTGCAG
TGAGCCGAGATCATGCCATTGCACTCTAGCCCAGGCAACAGTGCGAGACTC
此區域共有~600,000個鹼基(示意圖)
遺傳疾病資料庫(示意表)
怎麼建立遺傳疾病資料庫?

晶片探針設計 (2/2)
chr11: 7031XXXX-7093XXXX
此區域共有~600,000個鹼基(示意圖)
如何設計探針?
1. 此區間挑選10個探針
2. 考慮DNA雜交時之熱力學 (最小自由能)
3. 探針需有高度專一性
chr11: 7031XXXX-7093XXXX
紅色區域即為探針(Probes)，探針組合
可想像為特定疾病區域的fingerprints，
用這些探針代表疾病區域

探針專一性評估
探針序列與基因組序列比對
不希望探針比對到基因組一個區域以上
一個探針為60個AGCT的組成 ( 60-mer )
左圖為示意圖 (13-mer)
基因組有30億個鹼基對
需將基因組變成具Index的資料庫
探針(短序列)再和資料庫進行比對
基因組序列
探針序列
1. 將數百萬筆探針(短序列)和23條染色體(超長序列)比對後，會產生數千萬
筆的比對結果
2. 從中挑出專一性最高的數萬筆的探針，佈放至染色體晶片上

如何將探針佈放至晶片上?
空白基材
(光學玻璃) 基材清洗表面塗佈
探針設計核酸合成
製版與
探針填裝
探針佈放
成品分裝穩定化清洗探針固定化
晶片生產製程: ~70項國內外專利
晶片生產機台 (於無塵室內)

染色體晶片資料分析流程
正規化 (Normalization)
異常訊號偵測演算法
視覺化
目的: 修正非生物性因素造成的系統偏差：Cy3/
Cy5螢光性質的不同
目的: 由訊號中找出Normal、Gain 或Loss的區域
目的: 顯示正常區域及異常區域的訊號分佈及區域
疾病區域註解
目的: 比對斷點區間位置和疾病區間位置，以判斷
出可能疾病

正規化 (Normalization)
LOWESS (LOcally WEighted Scatterplot Smoothing) regression
Same
data
set
normalized
by:
Mnorm
=
M-‐c(A)
where
c(A)
is
an
intensity
dependent
funcon
esmated
by
local
regression
Rao
–
Intensity
(M-‐A)
plot
of
raw
data:
M
=
log2(R/G)
;
A
=
(log2(R)
+
log2(G))
/
2

異常訊號偵測 (calling)
目的: 由訊號中偵測出Gain 或Loss的區域

異常訊號偵測相關演算法
• Circular Binary Segmentation (CBS)
• HMMs
• Bayesian HMMs
• Kalman Filters
• Wavelet decompositions
• Quantile regression
• EM and edge filtering
• Lasso…….
CBS
as
the
best
operaonal
characteriscs
in
terms
of
its
sensivity
and
FDR
for
breakpoint
detecon.
Lai,W.R.
et
al.
(2005)
Bioinformacs,
21,
3763–3770.
17

CBS (circular binary segmentation)演算法 (1/2)
Recursive change point algorithm: the change-points are the
genomic locations of copy number transitions
• H0: there is no change-point, H1: there
are change-points locating at i and j
1,2,3, ….,i-1, i, i+1,…,j-1,j, j+1,...n
1. Form the sequence of intensities
(Log ratio) into a circle by joining
the first and last probes
2. For all possible ways of dividing
up the circle into complimentary
arcs, compute the t-test statistic
for a difference in means
between the two arcs
Olshen et al. Biostatistics. 2004 Oct;5(4):557-72. Bioinformatics. 15;23(6):657-63. 2007

CBS (circular binary segmentation)演算法 (2/2)
3. If the maximum of these test statistics exceeds its null
distribution critical value, segment the circle there
4. Repeat recursively for the segmented arcs until no more
significant segments can be found

分析結果：訊號正常 vs 訊號異常

累積樣本數據協助結果判斷

1號染色體(kb) 25,350
基因組區域
探針區域
樣本1
樣本2
樣本3
樣本4
樣本5
樣本6
樣本7
樣本8
樣本9
25,370
25,390
Bailey
et
al.
Cytogenet
Genome
Res
2008

22
染色體晶片科學證據和國際趨勢
ü 2010 American Journal of Human Genetics推薦染色體晶片為第一線的兒
童 DD/ID 診斷工具，取代 Karyotyping
ü 2012 新英格蘭醫學雜誌論文推薦染色體晶片作為產前胎兒的遺傳疾病檢
測
ü 以色列將產前胎兒染色體晶片檢測列為健保給付項目
ü 美國已有數家保險公司將產前產後的染色體晶片檢測列為給付項目
ü 2013美國婦產科醫師學會 (ACOG) 與母胎醫學學會 (SMFM) 更進一步正
式建議：
使用染色體晶片作為產前超音波異常時的第一線胎兒檢測工具，並建議孕婦
進行染色體晶片檢測的年齡不應限制在 35 歲以上

CytoOneArray
完整的產品需有晶片、試劑和分析軟體
收案分析需依照個資法規範
若要取得IVD藥證，需做臨床試驗
373種發育遲緩/智能障礙等相關疾病

CytoOneArray網頁版分析軟體 (1/2)

CytoOneArray網頁版分析軟體 (2/2)

決策輔助工具：疾病資料庫

Discovery 頻道專訪
2012年8月
hSp://www.youtube.com/watch?feature=player_embeddedv=WeUiNGGRC4k#at=1227

Discussion
• 染色體晶片可用於胎兒、新生兒及兒童的染色體異常篩檢
• 可以同時檢測數百個因染色體變異造成的發育遲緩和智能
障礙疾病，讓醫師和家長做出較好的決策(Decision
making)
• CNV有族群特異性，樣本累積後可增加決策信心
• 也可針對癌症等疾病設計染色體晶片
• 個人化基因體的時代已漸漸來臨，將有更多應用發生

Acknowledgement
科技顧問：蕭廣仁博士
台北榮民總醫院教學研究部特約研究員
預防醫學基金會執行長
台北市立聯合醫院教學研究部顧問
科技顧問: 陳燕彰醫師
仁愛院區小兒科主治醫師
陽明大學臨床醫學研究所生命科學系副教授
台北榮總兒童醫學部臨床研究員
研發團隊

資料科學於預防醫學之應用

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

More from 台灣資料科學年會

More from 台灣資料科學年會 (20)

資料科學於預防醫學之應用