SlideShare a Scribd company logo
I n s t i t u t f o r M a t e m a t i s k e F a g
KØBENHAVNS UNIVERSITET
Aeveret 1. juli 2013
Risikoprædiktion med genomiske SNP-data
Thilde Marie Haspang
Speciale for cand.scient graden i statistik. Institut for matematiske fag, Kø-
benhavns Universitet.
Thesis for the Master degree in Statistics. Department of mathemathical
sciences, University of Copenhagen.
Vejleder: Niels Richard Hansen
Ekstern vejleder: Bjarke Feenstra (Statens Serum Institut)
2
Resumé
I dette speciale undersøges risikoprædiktion med genomiske SNP-data. Først
gives en introduktion til biologien bag SNP-data og GWA-studier. Herefter
gennemgås alternative metoder til at modellere association mellem SNP-data
og en binær fænotype. Disse inkluderer logistisk regression med penalisering
samt en metode kaldet SparSNP, der bygger på support vector machines.
Derudover udvikles en ny metode, PrincipLasso, som udnytter korrelatio-
nen mellem SNPs langs genomet. På baggrund af denne korrelation opdeles
data i blokke, hvor der for hver blok benyttes et antal principalkomponenter
som blokrepræsentanter. Forskellige metoder til at opdele data i blokke er
blevet undersøgt. Den ene metode bygger på estimerede rekombinationshot-
spots, en anden på minimal parvis korrelation. Herudover foreslås og afprøves
en ordnet version af K-means-algoritmen.
Metoderne sammenlignes på baggrund af størrelsen AUC på to konkrete
SNP-datasæt. Konklusionen bliver, at i situationer hvor det genetiske signal
ser ud til at være mere spredt, vil de mere avancerede, penaliserede meto-
der prædiktere betragteligt bedre. Samtidig er de mere avancerede metoder
konkurrendedygtige i forhold til kørselshastighed på computeren.
English abstract
In this thesis I have investigated risk prediction with genome-wide SNP-
data. First I give an introduction to the biology behind SNP-data and GWA
studies. Hereafter I present dierent methods that are used to model the
association between SNPs and a binary phenotype. These models include a
logistic regression model with penalization and a method called SparSNP
that uses Support Vector Machines.
I also develop a new method, PrincipLasso, which exploits the correlation
structure between SNPs. Using this correlation, data is divided into blocks,
and a number of the rst principal components from every block are used
as block representatives. Dierent methods for block division have been in-
vestigated. One method is based on estimated recombination hotspots while
another method uses minimal pairwise correlation. A third method is an
ordered version of the K-means algorithm.
The dierent prediction models are compared in terms of AUC in two
dierent SNP data sets. The conclusion is, that the advanced penalized met-
hods seem to build better prediction models in situations, where the genetic
signal seems to be more spread out along the genome. Furthermore, the an-
vanced methods seem to perform competitively to the standard in terms of
computational calculation speed.
Tak
Jeg vil gerne sige tak til min vejleder lektor Niels Richard Hansen for at
introducere mig til området vedrørende genetisk statistik, som jeg har fun-
det utrolig interessant, samt god vejledning og kreative idéer undervejs i
specialeforløbet.
Jeg vil desuden gerne takke min eksterne vejleder seniorforsker Bjarke
Feenstra fra afdeling for epidemiologisk forskning på Statens Serum Insti-
tut for sparring, inspiration og kommentarer. Derudover vil jeg gerne takke
sektordirektør Mads Melbye for at give mig mulighed for at skrive dette spe-
ciale i samarbejde med Statens Serum Institut. Det har været spændende
at arbejde med rigtige data samt at være en del af et epidemiologisk forsk-
ningsmiljø.
Jeg vil også gerne sige tak til cand.scient i statistik René Aakær Jensen
samt min far for grundig korrekturlæsning. Derudover vil jeg gerne takke
min mand for alt mulig støtte.
Indhold
1 Indledning 7
2 Biologien bag SNP-data og GWA-studier 9
2.1 Genomets opbygning . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Genetisk rekombination og genetisk afstand . . . . . . 12
2.2 Populationsgenetik . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.1 Hardy-Weinbergs ligevægt . . . . . . . . . . . . . . . . 14
2.2.2 Koblingsuligevægt . . . . . . . . . . . . . . . . . . . . 15
2.3 SNPs som genetiske markører . . . . . . . . . . . . . . . . . . 17
3 Genetisk associationsanalyse 21
3.1 HapMap og 1000 Genomes . . . . . . . . . . . . . . . . . . . . 22
3.2 Enkelt-locus associationsmodeller . . . . . . . . . . . . . . . . 22
3.2.1 Test i 2×2- eller 2×3-tabeller . . . . . . . . . . . . . . 23
3.2.2 Mål for genetisk risiko . . . . . . . . . . . . . . . . . . 23
3.2.3 Logistisk regression . . . . . . . . . . . . . . . . . . . . 24
3.2.4 Cochran-Armitage trend test . . . . . . . . . . . . . . 26
3.3 GWA-studier . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Styrke og fejl af type I . . . . . . . . . . . . . . . . . . 28
3.3.2 Valg af markør-SNPs og genotype-platforme . . . . . . 29
3.3.3 Imputation . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.4 Genomic control . . . . . . . . . . . . . . . . . . . . . 31
3.3.5 Replikationsstudier . . . . . . . . . . . . . . . . . . . . 32
3.3.6 Multipel testning-problemet . . . . . . . . . . . . . . 33
4 Metoder 35
4.1 Risikoprædiktion i epidemiologiske studier . . . . . . . . . . . 35
4.1.1 Prædiktion i GWA-studier . . . . . . . . . . . . . . . . 38
4.2 Logistisk regression med penalisering . . . . . . . . . . . . . . 38
4.3 SparSNP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.3.1 Support Vector Machines . . . . . . . . . . . . . . . . 40
4.4 PrincipLasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.4.1 Opdeling i blokke med høj grad af LD . . . . . . . . . 43
3
4.4.2 Regression på principalkomponenter . . . . . . . . . . 45
4.5 Modelselektion . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5.1 Krydsvalidering . . . . . . . . . . . . . . . . . . . . . . 47
5 R implementering 51
5.1 Håndtering af data . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 glmnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3 PrincipLasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4 Generelt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6 Dataanalyse 55
6.1 Data1: Pylorusstenose . . . . . . . . . . . . . . . . . . . . . . 56
6.1.1 Kvalitetskontrol . . . . . . . . . . . . . . . . . . . . . . 57
6.1.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6.1.3 Opsummering . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 Data2: Sygdom2 . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2.1 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.2.2 Opsummering . . . . . . . . . . . . . . . . . . . . . . . 65
6.3 Beregningskompleksitet . . . . . . . . . . . . . . . . . . . . . 67
7 Diskussion 69
8 Konklusion 73
Litteratur 75
I Synopsis 79
Notation og forkortelser
A, B (store bogstaver) Mest almindelige alleler
a, b (små bogstaver) Mindst almindelige alleler
α Tuningsparameter til glmnet()
AUC Arealet under ROC-kurven, se ROC
β Regressionskoecient
D, D Mål for graden af korrelation mellem loci
δ Rekombinationsfraktion
ELN Elastic net
GWAS Genome-Wide Association Study
HWE Hardy-Weinberg-ligevægt
HWL Hardy-Weinbergs lov
κ Inationsfaktor for Genomic control
λ Tuningsparameter for Lasso, ELN og RR
LD Linkage Disequilibrium (koblinsuligevægt)
m Genetisk afstand
MAF Minor Allele Frequency.
Frekvensen for den mindst almindelige allel
n Antal individer, stikprøvestørrelse
OR Odds ratio
p Antal variable (typisk antal SNPs)
pA Allelfrekvens for A
r2 Mål for graden af korrelation mellem loci
ri Antal cases med genvariant i
si Antal kontroller med genvariant i
ROC Receiver-operating characteristic (curve)
RR Ridge regression
SNP Enkeltnukleotid-polymor. Udtales snip
T Klassikationsgrænse
X Designmatrix
y Fænotype/responsvariabel
Z Designmatrix med principal komponenter
5
6
Kapitel 1
Indledning
Mængden af data, der genereres indenfor de biologiske fagområder, vokser
eksponentielt i øjeblikket med en fordoblinstid på omkring et år. Dette skyl-
des tildels den høje hastighed og de lave priser på gensekventering. Samtidig
vokser behovet for at nde ud af, hvad vi kan bruge disse store datamængder
til, og hvordan det i praksis kan lade sig gøre.
De to primære udfordringer vedrørende store genetiske datasæt er den
fysiske størrelse og det faktum, at antallet af variable, p, ofte er langt større
end antallet af observationer, n. Størrelsen på data stiller krav til mængden af
hukommelse, der kan allokeres på computeren, og den hastighed computeren
kan foretage beregninger med, men også til eektiviteten af de programmer,
der benyttes.
Data hvor p  n eller p n omtales som høj-dimensionelle data. Der
har været foreslået og anvendt forskellige metoder til at analysere denne
slags data. Blandt de mest kendte må nævnes Lasso, men også andre mere
kreative metoder har været på banen, og det er et område, der er genstand
for stor opmærksomhed i øjeblikket.
Den mest almindeligt forekommende variation i det menneskelige genom
er variation i det, der kaldes enkeltnukleotid-polimorer, også forkortet SNPs
(udtales snips). Tilgængeligheden til disse SNPs er årsag til en stor del af den
stigning, der har været i mængden og størrelsen af genetisk data de sidste par
år, og SNP-analyser har i det seneste årti været af stor interesse for forskere
indenfor genetik og epidemiologi.
Analysen af genomiske SNP-data har for alvor taget fart de seneste 5 år,
og man omtaler analysen af association mellem fænotype og et bredt udsnit af
SNPs langs genomet under navnet Genome-Wide Association Studies, også
forkortet GWAS eller GWA-studier. Et hav af signikante SNPs associeret
med forskellige sygdomme er rapporteret indtil videre, men hyppigt viser det
sig i praksis, at prædiktion baseret på disse fundne signikante SNPs ikke er
særlig eektiv.
I dette speciale undersøges mulighederne for at benytte genomiske SNP-
7
data til genetisk risikoprædiktion. Både tidsmæssigt og økonomisk er det
de seneste par år blevet attraktivt at genotype et stort antal SNPs langs
genomet, typisk i omegnen af 500.000-1.000.000. Det ville være en stor klinisk
gevinst, hvis man ud fra et individs SNP-prol kunne prædiktere individets
risiko for forskellige sygdomme, men i teorien kunne det også være prædiktion
af andre former for ydre træk for eksempel krøller eller blå øjne.
På denne baggrund undersøges i dette speciale, prædiktionsmetoder der
benytter større dele af genomet, som alternativ til prædiktion med bekræf-
tede signikante SNPs. Selv om en form for udvælgelse af SNPs (variabel-
selektion) naturligt vil forekomme, er det ikke det primære fokus i dette
speciale.
8
Kapitel 2
Biologien bag SNP-data og
GWA-studier
For at kunne analysere de såkaldte SNP-data er man nødt til først og frem-
mest at forstå, hvad en SNP egentlig er, og hvad det er for en slags infor-
mation, vi gerne vil have ud af dem. Det er også vigtigt at forstå afhængig-
hedsstrukturen i denne slags gendata samt forstå en potentiel indydelse fra
populationsforskelle for at kunne undgå at begå store statistiske fejl i ana-
lysen. Samtidig er der mange cellebiologiske egenskaber, der ligger til grund
for hele teorien bag GWA-studier.
I dette kapitel vil jeg først give en kort introduktion til genomets op-
bygning, rekombination i genomet og genetisk afstand. Herefter introduceres
begreber fra populationsgenetik, som er essentielle for GWA-studier. Til sidst
i kapitlet præsenteres SNPs, og det forklares, hvorfor SNPs er gode indika-
torer for den information og variation, der bender sig i vores DNA.
2.1 Genomets opbygning
Proteiner er nødvendige for alt, der foregår i celler. De er på en måde hele
vores krops byggesten. De informationer, der er nødvendige for at bygge disse
proteiner, er kodet i en lang, dobbeltstrenget kæde bestående af deoxy-ribo-
nukleidsyrer, også forkortet DNA [Hartwell et al., 2011]. Man kan sige, at
vores DNA er byggemanualen til os selv.
Disse DNA-kæder bender sig inde i kernen af alle vores celler. De to
strenge er retningsbestemte og vender hver sin vej. Den ene ende af en streng
kaldes 3'-enden og den anden ende 5'-enden. Dette relaterer til den måde de
to strenge binder til hinanden på. I 5'-enden vil det 5. carbonatom stikke
ud, og dette gælder også for det 3. carbonatom i 3'-enden.
På hvert deoxyribosemolekyle i strengen er der til carbonatom nummer 1
fæstnet en nitrogen-base. Der ndes 4 forskellige af disse baser: adenin (A),
cytosin (C), guanin (G) og thymin (T). Det er disse 4 baser (eller bogstaver),
9
der langs DNA-strengen danner DNA-sekvensen. De 2 DNA-strenge bliver
holdt sammen af svage hydrogen-bindinger, der dannes mellem 2 modstående
baser, også kaldet basepar. A binder sig til T med 2 hydrogenbindinger, og
C binder til G med 3 hydrogenbindinger. På denne måde er de to strenge
komplementære, og det er derfor nok at kende sekvensen på den ene for at
kende sekvensen på dem begge. De to strenge vender hver sin vej, så 3'-enden
på den ene sidder sammen med 5'-enden på den anden. Informationen i vores
DNA ligger altså i rækkefølgen af baser langs DNA-strengen [Hartwell et al.,
2011]. En illustration ses i gur 2.1.
Figur 2.1: Et udsnit af de to DNA-strenge, hvor der til venstre er zoomet ind
på hydrogenbindingerne mellem basepar [Gasbjerg and Østergaard, 2013].
Et gen er en specik DNA-sekvens (altså en kæde af baser), der koder for
et bestemt protein. Det er ikke alle dele af DNA'et, der er med til at kode
for et gen, og på denne måde er der tilsyneladende 'ufunktionelle' huller
og områder med andre funktioner som for eksempel at markere, hvor en
gensekvens starter og stopper [Neale et al., 2008]. Det menneskelige genom
består af ca. 3 × 109 baser, der koder for ca. 20.000-30.000 gener [Hartwell
et al., 2011]. Man bruger de enkelte baser som længdeenhed i DNA'et, og
dermed kan den fysiske længde i genomet måles i basepar (bp) eller 1000
basepar (kb) [Ziegler and König, 2010].
10
Den totale mængde DNA, og dermed også den samlede mængde af gener,
er det, vi betegner som genomet. I eukariote celler, hvor DNA'et ligger inde
i en kerne i cellen, er genomet ikke én lang DNA-streng, men opdelt i ere
usammenhængende sektioner kaldet kromosomer. Kromosomerne ligner to
pølser, der sidder sammen på midten, og hver af de to `pølser` i et kromo-
som kaldes et kromatid. Kernen i de este menneskelige celler indeholder
22 par ikke-kønskromosomer og ét par kønskromosomer. Kromosomerne i
et kromosompar kaldes homologe kromosomer. Celler med 23 kromosompar
kaldes diploide, hvorimod celler med kun 1 af hvert kromosom kaldes haploi-
de. De 22 kromosomer er numereret sådan, at kromosom 1 er det længste
(240 millioner bp), og kromosom 22 er det korteste (50 millioner bp) [Ziegler
and König, 2010]. Kønskromosomet ndes i to udgaver og betegnes X og
Y . Kvinder bærer to X-kromosomer, mens mænd bærer både et X og et Y
[Hartwell et al., 2011].
En specik region på et kromosom (og dermed også på DNAet) kaldes et
locus. Hver diploid celle har to kopier af hvert kromosom (ét fra far og ét fra
mor), og dermed er der to uafhængige DNA-sekvenser (også kaldet alleler)
per locus for hvert individ. Det er disse to alleler, der danner genotypen for
et individ på det givne locus. Se gur 2.2.
Figur 2.2: På guren ses sammenhængen mellem begreberne haplotype, geno-
type, locus og allel.
For langt det meste af det menneskelige genom er DNA-sekvensen den
samme hos alle individer, men ind imellem er der gennem tiden forekommet
mutationer, hvilket resulterer i forskellige alleler på nogle givne locus [Neale
et al., 2008].
Et markørlocus er en nukleotid eller sekvens af nukleotider, som man
ved har forskellige alleler i befolkningen, men som ikke nødvendigvis leder
til forskellige fænotyper (ydre træk). Enkelt-nukleotid-polymorer (SNPs) er
et sådant markørlocus. SNPs kan i teorien have to til re forskellige alleler
i befolkningen, men i praksis observeres meget sjældent mere end 2 [Neale
et al., 2008].
Det, der adskiller urelaterede individer fra hinanden, er ikke enkelte SNPs
hist og her, men unikke kombinationer af SNPs langs en del af genomet.
Disse blokke af DNA kaldes haplotyper. De er hyppigt delt mellem mange
individer i en population og kan spores tilbage til at være rekombinationer
11
fra fælles forfædre. En haplotype er på denne måde dannet over lang tids
rekombination ved, at en gruppe af SNPs typisk er blevet nedarvet sammen.
I mange regioner af genomet kan 95% af variationen forklares af mellem 5
og 10 forskellige haplotyper [Hartwell et al., 2011].
2.1.1 Genetisk rekombination og genetisk afstand
Kernen i normale celler hos mennesker indeholder 23 par af kromosomer,
altså 46 kromosomer i alt. Disse par er forskellige i både form og størrelse.
Celler, der indeholder ét par af hvert kromosom, kaldes diploide.
Kønsceller kaldes gameter og indeholder kun en kopi af hvert kromosom.
Sådanne celler med kun ét af hvert kromosom kaldes haploide. Den specielle
form for celledeling, der danner kønscellerne, kaldes meiosen, og under denne
proces bliver antallet af kromosomer halveret fra 46 til 23.
Kønscellerne dannes inde i kønsorganerne, hvor de undergår meiosen,
nemlig den proces, der producerer vores æg og sædceller, som kun indeholder
det halve antal kromosomer i forhold til resten af kroppen.
Meiosen består af to på hinanden følgende celledelinger, også kaldet meio-
se 1 og meiose 2. Meiosen starter med en fordobling af kromosomerne. Her-
efter kobler homologe kromosomer sig til hinanden, og kromosomerne kan
bytte dele og derved danne nye kromosomer med en ny kombination af gener
[Hartwell et al., 2011]. Det gennemsnitlige antal af krydsninger per celle er
55 for mænd og er 50% højere for kvinder [Ziegler and König, 2010].
Under meiosen bliver de eventuelt ombyttede kromosomer fordelt tilfæl-
digt og uafhængigt af hinanden. I mennesker, hvor vi har 23 kromosomer,
kan meiosen blot ved tilfældig fordeling af kromosomerne for hvert individ
resultere i 223 genetisk forskellige gameter [Ziegler and König, 2010]. En il-
lustration af forløbet under meiosen ses i gur 2.3.
Under meiosen kan der ske én eller ere rekombinationer af de fædrene
og mødrene kromosomer. Sandsynligheden for, at en rekombination vil n-
de sted mellem to loci på et givent kromosom, er relateret til den fysiske
afstand imellem dem. Denne sandsynlighed kaldes rekombinationsfraktionen
og betegnes med δ. Rekombinationer langs et kromosom forekommer, hvis
der er et ulige antal overkrydsninger, der nder sted. Hvis to loci er placeret
på forskellige kromosomer eller langt fra hinanden på samme kromosom for-
ventes det, at δ = 0.5. Til gengæld, hvis to loci er placeret tæt på hinanden
på samme kromosom, vil man forvente, at δ er lille [Neale et al., 2008].
Rekombinationsfraktionen kan bruges til at udregne genetiske kortafstan-
de. Genetisk afstand, m, repræsenterer det forventede antal overkrydsninger
på kromosomet. m kan ikke måles direkte, men prædikteres på baggrund af
et observeret δ. En sådan funktion, som ud fra et observeret δ angiver den
genetiske afstand, kunne være Haldanes funktion, hvor
mH = −
1
2
[log(1 − 2δ)]. (2.1)
12
Figur 2.3: På billedet ses en illustration af de to former for celledeling; mitose
og meiose [Norheim, 2013].
Enheden for genetisk afstand er Morgans (M) eller centiMorgan (cM) op-
kaldt efter Thomas Hunt Morgan, som var den første til at få ideén om,
at forskelle i rekombinationsfrekvens afspejler fysisk afstand mellem gener
[Hartwell et al., 2011].
Man kunne forvente, at to overkrydsninger på det samme genom var
uafhængige, og at sandsynligheden for en overkrydsning i både region a og
region b ville være produktet af de respektive sandsynligheder. Ved at lave
overkrydsningsforsøg har man imidlertid fundet ud af, at sandsynligheden
for to overkrydsninger på samme kromosom er mindre end forventet, hvis
de enkelte overkrydsninger opstod uafhængigt af hinanden. Dette førte til
en hypotese om, at en overkrydsning ét sted på kromosomet mindsker sand-
synligheden for, at en overkrydsning nder sted et andet sted på samme
kromosom [Hartwell et al., 2011].
13
2.2 Populationsgenetik
Populationsgenetik er deneret som studiet af genetisk variation indenfor og
imellem populationer over generationer og over tid og er således teorien om,
hvordan vores DNA ændrer sig afhængig af populationsstørrelser og andre
ydre faktorer.
Indenfor genetikken omtales et individs DNA-sekvens (eller dele heraf)
som individets genotype, og ydre træk som hårfarve eller sygdomsstatus be-
tegnes som individets fænotype. Nogle gange er sammenhængen mellem en
ændring i et enkelt gen og et ydre træk simpel, men som oftest er sammen-
hængen mellem et individs genotype og fænotype meget kompleks og kan
indeholde ere gener og også ydre faktorer [Hartwell et al., 2011].
Varianter på det samme locus kaldes som nævnt alleler. Man vil for langt
de este loci se højst to forskellige alleler repræsenteret i befolkningen, hvor
den ene vil være mere almindelig end den anden. I litteraturen betegnes
den mest almindelige allel-variant ofte med store bogstaver, for eksempel
A, og den mindre (almindelige) allel med små bogstaver, for eksempel a.
Tit kaldes den mest almindelige allel for vildtypen, da man mener, at det
er den oprindelige, hvorimod den anden og muligvis decideret sjældne allel
sandsynligvis stammer fra en mutation [Hartwell et al., 2011]. Man arver to
kopier af alle gener, ét fra sin far og ét fra sin mor, og for et bestemt locus
kan vi derfor have genotypen AA, Aa eller aa. Typerne AA og aa kaldes
homozygote genotyper, og typen Aa kaldes heterozygot (der skelnes normalt
ikke mellem Aa og aA).
Når både AA og Aa leder til den samme fænotype, kaldes allelen A
dominant for den pågældende fænotype. Er det derimod kun varianten AA,
der resulterer i den givne fænotype, kaldes A recessiv for fænotypen. Se gur
2.4 for et eksempel. Det er dog ikke altid, at mønstret er så tydeligt som i
ovenstående eksempel, hvor der er tale om komplet dominans. I nogle tilfælde
har man observeret, at sandsynligheden for eller graden af en given fænotype
stiger med antallet af en bestemt allel (0, 1 eller 2).
De forskellige alleler stammer fra mutationer, der er opstået spontant.
Hvis de opstår i en kønscelle, er der en vis sandsynlighed for, at mutatio-
nen bliver videregivet ved reproduktion. Ved at tælle mutationer, der har
fænotypiske konsekvenser, har man estimeret at forekomsten af mutationer
i kønsceller varierer fra 1 ud af 10.000 til 1 ud af 1.000.000 [Hartwell et al.,
2011].
2.2.1 Hardy-Weinbergs ligevægt
Et af de vigtigste principper i populationsgenetikken er Hardy-Weinbergs
ligevægt, som blev opdaget af Godfrey Harold Hardy og Wilhelm Weinberg
uafhængigt af hinanden [Neale et al., 2008]. I en tilpas stor population uden
selektion, mutation og migration og med tilfældig parring, vil frekvenserne
14
Figur 2.4: På billedet ses et eksempel på hvordan henholdsvis dominante og
recessive gener kan påvirke en fænotype (her blomsterfarve). Det ses, at A
er dominant for rød blomsterfarve, og a er recessiv for hvid blomsterfarve.
for de forskellige alleler i teorien være konstante over tid. På grund af endelige
populationsstørrelser forekommer i praksis det, man kalder tilfældig genetisk
drift, hvilket vil sige at allel-frekvenserne kan ændre sig en smule over tid.
Ifølge Hardy-Weinbergs lov (HWL) vil det for alleler A og a med fre-
kvenser henholdsvis pA og pa gælde, at genotyperne AA, Aa og aa optræder
med frekvenserne henholdsvis p2
A, 2pApa og p2
a [Neale et al., 2008] (følger
af grundlæggende sandsynlighedsregning, hvis man antager uafhængighed).
Hvis HWL er opfyldt for en population, siger man, at populationen er i
Hardy-Weinberg Ligevægt (HWE).
At undersøge om stikprøvepopulationen opfylder HWL er en central del
af modelkontrollen i GWA-studier, da afvigelser fra HWE blandt andet kan
skyldes det, man kalder populations-stratikation, altså at data er indsam-
let fra populationer, der afviger fra hinanden i genotype [Ziegler and König,
2010]. Dette kan resultere i, at man 'opdager' én eller ere signikante SNPs,
som ikke er associeret med den fænotype, man er interesseret i, men deri-
mod blot er associeret med populationsstrukturen. Hvordan man i praksis
undersøger om der forekommer populationsstratikation i data gennemgås i
afsnit 3.3.4.
2.2.2 Koblingsuligevægt
Et andet begreb, der er vigtigt for at forstå strukturen i SNP-data, er linkage
disequilibrium eller på dansk koblingsuligevægt, oftest betegnet LD. Kob-
lingsuligevægt er et mål for associationen mellem alleler på forskellige loci.
Koblingsuligevægt har ikke nødvendigvis noget med kobling eller uligevægt
at gøre, men betyder, at der er en korrelation mellem forekomsten af allelerne
på to eller ere loci [Slatkin, 2008]. Et naturligt mål for LD mellem to loci
15
med alleler henholdsvis A, a og B, b må være en forskel mellem de observere-
de frekvenser og de forventede frekvenser under antagelse af uafhængighed.
Det simpleste mål for graden af LD er en af størrelserne:
DAB = pAB − pApB (2.2)
eller
D = pABpab − pAbpaB. (2.3)
Et problem med de to ovenstående mål er, at størrelsen varierer med allel-
frekvensen. En løsning er at standardisere D:
D =
D
Dmax
, (2.4)
hvor Dmax er den største værdi, D kan antage som funktion af allelfrekvens,
altså
Dmax =
min(pApb, papB) hvis D  0
max(−pApB, −papb) hvis D ≤ 0
. (2.5)
Man benytter primært den absolutte værdi af D , da fortegnet for det meste
ikke er nødvendigt.
Et andet mål for størrelsen af LD, som ofte bliver benyttet i genom-
associationsstudier, er r2 som er deneret ved
r2
=
D2
pApapBpb
=
(pABpab − pAbpaB)2
pApapBpb
. (2.6)
r2 er lig 1, når genotypen på et locus præcist forudsiger genotypen på et
andet. Én af fordelene ved at benytte r2 frem for D er, at r2 er mindre
sårbar overfor problemer ved små stikprøvestørrelser end D'.
For GWA-studier afhænger det optimale valg af markørtæthed af mæng-
den af LD i befolkningen. Hvis der er en høj grad af LD, skal man muligvis
vælge markører længere væk fra hinanden for at undgå, at de er for tæt for-
bundet. Der er mellem 10 og 15 millioner SNPs i det menneskelige genom,
men man genotyper typisk `kun` 500.000-1.000.000 i et GWA-studie. Det
er graden af LD, der retfærdiggør rimeligheden i dette, da SNPs i samme
område er kædet sammen, så de antages at repræsentere hele området.
Efter man er begyndt at undersøge LD-strukturen i genomet empirisk,
har man opdaget, at genomet har en tendens til at være opdelt i blokke,
kaldet LD-blokke. Disse LD-blokke er adskilt af rekombinations-punkter, så-
kaldte hotspots, hvor sandsynligheden for rekombination er større end andre
steder. Jereys et al. var én af de første til at dokumentere dette [Jereys
et al., 2001].
16
HapMap projektet ville undersøge og kortlægge disse blokke, men gjorde
det klart, at jo højere tæthed af SNPs, man målte, jo ere små blokke fandt
man.
I 2004 blev det foreslået af C. S. Carlson [Carlson et al., 2004] at nde
markørSNPs ikke baseret på blokke, men på den minimale parvise SNP r2
grænse. Dette blev gjort med en form for greedy-algoritme.
Det er blevet vist, at LD varierer mellem befolkninger, så nogle befolk-
ningsgrupper har en større haplotype-diversitet, og det kan derfor være nød-
vendigt at benytte ere SNPs for at dække genomet. Så længe populationer
kommer fra samme kontinent, er der ikke særlig stor forskel [Carlson et al.,
2004].
Som nævnt tidligere har mere eller mindre alle SNPs kun to alleler, og
hvis man kender D for et par af alleler, kender man også D for de andre
mulige par af alleler, da
DAB = −DaB = −DAb = Dab. (2.7)
Fortegnet på D er vilkårligt og afhænger af hvilket par af alleler, man starter
med.
Haplotype-blokke i mennesker varierer i størrelse fra få kb (1000 base-
par) til mere end 100 kb. Det var denne blokopdeling, der gav ideén om,
at det muligvis var nok at måle én SNP i hver blok for at kunne afdække
hele genomet. Det blev dog mere kompliceret end som så, for nogle dele af
genomet havde åbenbart ikke rigtig blokke, og nogle gange afhang blokkene
af, hvordan man denerede/målte dem [Slatkin, 2008].
2.3 SNPs som genetiske markører
Selv om det med whole genome sequencing er blevet muligt at afkode hele
genomet, er det både dyrt og tidskrævende og ikke helt klart, hvordan vi skal
analysere den totale mængde af DNA. Derfor må vi for at undersøge genomet
udvælge objekter at måle på placeret på en fornuftig måde langs genomet.
Som nævnt tidligere kaldes disse måle-objekter for genetiske markører.
Per denition er en genetisk markør et locus bestående af mindst et
basepar, der varierer mellem mindst to personer [Ziegler and König, 2010].
Disse markører kan udvælges, så de har bestemte egenskaber. Ønskværdige
egenskaber kunne være:
1. Simpel nedarvning.
2. Lav mutationsfrekvens.
3. Være co-dominant.
4. Være i Hardy-Weinberg ligevægt i populationen.
17
5. Nemt (og billigt) at måle præcist.
6. Være polymorsk i befolkningen.
Co-dominant betyder at allelerne er lige dominante. Den mest almindelige
form for variation i det menneskelige genom er enkelt-nukleotid-polymorer
(single nucleotid polymorphism) også kaldet SNPs (udtales snips), og det
vil sige, at variationen nder sted på et enkelt basepar, se gur 2.5. SNPs
står for omkring 90% af variationen i den menneskelige befolkning [Ziegler
and König, 2010]. Almindeligvis kræves det, at frekvensen af den mindre
almindelige allel (MAF for minor allele frequency) er større end 1%, før en
given SNP kan betegnes som en polymor. At dette også er gældende for det
aktuelle data, er en del af modelkontrollen i GWA-studier.
CTCATAGCATTATTATTATTATTCAGGACTA
CAGTATCGTAATAATAATAATAAGTCCTGAT
1 bp 15 bp 30 bp
CTCATAGCATTATTATTATTATTCAGGCCTA
CAGTATCGTAATAATAATAATAAGTCCGGAT
Figur 2.5: På billedet ses en SNP-variation mellem 2 individer.
Andre former for variation i genomet udover SNPs indbefatter insertio-
ner og deletioner. Insertioner og deletioner vil sige, at ét eller ere (muligvis
mange) basepar enten er blevet slettet eller indsat. Store regioner af gentagel-
ser kaldes `Copy Number Variants` og betegnes CNV [Hartwell et al., 2011].
Ingen af disse former for genetisk variation vil blive behandlet yderligere i
dette speciale.
Der ndes forskellige nomenklaturer for SNPs, men den mest almindelige
er baseret på reference SNP-ID numre, rs-ID. Disse rs-numre er tildelt af det
amerikanske National Center for Biotechnology Information [NCBI] og n-
des i forskellige SNP-databaser, blandt andet deres egen dbSNP. rs-numrene
er unikke, men rummer ingen information om en eventuel funktion af den
pågældende SNP. Dette er tilfældet for en anden nomenklatur benyttet af
Human Genome Variation Society.
Selv om SNPs er almindelige, er de ikke ligefordelt over genomet [Ziegler
and König, 2010]. I gennemsnit er der dog én SNP for hvert 1000 bp [Hartwell
et al., 2011]. SNPs har en lav mutationsfrekvens, og de este stammer derfor
fra før dannelsen af de forskellige menneskelige populationer. Dette medfører,
18
at omkring 85% af vores SNPs er almindelige i hele jordens befolkning, men
med forskellige allelfrekvenser [Ziegler and König, 2010].
Da det menneskelige genom er genstand for stor opmærksomhed i øje-
blikket, bliver der løbende revurderet i kortlægningen af elementerne langs
genomet. Dette skyldes for eksempel, at forskere har fundet ud af, at en re-
gion er kortere eller længere, end de havde troet. Dette rykker kb-positionen
langs hele genomet og medfører opdateringer af SNP-databasen. Disse opda-
teringer, som kaldes builds, lanceres med jævne mellemrum, og medfører en
række ændringer. Hvis to SNPs i den nye build ligger samme sted, vil de bli-
ve slået sammen, og ere SNPs får muligvis en ny kb-position. Det er derfor
vigtigt i en analyse, at holde styr på hvilket build ens data er genereret ud fra.
I dette kapitel har vi set nærmere på strukturen i vores DNA, og hvordan
man kan udvælge repræsentative elementer at måle på. I det næste kapitel
vil jeg forklare, hvordan vi kan benytte statistiske modeller til at analyse-
re disse målinger enkeltvis, og i kapitel 4 forklare hvordan målingerne kan
analyseres simultant.
19
20
Kapitel 3
Genetisk associationsanalyse
At nde associationer mellem det menneskelige DNA og ydre træk hos men-
nesker har været genstand for forskeres interesse siden Gregor Mendels forsøg
med arvelighed i ærteplanter omkring år 1860. Siden dengang er der sket me-
get indenfor området, og vores indsigt i det menneskelige DNA bliver stadig
mere og mere kompleks.
Der ndes to primære statistiske metoder til at analysere en genotypes
indydelse på en givet fænotype, f.eks. sygdomsrisiko. Disse to kaldes kob-
lingsanalyse (linkage analysis) og associationsanalyse. Associationsanalyse
har generelt større styrke og er blevet et mere og mere populært valg i takt
med faldende priser på at fremstille de store mængder data, der kræves.
Korrelation mellem en bestemt markørallel og et sygdomstræk kaldes
allel-association. En sand association mellem en allel og en fænotype kan
enten skyldes direkte biologisk indydelse fra den pågældende markør, eller
at markøren er korreleret med en anden allel, som så har direkte indydelse
på den givne fænotype. Dette kan f.eks. skyldes, at de to alleler sidder tæt
sammen på kromosomet og sjældent eller aldrig i historien har været udsat
for rekombination.
Når to loci sidder tæt på samme kromosom, er sandsynligheden for at
de videregives sammen større, som vi beskrev i forrige kapitel. Vi behøver
derfor ikke nødvendigvis at måle det kausale sygdomslokus for at opdage en
eekt, vi skal bare have målt en markør i nærheden af det. Spørgsmålet er
så bare, hvor tæt vi skal være på? Dette spørgsmål har HapMap-projektet,
som omtales mere detaljeret i afsnit 3.1, haft en stor andel i at være med til
at besvare.
For at dække hele genomet skal der altså udvælges en vis mængde SNPs,
der sidder passende tæt. De SNPs, der så bliver udvalgt som repræsentati-
ve, kaldes mærkeSNPs eller markør-SNPs (tag SNPs). Der er ere forskellige
metoder til at udvælge disse mærkeSNPs, men målet for dem alle er at eekti-
visere genotyping og reducere udgifterne samtidig med, at informationstabet
minimeres.
21
Efterhånden som det bliver muligt at teste ere og ere SNPs, opstår nye
problemstillinger, som f.eks. hvordan man håndterer disse store mængder af
data, og om forskellige fund i den samme region skyldes uafhængige signaler,
eller om de alle peger på den samme underliggende årsag? Et andet problem,
der opstår i forbindelse med de store mængder af data er, hvordan man
korrigerer for det, der kaldes multipel testning-problemet, som handler om,
at jo ere test man udfører, jo større er chancen for at begå fejl.
I dette kapitel vil jeg give en introduktion til HapMap-projektet. Herefter
introduceres modeller til associationsanalyse for et enkelt locus. Dernæst vil
jeg give en introduktion til GWA-studier, som i bund og grund består af
at udføre en associationsanalyse for hver enkelt SNP og en given fænotype.
Der gives endvidere en introduktion til, hvordan man generelt og specielt i
GWA-studier korrigerer sine p-værdier i forhold til de mange test, her både
med styrke og fejl af type 1 for øje. Ydermere introduceres genomic control,
som er en metode til at korrigere for såkalt populationsstratikation, og
nødvendigheden af replikationsstudier forklares.
3.1 HapMap og 1000 Genomes
Det Internationale Haplotype Map Project [HapMap Consortium], også om-
talt som HapMap, blev startet i oktober 2002 af forskere fra Japan, England,
Canada, Kina, Nigeria og USA. Målet var at udvikle et haplotypekort over
det menneskelige genom for at beskrive de almindelige mønstre i variationen
af den menneskelige DNA-sekvens. Man ville kortlægge ensartetheder og for-
skelligheder både indenfor populationer og imellem forskellige populationer.
Den resulterende information er frit tilgængelig.
HapMap projektet har været med til at muliggøre GWA-studier, da det
er gennem dette projekt, at størstedelen af de SNPs, vi kender, er blevet
kortlagt [HapMap Consortium].
Det oprindelige formål med HapMap projektet var at identicere og op-
tegne haplotype-blokkene, hvorefter man så med fordel kunne udvælge en
markør i hver af disse blokke [HapMap Consortium].
Et andet stort kortlægningsprojekt, der også har haft stor betydning,
er The 1000 Genomes Project [1000 Genomes Project Consortium, 2010].
Formålet med projektet var at frembringe præcis haplotype-information for
alle former for menneskelige DNA-polymorer i ere forskellige populationer.
Data fra både HapMap og 1000 Genomes benyttes ofte som referencepa-
nel ved imputation af SNPs, som introduceres i afsnit 3.3.3.
3.2 Enkelt-locus associationsmodeller
Standard praksis i GWA-studier består af marginale test af hver enkelt SNP.
Man kan enten være interesseret i binære responsvariable som f.eks. syg/rask,
22
variable med mere end to kategorier eller kvantitative variable som f.eks.
højde. I dette kapitel har jeg udelukkende fokuseret på modeller, hvor re-
sponsvariablen er binær. Herudover fokuseres på case-kontrol forsøgsdesign
med uafhængige individer. Typisk sammenlignes allel-frekvenserne for de
observerede SNPs i to grupper, en case-gruppe (f.eks. bærere af en given
sygdom) og en kontrolgruppe (f.eks. raske). Dette kan enten gøres simpelt i
en 2×2- eller 2×3-tabel eller på mere avancerede måder, hvor der kan tages
højde for allelernes dominans eller for andre kovariater som f.eks. køn eller
alder.
3.2.1 Test i 2×2- eller 2×3-tabeller
Den mest simple form for associationstest er en sammenligning af allel- el-
ler genotype-frekvenserne i de to grupper. Derfor betragtes nu to grupper
af uafhængige individer: en gruppe bærere af en given sygdom og en kon-
trolgruppe. Betragt en given SNP med alleler givet ved A og a. Data kan
da opsummeres i enten en 2 × 2-tabel, der angiver antallet af de to alleler
i de to grupper, eller en 2 × 3-tabel, der angiver antallet af individer med
genotyperne AA, Aa og aa i de to grupper. For at undersøge associationen
mellem sygdommen og den pågældende SNP bruges for det meste Pearsons
χ2-teststørrelse givet ved
X2
=
i=0,1,2 j=1,2
(nij − E[nij])2
E[nij]
, (3.1)
hvor
E[nij] =
ni.n.j
n..
(3.2)
altså det forventede antal givet uafhængighed mellem rækker og søjler. Test-
størrelsen X2 opsummerer altså forskellen mellem frekvensen af observerede
alleler i forhold til, hvad vi ville forvente at nde under antagelse af, at der
ikke var forskel i de to grupper. Denne kan så bruges til at vurdere, hvor
ekstrem vores aktuelle observation er. Under hypotesen om uafhængighed
følger X2 en χ2-fordeling med (n − 1) · (m − 1) frihedsgrader, hvor n beteg-
ner antal rækker og m antal søjler.
Er det forventede antal i en celle i en 2 × 2-tabel mindre end 5, vil det
være mest korrekt at anvende Fishers eksakte test i stedet.
X2 reekterer ikke graden af association, så til dette formål benyttes
enten odds ratio diskuteret i næste afsnit eller kovariansen i den aktuelle
tabel.
3.2.2 Mål for genetisk risiko
Genetisk eekt, eller genetisk risiko, deneres tit i termer af odds ratio,
forkortet OR. For den genetiske variant i estimeres odds givet den genetiske
23
variant som
oddsi =
ri
si
, (3.3)
hvor ri er antal cases med variant i, og si er antal kontroller med variant i.
Her kunne i for eksempel angive antal kopier af den mest almindelige allel,
og dermed ville i ∈ {0, 1, 2}. OR for to forskellige genetiske varianter i og j
kan nu estimeres som
OR =
oddsi
oddsj
=
risj
sirj
. (3.4)
Oftest deneres OR i forhold til den mest almindelige genetiske variant i
kontrolgruppen [Balding et al., 2007].
Et asymptotisk rimeligt (1 − α)-kondensinterval for OR er givet ved
CI(OR) = OR exp ±z1−α
2
1
ri
+
1
rj
+
1
si
+
1
sj
, (3.5)
hvor z1−α
2
angiver 1 − α
2 -fraktilen i standard normalfordelingen [Ziegler
and König, 2010].
3.2.3 Logistisk regression
Det må forventes, at sygdomsrisiko ikke kun styres af vores gener alene,
men også bliver påvirket af ydre faktorer såsom livsstil eller levevilkår. Dette
kan ikke så let indkapsles i Pearsons teststørrelse, og man har derfor brug
for andre modeller, nemlig klassen af logistiske regressionsmodeller. Én af
de helt store fordele ved den logistiske regressionsmodel er, at den netop
kan benyttes i case/kontrol-studier. En dominans-eekt af en allel kan også
modelleres i denne klasse af modeller [Balding et al., 2007].
Lad nu vores genotype eller allelfrekvens være givet ved xi. Da betragtes
θ(xi) = P(y = 1|xi), (3.6)
hvor y er binær og angiver case/kontrol-status. Vi kan nu betragte transfor-
mationen
f(xi) = log
θ(xi)
1 − θ(xi)
= µ + γi, (3.7)
hvor γi angiver eekten af genotype xi. I stedet for θ(xi) skrives tit πi.
Denne transformation kaldes logit-transformationen og betegnes også som
link -funktionen. Modellen kan også formuleres som
f(xi) = β0 + β1zi + β2ti, (3.8)
24
hvor z og t er såkaldte dummy-variable. Det mest almindelige er at sætte den
oftest forekomne genotype som reference, altså AA, og dermed vil zi kode for
genotypen Aa og ti kode for genotypen aa. Her repræsenterer parametrene
β1 og β2 dominanseekten af allel a over allel A.
Under antagelse af en additiv eekt af en allel har vi, at (3.8) reducerer
til
f(xi) = β0 + β1zi, (3.9)
hvor β1 er den additive eekt af allel a, og zi er en indikatorvariabel, der
antager værdier i {0, 1, 2} og angiver antal kopier af den sjældne allel.
Vi kan undersøge association mellem fænotype og SNPs med LR-teststør-
relsen for modeller, hvor β1 og/eller β2 er nul. Populationen kan inddeles i
del-populationer efter hvilken genotype g ∈ {0, 1, 2}, de bærer. Lad nu ng
betegne antal individer med genotypen g og yg betegne antal cases med
genotypen g. Vi får da at likelihood-funktionen er givet ved
f(y|β0, β) =
2
g=0
ng!
yg!(ng − yg)!
θ(g)yg
(1 − θ(g))ng−yg
(3.10)
= L(β0, β).
Med maksimum likelihood estimation fås da, at
(β0, β) = arg max
β0,β
L(β0, β) (3.11)
= arg max
β0,β
2
g=0
θ(g)
1 − θ(g)
yg
(1 − θ(g))ng
= arg max
β0,β
2
g=0
eyg(β0+xgβ)
1 + eβ0+xgβ
−ng
,
som simplicerer en del ved at tage logaritmen. Da logaritmen er en monoton
funktion, vil maximum være samme sted, og det fås derfor, at
(β0, β) = arg max
β0,β
2
g=0
yg(β0 + xgβ) − ng log 1 + eβ0+xgβ
= arg max
β0,β
n
i=1
yi(β0 + βxi) − log 1 + eβ0+βxi
(3.12)
= arg max
β0,β
l(β0, β).
I dette setup er det forholdsvis let at tilføje kovariater, som repræsenterer
ydre eekter f.eks. køn i de tilfælde, hvor det er kendt. Prædiktion baseret
på både genetik og ydre faktorer har dog ikke været i fokus i dette speciale
og vil ikke blive behandlet yderligere.
25
3.2.4 Cochran-Armitage trend test
Under antagelse af en model for dominanseekten af a (oftest additiv) kan
data analyseres med Cochran-Armitage trend test. For data på formen
aa Aa AA Total
Cases r0 r1 r2 r
Controls s0 s1 s2 s
Total n0 n1 n2 n
udregnes teststørrelsen X2
trend ved
X2
trend =
n
rs
·
(2r2s − 2rs2 + r1s − s1r)2
2n2n + (2n2 + n1)(n0 − n2)
(3.13)
og er asymptotisk χ2-fordelt med 1 frihedsgrad. I tilfælde, hvor den under-
liggende model ikke kendes, anses det for mere korrekt at anvende Cochran-
Armitage trend test frem for Pearsons χ2-test [Ziegler and König, 2010].
Denne test er ækvivalent med score-teststørrelsen for hypotesen β = 0 i en
logistisk regressionsmodel [Devlin and Roeder, 1999]. For at se dette lader
vi log-likelihooden være på formen
l(β0, β) = β0
n
i=1
yi + β
n
i=1
yixi −
n
i=1
log(1 + eβ0+βxi
), (3.14)
og lader pi = eβ0+βxi
1+eβ0+βxi
betegne sandsynligheden for at det i'te individ er
en case givet genotypen. For hypotesen om at β = 0 (ingen association
mellem fænotype og genotype) vil pi = P(yi = 1|xi) = r
n , da man der
vil forvente, at alle individer har den samme sygdomsrisiko uafhængig af
individets genotype. Dermed har vi, at scorefunktionen
U(β0, β) =
∂l(β0,β)
∂β0
∂l(β0,β)
∂β
(3.15)
=
− n
i=1 pi + n
i=1 yi
− n
i=1 pixi + n
i=1 xiyi
⇔
U(β0, 0) =
0
−p(n1 + 2n2) + (r1 + 2r2)
(3.16)
og at
D2
l(β0, β) =


∂2l(β0,β)
∂β2
0
∂2l(β0,β)
∂β0∂β
∂2l(β0,β)
∂β0∂β
∂2l(β0,β)
∂β2

 (3.17)
= −
n
i=1
pi(1 − pi) xipi(1 − pi)
xipi(1 − pi) x2
i pi(1 − pi)
.
26
Da den 2. aedede ikke afhænger af y vil I(β0, β) = −D2l(β0, β). Den inverse
Fisher informationen under hypotesen er da givet som
I(β0, 0)−1
=
1
D
p(1 − p)(n1 + 4n2) −p(1 − p)(n1 + 2n2)
−p(1 − p)(n1 + 2n2) np(1 − p)
(3.18)
hvor D er determinanten af Fisher informationen og givet ved
D = p2
(1 − p)2
n(n1 + 4n2) − (n1 + 2n2)2
. (3.19)
Det ses nu, at score-teststørrelsen for hypotesen β = 0 er givet ved
S(β0, 0) = U(β0, 0)T
I(β0, 0)−1
U(β0, 0) (3.20)
=
np(1 − p) (−p(n1 + 2n2) + (r2 + 2r2))2
p2(1 − p)2(n(n1 + 4n2) − (n1 + 2n2)2)
=
n (n(r2 + 2r2) − r(n1 + 2n2))2
r(n − r)(n(n1 + 4n2) − (n1 + 2n2)2)
hvilket er ækvivalent med (3.13). Dette ses ved at sætte n = r+s, n1 = r1+s1
og n2 = r2 + s2 i tælleren og omskrive nævneren.
3.3 GWA-studier
GWA-studier (Genome-wide association studies) er kort fortalt en masse
tests for association mellem en fænotype og SNPs fordelt nogenlunde tæt
langs hele genomet.
Den type associationsstudier, der involverer et panel af SNPs kaldes indi-
rekte associationsstudier, da de fokuserer på korrelationen mellem de enkelte
SNPs og en given sygdom, men det, man egentlig er interesseret i, er den ind-
ydelse regionen omkring de pågældende SNPs har på sygdommen, og det
er her en vigtig forudsætning, at de forskellige SNPs i et område er stærkt
korrelerede [Neale et al., 2008].
I 2007 var det mest almindelige antal SNPs i et GWA-studie ca. 300.000,
og det er nu steget til mellem 500.000 og 1.000.000. Test udføres for det me-
ste på samme måde som for enkelt-locus associationsmodeller. Det primære
software til analyse i GWA-studier er PLINK [Purcell], der kan udføre dette
store antal test rimelig hurtigt, og som håndterer data i et pladsbesparende
format.
Én af de helt store fordele ved GWA-studier er, at man ikke i forvejen
behøver én eller ere kandidat-gener, men kan gennemgå hele genomet for
signikante eekter. Dermed kan man potentielt opdage eekter af gener
eller regioner, man ikke tidligere har været opmærksom på.
GWA-studier er designet til at opdage genetiske varianter under den så-
kaldte Common Disease - Common Variant (CDCV) hypotese. CDCV hypo-
tesen går i bund og grund ud på, at det er en almindelig (mere eller mindre
27
udbredt) gen-variant, der forklarer størstedelen af risikoen for en udbredt
sygdom. Antagelsen om CDCV er yderst vigtig for, at et GWA-studie kan
være en succes. Om denne antagelse er rimelig, er der stadig tvivl om, og
der er argumenter både for og imod [Gibson, 2012]. Én af årsagerne til at
GWA-studier fungerer mindre godt til at opdage eekter forårsaget af sjæld-
ne gen-varianter er, at det simpelthen teknologisk er svært at genotype disse
[Ziegler and König, 2010].
På grund af størrelsen af data i GWA-studier, er det vigtigt at forholde
sig til at optimere sit forsøgsdesign med hensyn til styrke og omkostninger
og at tage højde for det store antal af test, der bliver udført. Dette vil jeg
komme nærmere ind på i de næste afsnit.
3.3.1 Styrke og fejl af type I
Kort fortalt er styrke sandsynligheden for at afvise en falsk nul-hypotese og
dermed opdage en sand eekt, hvorimod det at afvise en sand nul-hypotese
og dermed opdage en falsk eekt omtales som fejl af type I, ofte betegnet α.
Det er klart, at man gerne vil have så stor styrke som muligt samtidig med,
at man ønsker at minimere fejl af type I. Disse er dog forbundne på en sådan
måde, at det ofte bliver et trade-o mellem det ene og det andet [Forthofer
et al., 2007]. Det er blevet foreslået, at styrken for at opdage en kausal variant
skal være hovedkriteriet for valg af forsøgsdesign i et GWA-studie [Spencer
et al., 2009].
Én måde, hvorpå man kan øge styrken uden at ændre på α, er at øge
stikprøvestørrelsen n [Forthofer et al., 2007]. I praksis kan dette dog være
svært af ere grunde, for eksempel at der er en begrænset mængde cases til
rådighed eller begrænsede økonomiske resourcer. Simulationsstudier tyder
dog på, at man får en større stigning i styrke ved at øge stikprøvestørrelsen
end ved at øge tætheden af sine SNPs [Spencer et al., 2009].
Styrken for case-kontrol studier afhænger af forholdet mellem antal del-
tagere i de to grupper. For et fast antal deltagere vil lige store grupper give
den største styrke. Nogle gange er det dog svært at nde personer til case-
gruppen, og styrken kan da øges ved at øge antallet i kontrol-gruppen til
mellem 3 og 5 gange antallet i case-gruppen. For at illustrere dette har jeg
100 gange simuleret 10.000 observationer fra modellen givet ved
f(xi) = 0.4 + 0.05 · xi (3.21)
hvor xi ∈ {0, 1, 2}. For hvert af de 100 datasæt har jeg ttet en logistisk
regressionmodel for et varierende antal cases og et stigende antal kontroller.
Herefter har jeg estimeret styrken for de forskellige kombinationer ved at
tage gennemsnittet over de 100 modelt. Et plot af styrken som funktion af
antallet af cases og kontroller ses i gur 3.1. Det ses af grafen, at styrken for
et fast antal cases til en vis grad kan øges ved at tilføje ere kontroller til
forsøget.
28
500 1000 1500 2000 2500 3000
0.00.20.40.60.81.0
Antal kontroller
Styrke
800 cases
400 cases
200 cases
100 cases
Figur 3.1: På guren ses sammenhængen mellem styrke og antal kontroller
for faste værdier af antallet af cases.
Specikt for GWA-studier er der yderligere forhold, der påvirker styrken i
et forsøg. Styrken vil blive påvirket af mængden af LD mellem markør-SNPen
og sygdoms-allelen, men også af frekvensen af markør alleler. Det kan derfor
øge styrken at vælge sine markør-alleler smart, således at genomet er dækket
af SNPs i forholdsvis stor korrelation, uden at der medtages unødvendigt
mange. Forskellige genotype-platforme måler forskellige markør-alleler, og
valg af platform er derfor relevant. Man kunne umiddelbart tro, at det var
bedre at analysere hele haplotypen frem for enkelte markører, men det har
vist sig ikke at have den store betydning [Spencer et al., 2009].
På trods af mange fund af gener associeret med forskellige sygdomme
eller andre fænotyper har det i mange tilfælde været svært at genskabe re-
sultaterne i nye forsøg. Dette skyldes muligvis et falsk positivt resultat i
første omgang, eller at årsagen til f.eks. en sygdom er meget kompleks og
skyldes forskellige gener samt livsstil og ydre påvirkninger.
3.3.2 Valg af markør-SNPs og genotype-platforme
Det giver næsten sig selv, at valget af markørSNPs har stor betydning for
styrken i GWA-studier. Et mål, for hvor godt en mængde af SNPs repræsen-
terer varianter i hele genomet, er dækning, som bestemmes ud fra graden af
29
LD mellem SNPs. I regioner med lille dækning vil styrken for GWA-studier
være lille [Jorgenson and White, 2006].
Markører kan enten vælges tilfældigt, ligefordelt eller ved hjælp af refe-
rencepaneler som HapMap-projektet eller gennem mere omfattende metoder.
Én af de simpleste (og mest konservative) måder at udvælge markørSNPs
med et referencepanel er ved hjælp af mål for LD. De kan udvælges på den
måde, at alle almindelige alleler enten er målt direkte eller, at LD mellem
dem og en markør er større end en fastsat grænse. Denne grænse kan enten
vælges til r2 = 1 sådan, at alle almindelige alleler enten er målt eller er i
perfekt LD med en markør, hvilket selvfølgelig er det optimale, men også
det mest bekostelige. Det er vist, at grænseværdier ned til omkring r2 = 0.8
opretholder en rimelig styrke i forhold til r2 = 1 [de Bakker et al., 2005].
En anden metode er at rangordne SNPs efter hvor mange andre SNPs,
de er i tilpas høj LD med, og så måle de første N af disse. Denne metode er
meget eektiv til at opretholde styrken samt reducere omkostningerne, givet
at man har et komplet referencepanel til rådighed [de Bakker et al., 2005].
3.3.3 Imputation
Et andet forhold, der har vist sig at øge styrken i GWA-studier, er imputation
af data [Spencer et al., 2009]. I bund og grund handler det om at udnytte
graden af LD mellem SNPs og information om almindelige haplotyper, til at
imputere manglende SNPs f.eks. fra HapMap [HapMap Consortium], 1000
Genomes Project [1000 Genomes Project] eller et andet tæt referencepanel
af SNPs, se gur 3.2.
De SNPs, man ønsker at imputere, kan mangle af forskellige årsager. Det
kan f.eks. være SNPs, man er specielt interesseret i, men som ikke ndes på
den brugte chip eller tilfældigt manglende observationer.
Da der til imputerede SNPs hører en sandsynlighed, kræver det ekstra
opmærksomhed at teste for association ved disse SNPs [Marchini and Howie,
2010].
Udfordringen ved imputation af SNPs, ligger i at nde en hurtig og præ-
cis metode til estimation af haplotyper. Én af de mere avancerede metoder
til at imputere SNPs bygger på Hidden Markov Models (HMM) [Scheet and
Stephens, 2006]. Modellen bygger på, at over korte regioner i genomet har
haplotyperne en tendens til at klumpe sig sammen i grupper af lignende
haplotyper. Denne gruppering er på grund af rekombination lokal, og derfor
vil de grupper, der ligner hinanden, ændre sig, når man bevæger sig langs
genomet. Dette tager modellen højde for, idet den tillader at gruppetilhørs-
forhold ændrer sig kontinuert langs genomet med hensyn til en HMM.
En hurtigere, men muligvis også mindre præcis, imputationsmetode, er
implementeret i PLINK [Purcell], som er et program designet til GWA-
studier. Her foregår imputation ved, at for hver SNP, der skal imputeres,
benyttes referencepanelet til at søge efter en gruppe omgrænsende SNPs,
30
Figur 3.2: Billedet illustrerer, hvordan imputation af SNPs foregår ved hjælp
af et referencepanel af haplotyper [Howie, 2013].
som danner en haplotypebaggrund med en høj grad af LD med den SNP,
der skal imputeres. Grunden til at denne metode er hurtig, men mere usikker,
er at den kun benytter en lille del af data [Marchini and Howie, 2010].
3.3.4 Genomic control
Case-kontrol studier har været kritiseret, fordi de bygger på en antagelse om
en homogen population, som ikke altid er realistisk. Derfor foreslås metoden
genomic control [Devlin and Roeder, 1999]. Metoden bygger på en antagelse
om, at populationsstratikation vil resultere i et øget antal falske positive
fund, og dette korrigeres der så for i teststørrelsen [Ziegler and König, 2010].
Problemet med populationsstratikation er, at istedet for, for hver SNP,
at have modellen for en population Z
logit P(Y = 1|X, Z) = β0 + β1X + β2Z, (3.22)
vil man få en model, hvor man er nødt til at dele op efter population:
P(Y = 1|x) = P(Y = 1|X, Z = 1)P(Z = 1|X) (3.23)
+P(Y = 1|X, Z = 0)P(Z = 0|X).
I denne situation er der ikke en oplagt transformation, der giver mening. Man
får altså en situation hvor man har en uobserveret variabel, der påvirker både
genotypen og responsvariablen.
31
For at prøve at rette op på problemet kan man benytte genomic control.
Følgende beskriver metoden for association mellem fænotype og et enkelt
locus. Metoden går ud på, at man udover sit kandidat-locus genotyper en
række nul-loci, og for disse udregnes yderligere teststørrelser. Under hypote-
sen om ingen populationsstratikation vil den forventede værdi af disse være
1. Ud fra teststørrelserne udregnes en inationsfaktor κ. Forskellige måder
at udregne inationsfaktoren på er blevet foreslået. For en additiv model er
et simpelt og robust estimat for κ givet ved [Ziegler and König, 2010]
ˆκ =
median(X2
1 , X2
2 , . . . , X2
n)
0.456
, (3.24)
hvor X2
i er teststørrelsen for det i'te nul-locus, og 0.456 er 50%-fraktilen i
χ2
1-fordelingen. Teststørrelsen for et kandidat-locus j korrigeres nu ved hjælp
af ˆκ sådan, at
X2
GC =
X2
j
ˆκ
(3.25)
[Devlin and Roeder, 1999]. Alternativt kan ˆκmax = max(ˆκ, 1) benyttes. Da κ
variarer med stikprøvestørrelsen, er det blevet foreslået at benytte κ1000, som
er den forventede værdi i et studie med 1000 i både case- og kontrolgruppe
[Ziegler and König, 2010]. Denne kan udregnes ud fra ˆκ som
κ1000 = 1 + (ˆκ − 1)
n−1
case + n−1
kontrol
1/2000
. (3.26)
Metoden er kun anvendelig for binære markører, og kan derfor kun bruges
sammen med allel-test og ikke sammen med genotype-test.
Alternativt kan man undersøge, om der er populationsstratikation ved
at plotte de observerede teststørrelser mod de forventede teststørrelser under
nul-hypotesen om ingen association. Denne slags plots af observerede mod
forventede værdier kaldes også QQ-plot. Metoden bygger på en antagelse om,
at uden populationsstratikation vil kun få sandt associerede SNPs afvige
fra linien, hvorimod man ved populationsstratikation vil se en systematisk
afvigelse blandt de este SNPs. På grund af dette kunne man også beregne
ˆκ ved at regressere de observerede værdier mod de forventede og så benytte
hældningen som inationsfaktor, da populationsstratikation ville resultere
i en hældning forskellig fra 1. Da de sande associationer altid vil afvige,
anbefales det at ekskludere de største 10% fra denne udregning [Ziegler and
König, 2010].
3.3.5 Replikationsstudier
En måde at validere et positivt fund uafhængig af styrken i studiet er gen-
nem ét eller ere uafhængige replikationsstudier. Sådanne replikationsstudier
32
bliver efterhånden anset for essentielle for at etablere en valid genotype-
fænotype association [Chanock and Manolio, 2007], og ifølge [Kraft et al.,
2009] vil mange anerkendte tidsskrifter ikke publicere genotype-fænotype
associationer, uden at de er valideret i mindst et replikationsstudie.
I nogle replikationsstudier genotyper man ud over de tidligere fundne
markører en række af tætsiddende markører i samme region som det tidligere
signikante fund eller markører i områder med `næsten-signikante` fund.
Det kan enten være omkring gen-regioner eller i områder uden markører i
det oprindelige studie. Grunden til dette er, at det kan være et andet locus
i samme region som den oprindelige markør, der egentlig var associeret med
den aktuelle fænotype. I tilfælde af at man nder association for en anden
markør, men i samme region eller gen som tidligere, betragtes den som en
bekræftelse, og man taler om lokal replikation [Clarke et al., 2007]. Denne
metode står i kontrast til et eksakt replikationsstudie, hvor kun tidligere
signikante markører testes.
For at sammenligne disse to typer af replikationsstudier må det antages,
at de to stikprøver er uafhængige, men stammer fra samme population. I
områder med meget høj LD mellem markører vil tilføjelsen af ere markører
mindske sandsynligheden for success ved replikation, og det vil i dette tilfælde
være bedst med et eksakt replikationsstudie. I områder med lav LD mellem
de forskellige markører kan lokal replikation fungere lige så godt eller bedre
end eksakt replikation afhængig af graden af LD mellem de nye markører og
det kausale locus [Clarke et al., 2007].
3.3.6 Multipel testning-problemet
Ét af de helt store spørgsmål vedrørende GWA-studier er, hvordan man
korrigerer sine p-værdier for, at man udfører i omegnen af 500.000-1.000.000
test.
For tests med signikansniveau α må man forvente, at man i 100 · α%
af tilfældene vil få et falsk positivt resultat, altså at en SNP uden indydel-
se viser statistisk signikant association med den pågældende sygdom. Når
man i GWA-studier vælger signikansniveau, er det derfor vigtigt at tage
forbehold for 'multipel testning'-problemet. Dette kan gøres på forskellige
måder.
Den nemmeste måde at korrigere α på er ved at bruge Bonferroni korrek-
tionen. Hvis man ønsker et overordnet signikansniveau på αtotal og tester p
SNPs, benyttes tilnærmelsen
α =
αtotal
p
(3.27)
for det enkelte test. Problemet med dette er, at ens test muligvis ikke er
uafhængige, da forskellige SNPs kan være korrelerede for eksempel på grund
33
af LD. Dette fører til, at man får et signikansniveau mindre end det nød-
vendige. Således er denne korrektion et korrekt, men muligvis konservativt
valg [Johnson et al., 2010].
En anden metode til at sikre et fornuftigt overordnet signikansniveau er
permutationstest. Først udregnes den observerede teststørrelse på baggrund
af værdierne i de aktuelle grupper. Herefter blandes alle observationerne, og
alle mulige værdier af teststørrelsen udregnes ved gentagne gange at opdele
observationerne i to grupper på en ny måde. På denne måde nder man
fordelingen af teststørrelsen under antagelse af, at der ikke er forskel på
grupperne. I denne fordeling ndes så α-fraktilen, og denne benyttes som
signikansgrænse, således at p-værdien er givet som andelen af teststørrelser
der er mere ekstreme end den observerede teststørrelse. Permutationstest
giver gode resultater, men er beregningsmæssigt meget omfattende [Johnson
et al., 2010].
I praksis benyttes ofte en signikansgrænse for det enkelte test på om-
kring 5 × 10−8 svarende til en bonferroni-korrektion for 1.000.000 test, og
det afgørende for om en genotype-fænotype association anses for plausibel
er primært, om den er valideret i et replikationsstudie.
34
Kapitel 4
Metoder
Formålet med mange epidemiologiske studier er at identicere risiko-faktorer
for en eller ere sygdomme og ofte med henblik på at benytte disse til at præ-
diktere sygdomsrisiko for nye individer eller en del af populationen. I dette
kapitel vil jeg give en introduktion til prædiktion i epidemiologiske studier,
herunder specikt i GWA-studier. Jeg vil denere ROC-kurven og AUC som
er størrelser, der ofte benyttes til at vurdere kvaliteten af prædiktionsme-
toder og til sammenligning af forskellige prædiktionsmetoder. Desuden vil
jeg give en grundig gennemgang af de metoder, der benyttes til analyse og
risikoprædiktion i to konkrete datasæt i kapitel 6.
4.1 Risikoprædiktion i epidemiologiske studier
Ved risikoprædiktion forstås almindeligvis et estimat for sandsynligheden for
at et tilfældigt individ tilhører en bestemt gruppe, f.eks. syge. Dette estimat
bygger på en model, som indeholder én eller ere risikoparametre. Disse kan
være alder, køn eller blodtryk, men også genetiske faktorer som for eksempel
genotypen for en række SNPs for et individ.
Risikoprædiktion kan enten resultere i en klassikation i grupper, f.eks.
høj eller lav risiko, eller i en kvantitativ risikoscore, s. En sådan kvantitativ
risikoscore kan konverteres til en klassikation ved valg af en grænse T,
således at et individ har høj risiko hvis s ≥ T.
For at kunne vælge den bedste prædiktionsmodel, er det nødvendigt at
have et eller ere mål for kvaliteten af prædiktionen. De simpleste mål for
præcision af en klassicering er sensitivitet og specicitet [Jostins and Bar-
rett, 2011]. Disse deneres som
sensitivitet = P(positiv|syg) =
antal sande positive
antal syge
(4.1)
specicitet = P(negativ|rask) =
antal sande negative
antal raske
, (4.2)
35
altså andelen af individer, der udvikler sygdommen, som bliver klassiceret i
gruppen med høj risiko, og andelen af raske, der klassiceres i gruppen med
lav risiko.
Givet en risikoscore og en række af grænseværdier T fås en række af vær-
dier for specicitet og sensitivitet for hver værdi af T. Plottes sensitiviteten
mod 1-speciciteten for alle mulige værdier af T, fås ROC-kurven, som er
en forkortelse for Receiver-Operating Characteristic curve [Forthofer et al.,
2007]. Arealet under ROC-kurven, AUC, er lig sandsynligheden for, at en
tilfældigt udvalgt individ med sygdommen har en højere score end et tilfæl-
digt udvalgt raskt individ (se sætning 1), og denne værdi benyttes ofte til at
sammenligne prædiktionsmetoder.
Sætning 1. Antag der haves et tilfældigt udvalgt par af individer såles at
y1 = 0 og y2 = 1. Lad si betegne en risikoscore for det i'te individ. Da gælder
det at
AUC = P(s1  s2|y1 = 0, y2 = 1).
Bevis. Det ses, at
1 − specificitet = P(si  T|yi = 0) (4.3)
= H(si)
=
T
−∞
h(si)dsi
sensitivitet = P(si  T|yi = 1) (4.4)
= G(si)
=
T
−∞
g(si)dsi.
Lad nu A være sandsynligheden for at en tilfældigt valgt case har en højere
risikoscore end en tilfældigt valgt kontrol, altså
A = P(s1  s2|y1 = 0, y2 = 1). (4.5)
Det fås nu, at
A =
s1s2
h(s1)ds1g(s2)ds2 (4.6)
= H(s2)dG(s2)
= (1 − specificitet)d(sensitivitet)
Hvilket svarer til arealet under ROC-kurven.
36
Der ønskes en høj værdi af AUC, hvor værdien 0.5 svarer til, hvad man
ville forvente at opnå ved at gætte tilfældigt. Værdien 1 er den højeste vær-
di, der kan opnås, og svarer til, at modellen kan skelne de to grupper fra
hinanden fuldstændigt.
En faktor, det kan være nødvendig at tage højde for, når man evaluerer
forskellige prædiktionsmetoder, er prævalensen for den pågældende sygdom.
Prævalens for en sygdom er sandsynligheden for, at et tilfældigt valgt individ
har sygdommen, og deneres som antal syge individer delt med det totale
antal individer i den pågældende population.
Et andet ofte anvendt mål for eekten af en prædiktionstest, som netop
tager højde for prævalensen, er den Positive Prædiktionsværdi (PPV) og den
Negative Prædiktionsværdi (NPV). Disse er deneret som andelen af perso-
ner, der tester positivt, og som udvikler sygdom, og andelen af personer, der
tester negativt og forbliver raske [Forthofer et al., 2007]. Givet estimater for
sensitiviteten og speciciteten samt prævalensen for sygdommen i befolknin-
gen kan disse estimeres som [Ziegler and König, 2010]
PPV =
ˆsens · prev
ˆsens · prev + (1 − ˆspec) · (1 − prev)
, (4.7)
NPV =
ˆspec · (1 − prev)
ˆspec · (1 − prev) + (1 − ˆsens) · prev
. (4.8)
For sjældne sygdomme er det især relevant at evaluere en eventuel prædik-
tionsmetode i forhold til PPV og NPV. For en klinisk test for en sygdom
med en prævalens på 0.001 og med en sensitivitet på 0.95 og en specicitet
på 0.87 fås PPV = 0.0073. For et tilfældigt valgt individ, der testes positivt
for sygdommen, er sandsynligheden for, at personen udvikler sygdommen
altså 0.0073. På denne måde vil mange raske blive klassiceret som væren-
de i gruppen med høj risiko, og dette kan der være forskellige ulemper ved,
afhængig af hvilke tiltag der bliver gjort for personer i denne gruppe.
Risikoprædiktion har tidligere primært været baseret på ydre risikofak-
torer såsom alder, køn eller rygning, og det varierer fra sygdom til sygdom
hvor meget ekstra information, man vinder ved at inddrage genetiske fakto-
rer i sin prædiktionsmodel. Hvis der for eksempel i en test indgår et individs
bloktryk, vil man forvente, at SNPs associeret med blodtryk også er associ-
eret med sygdommen, men det er ikke sikkert, at man opnår en øget eekt
ved at inkludere disse SNPs, da deres information allerede er indeholdt i
en blodtryksmåling. Én af de helt store potentielle fordele ved genetisk ri-
sikoprædiktion frem for prædiktion baseret på ydre faktorer og prøver er,
at prædiktionen på lang sigt er mere stabil. Dette er for eksempel yderst
relevant, hvis forebyggende medicin er mere eektivt, hvis det påbegyndes
tidligt, eventuelt før man ser nogen ydre symptomer [Jostins and Barrett,
2011].
37
4.1.1 Prædiktion i GWA-studier
Risikoprædiktion i GWA-studier er et noget specielt tilfælde, da man har
500.000-1.000.000 potentielle prædiktorer at vælge imellem. I de tilfælde,
hvor mange SNPs har svag til moderat eekt, virker det logisk, at en præ-
diktionsmodel, der kun er baseret på de mest signikante SNPs, muligvis
ikke er det optimale. I [Kang et al., 2011] har man fundet evidens for, at det
optimale kan være at inkludere ere hundrede SNPs.
Udover at antallet af SNPs kan øge prædiktionsværdien, kan det også
tænkes, at prædiktion baseret på haplotyper eller andre kombinationer af
ere SNPs fungerer bedre end at benytte enkelte SNPs, da det kan være en
serie af mutationer, der tilsammen har en eekt. Tidligere forsøg har vist, at
der muligvis er eekter, der kun kan identiceres med en haplotype-tilgang,
mens der er eekter, der kun vedrører enkelte eller få SNPs, og som kan
være svære at identicere med store haplotype-blokke [Kang et al., 2011].
En anden ulempe ved store haplotype-blokke er, at estimationen af dem
ud fra genotypen er mere usikker, og [Kang et al., 2011] vælger derfor at
undersøge prædiktion med små haplotype-blokke frem for enkelte SNPs.
I de næste afsnit vil jeg præsentere forskellige metoder til at udvælge præ-
diktive SNPs og gennemgå forskellige måder at opstille prædiktionsmodeller
på.
4.2 Logistisk regression med penalisering
For høj-dimensionelle data, som for eksempel SNP-data, hvor p  n er al-
mindelig simultan lineær eller logistisk regression ikke mulig. En alternativ
metode er de såkaldte penaliseringsmetoder, hvor koecienterne mindskes
mod nul. Blandt disse metoder ndes ridge regression (RR) og Least Absolu-
te Shrinkage and Selection Operator (Lasso) [Tibshirani, 1996] samt Elastic
Net (ELN) [Zou and Hastie, 2005], som er en kombination af disse to.
Lasso, RR og ELN er estimationsmetoder til anvendelse indenfor klas-
sen af generelle lineære modeller (herunder logistisk regression). Metoderne
minimerer den kvadrerede residualsum mht., at den absolutte værdi af koef-
cienterne skal være mindre end en given konstant. Ofte vil Lasso og ELN
producere ere koecienter, der er præcis 0, hvilket muliggør tolkning af
modellen, hvorimod dette ikke er tilfældet med RR [Hastie et al., 2009].
Vi betragter situationen, hvor vi har data (xi, yi), for i = 1, 2, . . . , n, hvor
xi = (xi1, . . . , xip) angiver genotypen for det i'te individ, og yi er en binær
responsvariabel. Det antages enten, at observationerne er uafhængige, eller
at yi'erne er uafhængige givet xij'erne. Det antages yderligere, at søjlerne i
designmatricen X er standardiserede, således at søjlerne har middelværdi 0
og varians 1. Lad nu ˆβ = (ˆβ1, . . . , ˆβp). Estimaterne ( ˆβ0, ˆβ) er da deneret
38
som [Hastie et al., 2009]
( ˆβ0, ˆβ) = arg min
β0,β



−l(β0, β) + λ1
p
j=1
|βj| + λ2
p
j=1
β2
j



, (4.9)
hvor
l(β0, β) =
n
i=1
yi(β0 + x
T
i β) − log(1 + eβ0+xT
i β
) (4.10)
er log-likelihood-funktionen for logistisk loss og en generalisering af (3.12)
til p variable. λ1, λ2 ≥ 0 er tuningsparametre og kaldes også penaliserings-
konstanter. λ1 = 0 vil give RR, og λ2 = 0 vil give Lasso. For alle λ1, λ2 vil
ˆβ0 = ¯y. Disse optimeringer har aldrig eksakte løsninger, og må derfor ofte
løses numerisk. Til dette eksisterer ere algoritmer, og en af disse gennemgås
i afsnit 5.2.
Hvis pakken glmnet [Friedman et al., 2010b] i R benyttes til at tte
ELN-penaliserede modeller, benyttes den lidt anderledes, men ækvivalente
formulering
( ˆβ0, ˆβ) = arg min
β0,β
{−l(β0, β) + λPα(β)} , (4.11)
hvor
Pα(β) =
p
j=1
1
2
(1 − α)β2
j + α|βj| . (4.12)
Med denne parametrisering af tuningparametrene svarer α = 1 til Lasso og
α = 0 til RR, og penaliseringsparameteren λ angiver, hvor meget koecien-
terne skal straes. Jeg vil i resten af specialet benytte denne parametrisering.
Da Lasso-estimatet hverken er en lineær eller dierentiabel funktion af
responsvariablen, er det svært at udregne et præcist estimat for standard-
afvigelsen. En måde at komme uden om dette er ved at benytte bootstrap-
metoder, enten for et fast λ eller ved at maksimere over λ for hver bootstrap-
runde.
λ kan fastlægges på ere måder f.eks. ved krydsvalidering, generaliseret
krydsvalidering eller ved et analytisk risiko-estimat [Tibshirani, 1996].
Lasso har specielt sine fordele, når antallet af variable er meget større end
antallet af observationer. For mindre værdier af λ kommer ere prædiktorer
ind i modellen. De indtræder typisk i rækkefølge efter vigtighed, medmindre
de er korrelerede [Wu et al., 2009]. Løsningen til (4.11) for en sekens af λ'er
kaldes Lasso-stien.
For SNP-data af den typiske størrelse er krydsvalidering for omfatten-
de og tidskrævende, og det foreslås derfor, at λ i stedet bestemmes af det
ønskede antal prædiktorer (tit i omegnen af 20-50).
39
4.3 SparSNP
SparSNP [Abraham et al., 2012] er en selektions- og klassikationsmetode til
analyse af SNP-data, der kombinerer penaliseringsmetoder som Lasso og Ela-
stic Net med Support Vector Machines (SVM), se mere nedenfor. Metoden
er implementeret i C, og evalueringsdelen af metoden benytter R. Udover
at udføre variabelselektion og klassikation af individer kan metoden også
benyttes til at konstruere risikoprædiktionsmodeller. Ifølge [Abraham et al.,
2012] skulle metoden fungere mindst lige så godt med hensyn til risikopræ-
diktion som Lasso- og ELN-modeller ttet med glmnet() [Friedman et al.,
2010b] i R samtidig med, at SparSNP kan håndtere langt større datasæt
indenfor rimelig tid.
Det antages, at en risikoscore si ∈ R for individ i er en lineær funktion
af antallet af den mindre allel sådan, at
si = β0 +
p
j=1
xijβj. (4.13)
Lad designmatricen, X, være standardiseret som i forrige afsnit. Koecien-
terne ( ˆβ0, ˆβ) estimeres ved at minimere den penaliserede kvadrerede hinge
loss-funktion (se gur 4.1),
L(β0, β) =
1
2
n
i=1
max{0, 1 − yi(β0 + x
T
i β)}2
+ λPα(β), (4.14)
hvor y ∈ {−1, +1} og λPα(β) er som i (4.12). Herefter kan de indgående
SNPs ordnes efter størrelsen af koecienterne |βj|, hvor det antages, at en
stor værdi af βj er ensbetydende med en høj grad af association mellem
SNP og fænotype. Ovenstående risikoscore kan så udregnes, eller de n højest
rankede SNPs kan benyttes til at tte en logistisk regressionsmodel. En af
fordelene ved at benytte den kvadrerede hinge loss-funktion er, at den er
dierentiabel, og dermed kan optimering foretages ved hjælp af en coordinate
descent-algoritme, se kapitel 5. Det ses desuden, at den minder en del om
loss-funktionen i den logistiske regressionsmodel.
Med i implementeringen af metoden er muligheden for at benytte kryds-
validering til tuning af λ og stability selection [Meinshausen and Bühlmann,
2010] med det formål at opnå en mere robust ranking af SNPs samt et mere
robust estimat for modellens prædiktionsevne (i form af AUC).
4.3.1 Support Vector Machines
Metoden SparSNP bygger som nævnt på SVMs, som kommer fra området
machine learning, og som ikke umiddelbart har noget med sandsynligheds-
modeller at gøre. Grundlæggende ndes der to former for SVMs: Support
Vector Classication (SVC) og Support Vector Regression. I det følgende vil
40
−10 −5 0 5
020406080100120
Kvadreret hinge−loss
y*f(x)
loss(x,y)
Figur 4.1: På billedet ses den kvadrerede hinge-loss funktion. Det ses, at den
først er 0 for y · f(x) = 1.
jeg kun fokusere på principperne bag SVC, da det er denne form SparSNP
benytter ved en binær fænotype.
Konceptet i SVMs er som følger: Det antages, at der eksisterer en ukendt
afhængighed y = f(X) mellem (ofte høj-dimensionelle) observationer X og
respons y. Den eneste tilgængelige information er træningdatasættet D =
{(xi, yi) ∈ X × y}, i = 1, . . . , n. På baggrund af træningseksemplerne kon-
struerer SVMs en klassikationsgrænse indenfor en valgt klasse af funktioner.
SparSNP benytter en lineær SVM, hvilket vil sige, at denne klassikations-
grænse er lineær. For SNP-data vil det betyde, at klassikationsgrænsen er
en p-dimensional hyperplan.
Når data er lineært seperabelt (hvilket vil sige at de to klasser kan skilles
af en lineær funktion) er målet at nde den klassikationsgrænse, der gi-
ver den største afstand til de nærmeste observationer, og som også vil være
de observationer, det er sværest at klassicere. Denne afstand kaldes margi-
nen. De observationer, der ligger nærmest beslutningsgrænsen, kaldes support
vectors, og det er udelukkende disse, der bestemmer hvor beslutningsgrænsen
skal ligge [Wang, 2005].
Det forekommer selvfølgelig ofte, at data ikke er lineært seperabelt. Dette
kan for SVMs løses på to forskellige måder. Enten kan data separeres i en
klasse af ikke lineære separationsfunktioner, eller også kan misklassicerede
observationer tillades. Den sidste metode er den, der benyttes af SparSNP.
Når data ikke er lineært seperabelt, og observationer overlapper, vil der
41
ved at benytte en lineær klassikationsgrænse altid forekomme misklassi-
cerede observationer. De misklassicerede objekter vil have en meget stor
indydelse på beslutningsgrænsen, hvilket vil gøre næsten alle observatio-
ner til supportvektorer [Wang, 2005]. Dette løses ved at have en blød (soft)
margin, og alle observationer indenfor denne er ignoreret. Bredden på denne
margin kontrolleres med en parameter. Se gur 4.2 for et eksempel på en
SVM med blød margin i tilfældet hvor p = 2·
Figur 4.2: På billedet [Blondel, 2013] ses klassikation med SVMs af to grup-
per i et 2-dimensionelt rum. De markerede punkter er supportvektorerne.
For SparSNP er det netop penaliseringen, der giver den bløde margin,
og parameteren λ, der styrer bredden. L1-penalisering har en tendens til at
give færre supportvektorer [Wang, 2005].
4.4 PrincipLasso
Når Lasso benyttes til variabelselektion i situationer, hvor de pågældende
variable er delvist korrelerede, udvælges vilkårligt én eller ere af de korre-
lerede variable. Dette er ikke nødvendigvis den mest hensigtsmæssige måde,
da man måske smider vigtig information væk i de tilfælde, hvor ere af de
korrelerede variable har stærke eekter.
Jeg vil derfor foreslå og afprøve en metode, hvor designmatricen opdeles
i blokke på baggrund af graden af LD mellem de enkelte SNPs, således at
der er en forholdsvis høj grad af LD mellem SNPs indenfor disse blokke.
For hver af disse blokke beregnes principalkomponenterne (se afsnit 4.4.2),
og et passende antal af disse fungerer som repræsentanter for blokken i en
Lasso-prædiktionsmodel. Lignende fremgangsmåder, hvor der tages højde for
42
blok-strukturen i SNP-data, er for nylig blevet studeret af andre. Se f.eks.
Bühlmanns Cluster Representative Lasso [Bühlmann et al., 2012] eller Liu og
Huangs Smoothed Group Lasso [Liu et al., 2012]. En anden motivationsfaktor
for denne tilgang er, at man ved at benytte et antal principalkomponenter
frem for det fulde datasæt får nedbragt dimensionen betragteligt.
4.4.1 Opdeling i blokke med høj grad af LD
Det første element i implementeringen af PrincipLasso er at foretage en pas-
sende opdeling af de målte SNPs i blokke, således at SNPs indenfor samme
blok har en vis grad af korrelation mellem sig, og således at der er en stør-
re grad af korrelation indenfor blokke end mellem blokke. En metode til at
estimere disse blokke simpelt kunne være at beregne den parvise korrelation
mellem alle nabo-SNPs langs et kromosom og så opdele i blokke de steder,
hvor den parvise korrelation var lavest, og på en sådan måde at antallet og
størrelsen af disse blokke var passende.
En anden tilgang til problemet kunne være at benytte UCSC Genome
Browser [Kent et al.], som blandt andet indeholder information om estime-
rede rekombinationshotspots. De este af disse hotspots er fælles indenfor en
nogenlunde homogen befolkning, men omkring 15% varierer mellem mænd
og kvinder. Dog ser det ud til, at der ved mandlige rekombinationshotspots er
en lille stigning i rekombinationsraten hos kvinder og omvendt [Kong et al.,
2010]. En visualisering af dette ses i gur 4.3. Det er vigtigt, at rekombina-
tionshotspots er estimeret ud fra det samme build som ens data, da de er
baseret på kb-positioner langs genomet og ellers kan være misvisende.
Med disse hotspots er der to mulige blokopdelinger: Én der benytter alle
hotspots, både for mænd og kvinder, og en, der kun benytter de hotspots
der er fælles mellem køn. Det er oplagt, at den første metode giver ere, og
dermed mindre, blokke end den anden.
Ved at benytte de estimerede hotspots som grænser fås en opdeling i
blokke, hvor det virker rimeligt at antage, at andelen af rekombinationer er
større mellem blokkene end indenfor blokkene. Disse rekombinationshotspots
strækker sig typisk over en region, så for at undgå SNPs, der ikke kan tildeles
en blok, kan midterpunktet i en given hotspotregion vælges som grænse.
Alternativt kan man for de SNPs, der falder inden for en hotspotregion,
vælge sit hotspot, der hvor den parvise korrelation er mindst.
Med denne metode vil man få blokke af meget forskellig størrelse, da gra-
den af LD mellem SNPs varierer langs genomet. Derudover er der en tendens
til at specielt de kønsspecikke hotspots forekommer i klumper [Kong et al.,
2010], hvilket vil resultere i små blokke i disse områder. Dette kan delvis
undgås ved kun at benytte de hotspots, der er fælles for de to køn.
Der er ikke estimeret rekombinationshotspots for X- og Y-kromosomet,
så for SNPs langs disse kromosomer må opdelingen foregå på en anden måde,
evt. ved at benytte parvis korrelation som forklaret ovenfor.
43
Der kunne være en pointe i at benytte en mere data-dreven blokopde-
ling, og jeg har derfor undersøgt forskellige former for software og algoritmer
beregnet til clustering eller, på dansk, gruppering. De este metoder var dog
for avancerede til at anvende på SNP-data, da det tog alt for lang tid for det
fulde datasæt.
Som forslag til en løsning på problemet har jeg implementeret en hur-
tigere og mere enkel version af K-means clustering [MacQueen, 1967], som
respekterer den ordning SNPs har langs genomet (se algoritme 1). Jeg vil
omtale denne version som ordnet K-means eller OK-means. I almindelig K-
means gruppering kan grupperne dannes vilkårligt blandt samtlige variable,
hvilket både er mere tidskrævende, men heller ikke giver nogen mening i
forhold til at estimere den naturlige LD-struktur langs genomet.
Algoritme 1: Ordnet K-means gruppering
1: Inddel de p variable i K grupper H0 : {h0
0 = 1, h0
1, . . . , h0
K = p}
2: i := 1
3: repeat
4: Hi := Hi−1
5: Udregn centrum i grupperne, ck:
1
mk
mk
i=1 xk
6: for k in 1 : (K − 1) do
7: hk
i := arg minj
hi
k+1
j=hi
k−1
xj − ck
2 − xj − ck+1
2
8: end for
9: i := i+1
10: until Hi−1 = Hi
11: return Hi
I algoritme 1 består det første skridt i at opdele de p variable i K  p
grupper. Dette kan gøres på mere eller mindre tilfældige måder, for eksem-
pel ved at opdele i K tilnærmelsesvis lige store grupper eller ved tilfældigt
at vælge K opdelingsgrænser. En anden mulighed kunne være at benytte
forhåndenværende viden som for eksempel de estimerede rekombinations-
hotspots. Alternativt kunne man benytte en inddeling baseret på minimal
parvis korrelation mellem SNPs.
I næste skridt udregnes centrum i blokkene. På baggrund af disse ryk-
kes blokinddelingerne iterativt ved at minimere den samlede afstand mellem
SNPs og blokkens centrum og samtidig bevare ordningen. For hvert hotspot
k erstattes det gamle hotspot eventuelt af et nyt, som er givet som arg minj
af funktionen
A(j) =
hk+1
j=hk−1
xj − ck
2
− xj − ck+1
2
. (4.15)
Det ses, at funktionen er negativ for søjler tættest på centrum i blok k og
44
positiv for søjler tættest på centrum i blok k + 1. Når der er fundet K
nye hotspots gentages proceduren. Når ingen hotspots ændres er algoritmen
konvergeret. At algoritmen rent faktisk konvergerer er vist i sætning 2.
Sætning 2. Ordnet K-means gruppering-algoritmen konvergerer.
Bevis. Antag en opdeling i K grupper H0 = {h0
0 = 1, h0
1, . . . , h0
K = p}. Lad
Di =
K
k=1
hi
k
l=hi
k−1
xl − ck
2
=
K
k=1
di(k) (4.16)
være summen af de kvadrerede afvigelser indenfor grupperne for iteration i,
i = 0, 1, 2, . . .. Det ses at for k = 1, . . . , K vil
di(k − 1) + di(k) ≥ di+1(k − 1) + di+1(k). (4.17)
Dette skyldes, at SNPs der yttes er tættere på centrum i naboblokken end
i sin egen, hvilket mindsker den samlede kvadrerede afstand. Denne afstand
mindskes yderligere, når det nye centrum beregnes, da dette netop minimerer
den samlede afstand til centrum i blokken.
Dermed fås det, at D0 ≥ D1 ≥ · · · ≥ 0, og derfor må det for i  ∞
forekomme at 0 ≤ D ≤ D(i) = D(i − 1), hvor D er det globale minimum,
svarende til en optimal inddeling.
Det ses med sætning 2, at algoritme 1 vil konvergere i endelig tid, men at
det ikke er sikkert at algoritmen nder den optimale blokinddeling. Desuden
vil den endelige opdeling afhænge af, hvordan den første opdeling vælges.
For den almindelige K-means algoritme er det en fordel at vælge sine start-
grupper fornuftigt, så det kan meget vel også være tilfældet for OK-means. I
teorien kan det tage en del skridt, før algoritmen konvergerer, men i praksis
ser det ud til at forekomme rimelig hurtigt (for i ≤ 10).
4.4.2 Regression på principalkomponenter
For de konstruerede LD-blokke ønskes det nu at nde en form for summary-
measure, der fanger variationen indenfor blokken, og som nedbringer dimen-
sionen af data. Et sådant mål kunne være et passende antal principalkom-
ponenter for hver blok. Udover at disse kunne antages at fange variationen
indenfor blokken godt grundet LD-strukturen i data, har principalkompo-
nenter også den egenskab, at de enkelte principalkomponenter er lineært
uafhængige, hvilket er en fordel ved variabel-selektion med Lasso [Hastie
et al., 2009].
En metode til at beregne principalkomponenter er først at skalere og cen-
trere søjlerne i designmatricen X og derefter udføre en singular value decom-
position, også forkortet SVD. For en n × p-matrix, X, har dekompositionen
45
formen
X = UDV T
. (4.18)
For n  p vil U henholdsvis V være n × p og p × p ortogonale matricer,
og D vil være en p × p diagonal matrix, hvor de diagonale indgange d1 ≥
d2 ≥ · · · ≥ dp ≥ 0 kaldes de singulære værdier for X. For n  p vil U
og D være af dimension n × n og V n × p. Søjlerne i Z = UD kaldes
principalkomponenterne for X. For disse gælder det, at søjlerne er ordnet
således, at z1 har dens største varians og zp den mindste [Hastie et al., 2009].
Det antages nu, at data er opdelt i M blokke. Med SVD fås for alle M
blokke en n × qj-matrix, Zj, j = 1, . . . , M bestående af qj principalkompo-
nenter for hver blok. Lad pj angive antal SNPs i blok j. For qj  pj opnås
en reduktion i dimensionen af data. Den nye resulterende designmatrix, der
benyttes, bliver da den sammensatte n × M
j=1 qj -matrix
Z = [Z1, Z2, . . . , ZM ]. (4.19)
Antallet af principalkomponenter, der medtages for hver blok, skal udvælges
således, at vi med det mindst mulige antal får information nok. En måde
hvorpå vi kan vurdere, hvor meget nok er, vil være at se på, hvor stor en
fejl vi laver ved kun at medtage qj principalkomponenter i stedet for alle pj.
Et mål for den qj-dimensionale rekonstruktionsfejl for blok j med pj SNPs
vil være
(n − 1)pj −
qj
i=1
d2
i . (4.20)
Det virker derfor fornuftigt at bruge størrelsen
g = p−1
j
qj
i=1
d2
i (4.21)
til at vælge et passende antal principalkomponenter ud, således at g er større
end en valgt grænseværdi mellem 1 og n−1, hvor g = 1 vil resultere i en meget
stor rekonstruktionsfejl, og g = n−1 vil resultere i ingen rekonstruktionsfejl.
Z benyttes nu som designmatrix i en logistisk regressionsmodel med
Lasso-penalisering. Før den resulterende model kan benyttes til prædiktion
i et nyt datasæt X , skal søjlerne i X skaleres med de samme værdier
som blev benyttet til at standardisere X, og for hver blok beregnes test-
komponenterne
Zj = X Vj, (4.22)
hvor Vj stammer fra SVD af Xj.
46
4.5 Modelselektion
Kvaliteten af en statistisk model vurderes ofte på baggrund af dens prædik-
tionsevne i et uafhængigt datasæt. Som et mål for en models prædiktionsevne
benyttes et estimat for prædiktionsfejlen
d(Y, ˆf(X)) (4.23)
for en passende afstansfunktion d(·, ·).
I dette afsnit vil jeg undersøge hvordan man kan vælge den bedste model
mellem forskellige statistiske modeller og herefter vurdere kvaliteten af den
endelige model.
Vurderingen af statistiske modeller i et uafhængigt datasæt er utrolig
vigtig. I dette speciale bruges termerne træningsdata og testdata om 2 for-
skellige datasæt indeholdende de samme variable, men ofte med forskelligt
antal observationer. Træningsdatasættet benyttes til at tte modellen, og
testdatasættet benyttes i vurderingen af kvaliteten af modellen. Det helt op-
timale ville være både at have et træningsdatasæt, et vurderingsdatasæt og
et testdatasæt.
Jo ere variable vi føjer til modellen, jo bedre et t vil vi typisk få til vores
træningsdata med den ulempe, at modellen bliver overttet og får problemer
med at generalisere til den population, data stammer fra. På denne måde
giver ere variable typisk et fald i bias, men en øgning i varians [Hastie et al.,
2009].
Modelkompleksitet styres ofte af en parameter, så modelselektion kan
både omhandle optimering af denne parameter i en klasse af modeller og at
nde den optimale klasse af modeller.
4.5.1 Krydsvalidering
En af de simpleste måder at estimere prædiktionsfejl på er gennem K-fold
krydsvalidering. Metoden bygger på, at data på en tilfældig måde splittes i
K lige store dele. Nu køres K runder, hvor modellen ttes til K − 1 af de
K datasæt, og prædiktionsfejlen udregnes på det sidste. Den overordnede
prædiktionsfejl kan nu ndes som et gennemsnit af prædiktionsfejlen i de K
runder, og på denne måde kan den optimale model vælges. For at mindske
bias grundet det aktuelle split af data, kan dette gøres N gange, hvor vi
hver gang splitter data på en ny tilfældig måde. Dette omtales som N × K-
krydsvalidering.
Hvis krydsvalidering inddrages i modelselektion, er det vigtigt, at alle
trin, der vedrører responsvariablen, er medtaget i krydsvalideringen for at
undgå at underestimere prædiktionsfejlen [Hastie et al., 2009].
I stedet for at estimere prædiktionsfejlen, vil det i dette tilfælde være
mere relevant at udregne modellens AUC for et stigende antal variable og
dermed få et mere robust estimat for modellernes AUC-værdier. At estimatet
47
for AUC bliver mere robust skyldes at vi minimerer bias grundet en konkret
opdeling af data i et træningsdatasæt og testdatasæt.
48
Figur 4.3: Screenshot fra UCSC Genom browser [Kent et al.]. Der er zoomet
ind på et område på kromosom 1. Den øverste kurve viser den gennemsnitlige
rekombinationsrate, og nederst ses de estimerede hotspots for mænd (blå)
og kvinder (lyserøde).
49
50
Kapitel 5
R implementering
Størstedelen af min databehandling er udført ved hjælp af statistikprogram-
met R [R Core Team, 2012]. I dette kapitel vil jeg sætte ord på de dele af
implementeringen, som ikke er helt trivielle.
5.1 Håndtering af data
Den første udfordring er at indlæse store datamængder i R. I øjeblikket er
PLINK [Purcell] det mest anvendte software til GWA-studier, og de este
SNP-data ligger i et binært PLINK-format. I dette format ligger genotype-
matricen i et pladsbesparende format, som det ikke er muligt at åbne og læse
i. For at indlæse disse ler i R har jeg benyttet pakken snpStats [Clayton,
2012] der med kommandoen read.plink() kan indlæse binære PLINK-ler
hurtigt, og på en måde så selve genotype-data er i raw-format, så det ikke fyl-
der særlig meget. Output er en liste af længde 3, som indeholder genotypen,
information om de enkelte SNPs og information om de enkelte individer.
Den fulde genotype-matrix fylder for meget af computerens hukommelse
i R, hvis den ligger som typen numeric. Når dele af den skal bruges, er det
nødvendigt at omdanne den del til en numerisk matrix.
Den mængde hukommelse R kan allokere afhænger af styresystemet og
computerens størrelse. Der er en begrænsning for, hvor meget et enkelt ele-
ment kan fylde på 231 − 1 eller ca. 2 · 109 elementer. Det ses tydeligt, at
man med en matrix bestående af p ≈ 500.000 variable og et par tusind
observationer hurtigt rammer grænsen.
5.2 glmnet
Til implementeringen af de Lasso-penaliserede logistiske regressionsmodel-
ler har jeg benyttet R-pakken glmnet [Friedman et al., 2010b]. I glmnet
er implementeret en algoritme, der benytter coordinate descent with warm
51
starts, og resultatet er, at metoden kan håndtere forholdsvis store datasæt
overraskende hurtigt.
Coordinate descent er en algoritme, der kan løse (4.11) ved at opdatere
koecienterne et skridt af gangen. I stedet for at benytte den aedede søger
algoritmen langs en koordinatretning og cykler så over alle retninger. Løses
hele Lasso-stien for en sekvens af λ'er benyttes warm starts, hvilket vil sige,
at de tidligere parameter-estimater benyttes som begyndelspunkt.
For en logistisk regressionsmodel med binær responsvariabel kan (4.11)
løses ved at maksimalisere den penaliserede log-likelihood
1
N
N
i=1
[I(yi = 1) log θ(xi) + I(yi = 0) log(1 − θ(xi))] (5.1)
−λPα(β)
= l(β0, β) − λPα(β)
med hensyn til (β0, β). For ui = I(yi = 1) (= yi når yi ∈ {0, 1}) kan vi skrive
l(β0, β) =
1
N
N
i=1
ui(β0 + xT
i β) − log 1 + e(β0+xT
i β)
, (5.2)
som svarer til (3.12), og som er en konkav funktion af parametrene. For
aktuelle estimater (˜β0, ˜β) kan vi med taylorudvikling beregne en kvadratisk
approksimation til log-likelihooden ved
lQ(β0, β) = −
1
2N
N
i=1
wi(zi − β0 − xT
i β)2
+ c(˜β0, ˜β)2
, (5.3)
hvor
zi = ˜β0 + xT
i
˜β +
ui − ˜θ(xi)
˜θ(xi)(1 − ˜θ(xi))
, (5.4)
wi = ˜θ(xi)(1 − ˜θ(xi)), (5.5)
c(˜β0, ˜β)2 er en konstant og ˜θ(xi) er udregnet ud fra de aktuelle parametre.
For hver værdi af λ udregnes lQ ud fra de aktuelle parametre og coordinate
descent benyttes til at løse
(β0, β) = arg min
β0,β
(−lQ(β0, β) + λPα(β)) (5.6)
[Friedman et al., 2010a].
52
5.3 PrincipLasso
Det antages, at vi har to designmatricer fra henholdsvis trænings- og test-
datasæt, og de betegnes X og X . På grund af størrelsen af data kan R ikke
håndtere beregninger af hele designmatricen på én gang, og derfor foregår
det følgende kromosomvis.
Ved hjælp af de estimerede rekombinationshotspots inddeles både X og
X i de samme blokke. Søjlerne i X centreres og skaleres med scale(), og
de anvendte værdier benyttes til at justere og skalere X på samme måde.
Det beregnes som forklaret i foregående kapitel hvor mange principal-
komponenter, der skal medtages for hver blok. Dette fungerer i praksis ved
at sætte en grænse for rekontruktionsfejlen kaldet g og en grænse for det
maksimale antal SNPs, Q, der kan medtages fra hver blok.
Singular value dekompositionen beregnes nu for den skalerede og centre-
rede designmatrix, X, ved hjælp af kommandoen svd(), og principalkompo-
nenterne, Zqj = (UD)qj , gemmes.
Det antages nu, at designmatricen X er justeret med de samme vær-
dier, der blev benyttet til at centrere og skalere X. For at beregne `test-
komponenterne`, Z , bemærkes det, at matricen V fra den foregående SVD
er unitær. Det fås derfor, at
X = U D V T
= Z V T
⇔ (5.7)
X V = Z . (5.8)
Funktionen svd() benytter LAPACK, som er en forkortelse for Linear Alge-
bra PACKage. LAPACK er et fortran bibliotek, som kan benyttes til lineære
matrixoperationer. For nogle få blokke giver LAPACK problemer. Dette fan-
ges med en tryCatch() kommando og LINPACK, som er en ældre version
af LAPACK anvendes for disse blokke uden problemer. Grunden til at LIN-
PACK ikke benyttes hver gang er, at det med LAPACK er muligt kun at
beregne det ønskede antal principalkomponenter i stedet for dem alle, og
dette sparer betydelig meget tid.
5.4 Generelt
Til at tte logistiske regressionsmodeller uden penalisering har jeg også be-
nyttet glmnet(). Endvidere har jeg til beregning af AUC-værdier benyttet
R-pakken ROCR [Sing et al., 2012].
53
54
Kapitel 6
Dataanalyse
I dette kapitel beskrives, hvordan jeg ved hjælp af to konkrete SNP-datasæt
har sammenlignet og evalueret de forskellige prædiktionsmetoder præsente-
ret i kapitel 4. Data er rigtige SNP-data indsamlet for og venligst udlånt
af Afdeling for Epidemiologisk Forskning på Statens Serum Institut. Data
er genereret i forbindelse med GWA-studier af forskellige sygdomme, hvis
formål var at identicere genetiske områder associeret med den pågældende
sygdom.
I dette speciale undersøges data fra studierne af to forskellige sygdomme.
Den ene hedder på dansk pylorusstenose og er en sjælden medfødt sygdom,
der forårsager en forsnævring i den nederste del af mavesækken hos spæd-
børn. Den anden sygdom undersøges stadig af seruminstituttet og er derfor
i dette speciale blot omtalt som sygdom2. Begge data stammer fra build 37,
men fra forskellige genotypechips. Det er altså ikke præcis de samme SNPs,
der indgår som variable i de to forskellige datasæt.
Data angiver for hvert individ og for hver SNP antal kopier af den mest
almindelige allel. Hvert element i data kan dermed antage værdierne 0, 1
eller 2. Et udsnit af data kunne således se sådan ud:
ID rs847584 rs9474783 rs91343485 · · ·
1 2 2 1
2 0 2 2
3 2 1 2
4 2 2 2
.
.
.
Derudover indeholder data oplysninger om individernes sygdomsstatus, som
i PLINK-format er kodet 2 for cases og 1 for kontroller. For hver SNP er
der i data oplysninger om SNPens placering i en såkaldt map-l angivet med
et kromosomnummer og dets kb position. Kromosomet er angivet med et
nummer fra 1 til 25, hvor nr. 1-22 refererer til kromosom 1-22. Nr. 23 og 24
er X- og Y-kromosomet, og nr. 25 en speciel region der kan foretage rekom-
55
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde
speciale-thilde

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

speciale-thilde

  • 1. I n s t i t u t f o r M a t e m a t i s k e F a g KØBENHAVNS UNIVERSITET Aeveret 1. juli 2013 Risikoprædiktion med genomiske SNP-data Thilde Marie Haspang Speciale for cand.scient graden i statistik. Institut for matematiske fag, Kø- benhavns Universitet. Thesis for the Master degree in Statistics. Department of mathemathical sciences, University of Copenhagen. Vejleder: Niels Richard Hansen Ekstern vejleder: Bjarke Feenstra (Statens Serum Institut)
  • 2. 2
  • 3. Resumé I dette speciale undersøges risikoprædiktion med genomiske SNP-data. Først gives en introduktion til biologien bag SNP-data og GWA-studier. Herefter gennemgås alternative metoder til at modellere association mellem SNP-data og en binær fænotype. Disse inkluderer logistisk regression med penalisering samt en metode kaldet SparSNP, der bygger på support vector machines. Derudover udvikles en ny metode, PrincipLasso, som udnytter korrelatio- nen mellem SNPs langs genomet. På baggrund af denne korrelation opdeles data i blokke, hvor der for hver blok benyttes et antal principalkomponenter som blokrepræsentanter. Forskellige metoder til at opdele data i blokke er blevet undersøgt. Den ene metode bygger på estimerede rekombinationshot- spots, en anden på minimal parvis korrelation. Herudover foreslås og afprøves en ordnet version af K-means-algoritmen. Metoderne sammenlignes på baggrund af størrelsen AUC på to konkrete SNP-datasæt. Konklusionen bliver, at i situationer hvor det genetiske signal ser ud til at være mere spredt, vil de mere avancerede, penaliserede meto- der prædiktere betragteligt bedre. Samtidig er de mere avancerede metoder konkurrendedygtige i forhold til kørselshastighed på computeren. English abstract In this thesis I have investigated risk prediction with genome-wide SNP- data. First I give an introduction to the biology behind SNP-data and GWA studies. Hereafter I present dierent methods that are used to model the association between SNPs and a binary phenotype. These models include a logistic regression model with penalization and a method called SparSNP that uses Support Vector Machines. I also develop a new method, PrincipLasso, which exploits the correlation structure between SNPs. Using this correlation, data is divided into blocks, and a number of the rst principal components from every block are used as block representatives. Dierent methods for block division have been in- vestigated. One method is based on estimated recombination hotspots while another method uses minimal pairwise correlation. A third method is an ordered version of the K-means algorithm. The dierent prediction models are compared in terms of AUC in two dierent SNP data sets. The conclusion is, that the advanced penalized met- hods seem to build better prediction models in situations, where the genetic signal seems to be more spread out along the genome. Furthermore, the an- vanced methods seem to perform competitively to the standard in terms of computational calculation speed.
  • 4. Tak Jeg vil gerne sige tak til min vejleder lektor Niels Richard Hansen for at introducere mig til området vedrørende genetisk statistik, som jeg har fun- det utrolig interessant, samt god vejledning og kreative idéer undervejs i specialeforløbet. Jeg vil desuden gerne takke min eksterne vejleder seniorforsker Bjarke Feenstra fra afdeling for epidemiologisk forskning på Statens Serum Insti- tut for sparring, inspiration og kommentarer. Derudover vil jeg gerne takke sektordirektør Mads Melbye for at give mig mulighed for at skrive dette spe- ciale i samarbejde med Statens Serum Institut. Det har været spændende at arbejde med rigtige data samt at være en del af et epidemiologisk forsk- ningsmiljø. Jeg vil også gerne sige tak til cand.scient i statistik René Aakær Jensen samt min far for grundig korrekturlæsning. Derudover vil jeg gerne takke min mand for alt mulig støtte.
  • 5. Indhold 1 Indledning 7 2 Biologien bag SNP-data og GWA-studier 9 2.1 Genomets opbygning . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1 Genetisk rekombination og genetisk afstand . . . . . . 12 2.2 Populationsgenetik . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.1 Hardy-Weinbergs ligevægt . . . . . . . . . . . . . . . . 14 2.2.2 Koblingsuligevægt . . . . . . . . . . . . . . . . . . . . 15 2.3 SNPs som genetiske markører . . . . . . . . . . . . . . . . . . 17 3 Genetisk associationsanalyse 21 3.1 HapMap og 1000 Genomes . . . . . . . . . . . . . . . . . . . . 22 3.2 Enkelt-locus associationsmodeller . . . . . . . . . . . . . . . . 22 3.2.1 Test i 2×2- eller 2×3-tabeller . . . . . . . . . . . . . . 23 3.2.2 Mål for genetisk risiko . . . . . . . . . . . . . . . . . . 23 3.2.3 Logistisk regression . . . . . . . . . . . . . . . . . . . . 24 3.2.4 Cochran-Armitage trend test . . . . . . . . . . . . . . 26 3.3 GWA-studier . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.3.1 Styrke og fejl af type I . . . . . . . . . . . . . . . . . . 28 3.3.2 Valg af markør-SNPs og genotype-platforme . . . . . . 29 3.3.3 Imputation . . . . . . . . . . . . . . . . . . . . . . . . 30 3.3.4 Genomic control . . . . . . . . . . . . . . . . . . . . . 31 3.3.5 Replikationsstudier . . . . . . . . . . . . . . . . . . . . 32 3.3.6 Multipel testning-problemet . . . . . . . . . . . . . . 33 4 Metoder 35 4.1 Risikoprædiktion i epidemiologiske studier . . . . . . . . . . . 35 4.1.1 Prædiktion i GWA-studier . . . . . . . . . . . . . . . . 38 4.2 Logistisk regression med penalisering . . . . . . . . . . . . . . 38 4.3 SparSNP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.3.1 Support Vector Machines . . . . . . . . . . . . . . . . 40 4.4 PrincipLasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.4.1 Opdeling i blokke med høj grad af LD . . . . . . . . . 43 3
  • 6. 4.4.2 Regression på principalkomponenter . . . . . . . . . . 45 4.5 Modelselektion . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.5.1 Krydsvalidering . . . . . . . . . . . . . . . . . . . . . . 47 5 R implementering 51 5.1 Håndtering af data . . . . . . . . . . . . . . . . . . . . . . . . 51 5.2 glmnet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.3 PrincipLasso . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5.4 Generelt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 6 Dataanalyse 55 6.1 Data1: Pylorusstenose . . . . . . . . . . . . . . . . . . . . . . 56 6.1.1 Kvalitetskontrol . . . . . . . . . . . . . . . . . . . . . . 57 6.1.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 57 6.1.3 Opsummering . . . . . . . . . . . . . . . . . . . . . . . 63 6.2 Data2: Sygdom2 . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.2.1 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 64 6.2.2 Opsummering . . . . . . . . . . . . . . . . . . . . . . . 65 6.3 Beregningskompleksitet . . . . . . . . . . . . . . . . . . . . . 67 7 Diskussion 69 8 Konklusion 73 Litteratur 75 I Synopsis 79
  • 7. Notation og forkortelser A, B (store bogstaver) Mest almindelige alleler a, b (små bogstaver) Mindst almindelige alleler α Tuningsparameter til glmnet() AUC Arealet under ROC-kurven, se ROC β Regressionskoecient D, D Mål for graden af korrelation mellem loci δ Rekombinationsfraktion ELN Elastic net GWAS Genome-Wide Association Study HWE Hardy-Weinberg-ligevægt HWL Hardy-Weinbergs lov κ Inationsfaktor for Genomic control λ Tuningsparameter for Lasso, ELN og RR LD Linkage Disequilibrium (koblinsuligevægt) m Genetisk afstand MAF Minor Allele Frequency. Frekvensen for den mindst almindelige allel n Antal individer, stikprøvestørrelse OR Odds ratio p Antal variable (typisk antal SNPs) pA Allelfrekvens for A r2 Mål for graden af korrelation mellem loci ri Antal cases med genvariant i si Antal kontroller med genvariant i ROC Receiver-operating characteristic (curve) RR Ridge regression SNP Enkeltnukleotid-polymor. Udtales snip T Klassikationsgrænse X Designmatrix y Fænotype/responsvariabel Z Designmatrix med principal komponenter 5
  • 8. 6
  • 9. Kapitel 1 Indledning Mængden af data, der genereres indenfor de biologiske fagområder, vokser eksponentielt i øjeblikket med en fordoblinstid på omkring et år. Dette skyl- des tildels den høje hastighed og de lave priser på gensekventering. Samtidig vokser behovet for at nde ud af, hvad vi kan bruge disse store datamængder til, og hvordan det i praksis kan lade sig gøre. De to primære udfordringer vedrørende store genetiske datasæt er den fysiske størrelse og det faktum, at antallet af variable, p, ofte er langt større end antallet af observationer, n. Størrelsen på data stiller krav til mængden af hukommelse, der kan allokeres på computeren, og den hastighed computeren kan foretage beregninger med, men også til eektiviteten af de programmer, der benyttes. Data hvor p n eller p n omtales som høj-dimensionelle data. Der har været foreslået og anvendt forskellige metoder til at analysere denne slags data. Blandt de mest kendte må nævnes Lasso, men også andre mere kreative metoder har været på banen, og det er et område, der er genstand for stor opmærksomhed i øjeblikket. Den mest almindeligt forekommende variation i det menneskelige genom er variation i det, der kaldes enkeltnukleotid-polimorer, også forkortet SNPs (udtales snips). Tilgængeligheden til disse SNPs er årsag til en stor del af den stigning, der har været i mængden og størrelsen af genetisk data de sidste par år, og SNP-analyser har i det seneste årti været af stor interesse for forskere indenfor genetik og epidemiologi. Analysen af genomiske SNP-data har for alvor taget fart de seneste 5 år, og man omtaler analysen af association mellem fænotype og et bredt udsnit af SNPs langs genomet under navnet Genome-Wide Association Studies, også forkortet GWAS eller GWA-studier. Et hav af signikante SNPs associeret med forskellige sygdomme er rapporteret indtil videre, men hyppigt viser det sig i praksis, at prædiktion baseret på disse fundne signikante SNPs ikke er særlig eektiv. I dette speciale undersøges mulighederne for at benytte genomiske SNP- 7
  • 10. data til genetisk risikoprædiktion. Både tidsmæssigt og økonomisk er det de seneste par år blevet attraktivt at genotype et stort antal SNPs langs genomet, typisk i omegnen af 500.000-1.000.000. Det ville være en stor klinisk gevinst, hvis man ud fra et individs SNP-prol kunne prædiktere individets risiko for forskellige sygdomme, men i teorien kunne det også være prædiktion af andre former for ydre træk for eksempel krøller eller blå øjne. På denne baggrund undersøges i dette speciale, prædiktionsmetoder der benytter større dele af genomet, som alternativ til prædiktion med bekræf- tede signikante SNPs. Selv om en form for udvælgelse af SNPs (variabel- selektion) naturligt vil forekomme, er det ikke det primære fokus i dette speciale. 8
  • 11. Kapitel 2 Biologien bag SNP-data og GWA-studier For at kunne analysere de såkaldte SNP-data er man nødt til først og frem- mest at forstå, hvad en SNP egentlig er, og hvad det er for en slags infor- mation, vi gerne vil have ud af dem. Det er også vigtigt at forstå afhængig- hedsstrukturen i denne slags gendata samt forstå en potentiel indydelse fra populationsforskelle for at kunne undgå at begå store statistiske fejl i ana- lysen. Samtidig er der mange cellebiologiske egenskaber, der ligger til grund for hele teorien bag GWA-studier. I dette kapitel vil jeg først give en kort introduktion til genomets op- bygning, rekombination i genomet og genetisk afstand. Herefter introduceres begreber fra populationsgenetik, som er essentielle for GWA-studier. Til sidst i kapitlet præsenteres SNPs, og det forklares, hvorfor SNPs er gode indika- torer for den information og variation, der bender sig i vores DNA. 2.1 Genomets opbygning Proteiner er nødvendige for alt, der foregår i celler. De er på en måde hele vores krops byggesten. De informationer, der er nødvendige for at bygge disse proteiner, er kodet i en lang, dobbeltstrenget kæde bestående af deoxy-ribo- nukleidsyrer, også forkortet DNA [Hartwell et al., 2011]. Man kan sige, at vores DNA er byggemanualen til os selv. Disse DNA-kæder bender sig inde i kernen af alle vores celler. De to strenge er retningsbestemte og vender hver sin vej. Den ene ende af en streng kaldes 3'-enden og den anden ende 5'-enden. Dette relaterer til den måde de to strenge binder til hinanden på. I 5'-enden vil det 5. carbonatom stikke ud, og dette gælder også for det 3. carbonatom i 3'-enden. På hvert deoxyribosemolekyle i strengen er der til carbonatom nummer 1 fæstnet en nitrogen-base. Der ndes 4 forskellige af disse baser: adenin (A), cytosin (C), guanin (G) og thymin (T). Det er disse 4 baser (eller bogstaver), 9
  • 12. der langs DNA-strengen danner DNA-sekvensen. De 2 DNA-strenge bliver holdt sammen af svage hydrogen-bindinger, der dannes mellem 2 modstående baser, også kaldet basepar. A binder sig til T med 2 hydrogenbindinger, og C binder til G med 3 hydrogenbindinger. På denne måde er de to strenge komplementære, og det er derfor nok at kende sekvensen på den ene for at kende sekvensen på dem begge. De to strenge vender hver sin vej, så 3'-enden på den ene sidder sammen med 5'-enden på den anden. Informationen i vores DNA ligger altså i rækkefølgen af baser langs DNA-strengen [Hartwell et al., 2011]. En illustration ses i gur 2.1. Figur 2.1: Et udsnit af de to DNA-strenge, hvor der til venstre er zoomet ind på hydrogenbindingerne mellem basepar [Gasbjerg and Østergaard, 2013]. Et gen er en specik DNA-sekvens (altså en kæde af baser), der koder for et bestemt protein. Det er ikke alle dele af DNA'et, der er med til at kode for et gen, og på denne måde er der tilsyneladende 'ufunktionelle' huller og områder med andre funktioner som for eksempel at markere, hvor en gensekvens starter og stopper [Neale et al., 2008]. Det menneskelige genom består af ca. 3 × 109 baser, der koder for ca. 20.000-30.000 gener [Hartwell et al., 2011]. Man bruger de enkelte baser som længdeenhed i DNA'et, og dermed kan den fysiske længde i genomet måles i basepar (bp) eller 1000 basepar (kb) [Ziegler and König, 2010]. 10
  • 13. Den totale mængde DNA, og dermed også den samlede mængde af gener, er det, vi betegner som genomet. I eukariote celler, hvor DNA'et ligger inde i en kerne i cellen, er genomet ikke én lang DNA-streng, men opdelt i ere usammenhængende sektioner kaldet kromosomer. Kromosomerne ligner to pølser, der sidder sammen på midten, og hver af de to `pølser` i et kromo- som kaldes et kromatid. Kernen i de este menneskelige celler indeholder 22 par ikke-kønskromosomer og ét par kønskromosomer. Kromosomerne i et kromosompar kaldes homologe kromosomer. Celler med 23 kromosompar kaldes diploide, hvorimod celler med kun 1 af hvert kromosom kaldes haploi- de. De 22 kromosomer er numereret sådan, at kromosom 1 er det længste (240 millioner bp), og kromosom 22 er det korteste (50 millioner bp) [Ziegler and König, 2010]. Kønskromosomet ndes i to udgaver og betegnes X og Y . Kvinder bærer to X-kromosomer, mens mænd bærer både et X og et Y [Hartwell et al., 2011]. En specik region på et kromosom (og dermed også på DNAet) kaldes et locus. Hver diploid celle har to kopier af hvert kromosom (ét fra far og ét fra mor), og dermed er der to uafhængige DNA-sekvenser (også kaldet alleler) per locus for hvert individ. Det er disse to alleler, der danner genotypen for et individ på det givne locus. Se gur 2.2. Figur 2.2: På guren ses sammenhængen mellem begreberne haplotype, geno- type, locus og allel. For langt det meste af det menneskelige genom er DNA-sekvensen den samme hos alle individer, men ind imellem er der gennem tiden forekommet mutationer, hvilket resulterer i forskellige alleler på nogle givne locus [Neale et al., 2008]. Et markørlocus er en nukleotid eller sekvens af nukleotider, som man ved har forskellige alleler i befolkningen, men som ikke nødvendigvis leder til forskellige fænotyper (ydre træk). Enkelt-nukleotid-polymorer (SNPs) er et sådant markørlocus. SNPs kan i teorien have to til re forskellige alleler i befolkningen, men i praksis observeres meget sjældent mere end 2 [Neale et al., 2008]. Det, der adskiller urelaterede individer fra hinanden, er ikke enkelte SNPs hist og her, men unikke kombinationer af SNPs langs en del af genomet. Disse blokke af DNA kaldes haplotyper. De er hyppigt delt mellem mange individer i en population og kan spores tilbage til at være rekombinationer 11
  • 14. fra fælles forfædre. En haplotype er på denne måde dannet over lang tids rekombination ved, at en gruppe af SNPs typisk er blevet nedarvet sammen. I mange regioner af genomet kan 95% af variationen forklares af mellem 5 og 10 forskellige haplotyper [Hartwell et al., 2011]. 2.1.1 Genetisk rekombination og genetisk afstand Kernen i normale celler hos mennesker indeholder 23 par af kromosomer, altså 46 kromosomer i alt. Disse par er forskellige i både form og størrelse. Celler, der indeholder ét par af hvert kromosom, kaldes diploide. Kønsceller kaldes gameter og indeholder kun en kopi af hvert kromosom. Sådanne celler med kun ét af hvert kromosom kaldes haploide. Den specielle form for celledeling, der danner kønscellerne, kaldes meiosen, og under denne proces bliver antallet af kromosomer halveret fra 46 til 23. Kønscellerne dannes inde i kønsorganerne, hvor de undergår meiosen, nemlig den proces, der producerer vores æg og sædceller, som kun indeholder det halve antal kromosomer i forhold til resten af kroppen. Meiosen består af to på hinanden følgende celledelinger, også kaldet meio- se 1 og meiose 2. Meiosen starter med en fordobling af kromosomerne. Her- efter kobler homologe kromosomer sig til hinanden, og kromosomerne kan bytte dele og derved danne nye kromosomer med en ny kombination af gener [Hartwell et al., 2011]. Det gennemsnitlige antal af krydsninger per celle er 55 for mænd og er 50% højere for kvinder [Ziegler and König, 2010]. Under meiosen bliver de eventuelt ombyttede kromosomer fordelt tilfæl- digt og uafhængigt af hinanden. I mennesker, hvor vi har 23 kromosomer, kan meiosen blot ved tilfældig fordeling af kromosomerne for hvert individ resultere i 223 genetisk forskellige gameter [Ziegler and König, 2010]. En il- lustration af forløbet under meiosen ses i gur 2.3. Under meiosen kan der ske én eller ere rekombinationer af de fædrene og mødrene kromosomer. Sandsynligheden for, at en rekombination vil n- de sted mellem to loci på et givent kromosom, er relateret til den fysiske afstand imellem dem. Denne sandsynlighed kaldes rekombinationsfraktionen og betegnes med δ. Rekombinationer langs et kromosom forekommer, hvis der er et ulige antal overkrydsninger, der nder sted. Hvis to loci er placeret på forskellige kromosomer eller langt fra hinanden på samme kromosom for- ventes det, at δ = 0.5. Til gengæld, hvis to loci er placeret tæt på hinanden på samme kromosom, vil man forvente, at δ er lille [Neale et al., 2008]. Rekombinationsfraktionen kan bruges til at udregne genetiske kortafstan- de. Genetisk afstand, m, repræsenterer det forventede antal overkrydsninger på kromosomet. m kan ikke måles direkte, men prædikteres på baggrund af et observeret δ. En sådan funktion, som ud fra et observeret δ angiver den genetiske afstand, kunne være Haldanes funktion, hvor mH = − 1 2 [log(1 − 2δ)]. (2.1) 12
  • 15. Figur 2.3: På billedet ses en illustration af de to former for celledeling; mitose og meiose [Norheim, 2013]. Enheden for genetisk afstand er Morgans (M) eller centiMorgan (cM) op- kaldt efter Thomas Hunt Morgan, som var den første til at få ideén om, at forskelle i rekombinationsfrekvens afspejler fysisk afstand mellem gener [Hartwell et al., 2011]. Man kunne forvente, at to overkrydsninger på det samme genom var uafhængige, og at sandsynligheden for en overkrydsning i både region a og region b ville være produktet af de respektive sandsynligheder. Ved at lave overkrydsningsforsøg har man imidlertid fundet ud af, at sandsynligheden for to overkrydsninger på samme kromosom er mindre end forventet, hvis de enkelte overkrydsninger opstod uafhængigt af hinanden. Dette førte til en hypotese om, at en overkrydsning ét sted på kromosomet mindsker sand- synligheden for, at en overkrydsning nder sted et andet sted på samme kromosom [Hartwell et al., 2011]. 13
  • 16. 2.2 Populationsgenetik Populationsgenetik er deneret som studiet af genetisk variation indenfor og imellem populationer over generationer og over tid og er således teorien om, hvordan vores DNA ændrer sig afhængig af populationsstørrelser og andre ydre faktorer. Indenfor genetikken omtales et individs DNA-sekvens (eller dele heraf) som individets genotype, og ydre træk som hårfarve eller sygdomsstatus be- tegnes som individets fænotype. Nogle gange er sammenhængen mellem en ændring i et enkelt gen og et ydre træk simpel, men som oftest er sammen- hængen mellem et individs genotype og fænotype meget kompleks og kan indeholde ere gener og også ydre faktorer [Hartwell et al., 2011]. Varianter på det samme locus kaldes som nævnt alleler. Man vil for langt de este loci se højst to forskellige alleler repræsenteret i befolkningen, hvor den ene vil være mere almindelig end den anden. I litteraturen betegnes den mest almindelige allel-variant ofte med store bogstaver, for eksempel A, og den mindre (almindelige) allel med små bogstaver, for eksempel a. Tit kaldes den mest almindelige allel for vildtypen, da man mener, at det er den oprindelige, hvorimod den anden og muligvis decideret sjældne allel sandsynligvis stammer fra en mutation [Hartwell et al., 2011]. Man arver to kopier af alle gener, ét fra sin far og ét fra sin mor, og for et bestemt locus kan vi derfor have genotypen AA, Aa eller aa. Typerne AA og aa kaldes homozygote genotyper, og typen Aa kaldes heterozygot (der skelnes normalt ikke mellem Aa og aA). Når både AA og Aa leder til den samme fænotype, kaldes allelen A dominant for den pågældende fænotype. Er det derimod kun varianten AA, der resulterer i den givne fænotype, kaldes A recessiv for fænotypen. Se gur 2.4 for et eksempel. Det er dog ikke altid, at mønstret er så tydeligt som i ovenstående eksempel, hvor der er tale om komplet dominans. I nogle tilfælde har man observeret, at sandsynligheden for eller graden af en given fænotype stiger med antallet af en bestemt allel (0, 1 eller 2). De forskellige alleler stammer fra mutationer, der er opstået spontant. Hvis de opstår i en kønscelle, er der en vis sandsynlighed for, at mutatio- nen bliver videregivet ved reproduktion. Ved at tælle mutationer, der har fænotypiske konsekvenser, har man estimeret at forekomsten af mutationer i kønsceller varierer fra 1 ud af 10.000 til 1 ud af 1.000.000 [Hartwell et al., 2011]. 2.2.1 Hardy-Weinbergs ligevægt Et af de vigtigste principper i populationsgenetikken er Hardy-Weinbergs ligevægt, som blev opdaget af Godfrey Harold Hardy og Wilhelm Weinberg uafhængigt af hinanden [Neale et al., 2008]. I en tilpas stor population uden selektion, mutation og migration og med tilfældig parring, vil frekvenserne 14
  • 17. Figur 2.4: På billedet ses et eksempel på hvordan henholdsvis dominante og recessive gener kan påvirke en fænotype (her blomsterfarve). Det ses, at A er dominant for rød blomsterfarve, og a er recessiv for hvid blomsterfarve. for de forskellige alleler i teorien være konstante over tid. På grund af endelige populationsstørrelser forekommer i praksis det, man kalder tilfældig genetisk drift, hvilket vil sige at allel-frekvenserne kan ændre sig en smule over tid. Ifølge Hardy-Weinbergs lov (HWL) vil det for alleler A og a med fre- kvenser henholdsvis pA og pa gælde, at genotyperne AA, Aa og aa optræder med frekvenserne henholdsvis p2 A, 2pApa og p2 a [Neale et al., 2008] (følger af grundlæggende sandsynlighedsregning, hvis man antager uafhængighed). Hvis HWL er opfyldt for en population, siger man, at populationen er i Hardy-Weinberg Ligevægt (HWE). At undersøge om stikprøvepopulationen opfylder HWL er en central del af modelkontrollen i GWA-studier, da afvigelser fra HWE blandt andet kan skyldes det, man kalder populations-stratikation, altså at data er indsam- let fra populationer, der afviger fra hinanden i genotype [Ziegler and König, 2010]. Dette kan resultere i, at man 'opdager' én eller ere signikante SNPs, som ikke er associeret med den fænotype, man er interesseret i, men deri- mod blot er associeret med populationsstrukturen. Hvordan man i praksis undersøger om der forekommer populationsstratikation i data gennemgås i afsnit 3.3.4. 2.2.2 Koblingsuligevægt Et andet begreb, der er vigtigt for at forstå strukturen i SNP-data, er linkage disequilibrium eller på dansk koblingsuligevægt, oftest betegnet LD. Kob- lingsuligevægt er et mål for associationen mellem alleler på forskellige loci. Koblingsuligevægt har ikke nødvendigvis noget med kobling eller uligevægt at gøre, men betyder, at der er en korrelation mellem forekomsten af allelerne på to eller ere loci [Slatkin, 2008]. Et naturligt mål for LD mellem to loci 15
  • 18. med alleler henholdsvis A, a og B, b må være en forskel mellem de observere- de frekvenser og de forventede frekvenser under antagelse af uafhængighed. Det simpleste mål for graden af LD er en af størrelserne: DAB = pAB − pApB (2.2) eller D = pABpab − pAbpaB. (2.3) Et problem med de to ovenstående mål er, at størrelsen varierer med allel- frekvensen. En løsning er at standardisere D: D = D Dmax , (2.4) hvor Dmax er den største værdi, D kan antage som funktion af allelfrekvens, altså Dmax = min(pApb, papB) hvis D 0 max(−pApB, −papb) hvis D ≤ 0 . (2.5) Man benytter primært den absolutte værdi af D , da fortegnet for det meste ikke er nødvendigt. Et andet mål for størrelsen af LD, som ofte bliver benyttet i genom- associationsstudier, er r2 som er deneret ved r2 = D2 pApapBpb = (pABpab − pAbpaB)2 pApapBpb . (2.6) r2 er lig 1, når genotypen på et locus præcist forudsiger genotypen på et andet. Én af fordelene ved at benytte r2 frem for D er, at r2 er mindre sårbar overfor problemer ved små stikprøvestørrelser end D'. For GWA-studier afhænger det optimale valg af markørtæthed af mæng- den af LD i befolkningen. Hvis der er en høj grad af LD, skal man muligvis vælge markører længere væk fra hinanden for at undgå, at de er for tæt for- bundet. Der er mellem 10 og 15 millioner SNPs i det menneskelige genom, men man genotyper typisk `kun` 500.000-1.000.000 i et GWA-studie. Det er graden af LD, der retfærdiggør rimeligheden i dette, da SNPs i samme område er kædet sammen, så de antages at repræsentere hele området. Efter man er begyndt at undersøge LD-strukturen i genomet empirisk, har man opdaget, at genomet har en tendens til at være opdelt i blokke, kaldet LD-blokke. Disse LD-blokke er adskilt af rekombinations-punkter, så- kaldte hotspots, hvor sandsynligheden for rekombination er større end andre steder. Jereys et al. var én af de første til at dokumentere dette [Jereys et al., 2001]. 16
  • 19. HapMap projektet ville undersøge og kortlægge disse blokke, men gjorde det klart, at jo højere tæthed af SNPs, man målte, jo ere små blokke fandt man. I 2004 blev det foreslået af C. S. Carlson [Carlson et al., 2004] at nde markørSNPs ikke baseret på blokke, men på den minimale parvise SNP r2 grænse. Dette blev gjort med en form for greedy-algoritme. Det er blevet vist, at LD varierer mellem befolkninger, så nogle befolk- ningsgrupper har en større haplotype-diversitet, og det kan derfor være nød- vendigt at benytte ere SNPs for at dække genomet. Så længe populationer kommer fra samme kontinent, er der ikke særlig stor forskel [Carlson et al., 2004]. Som nævnt tidligere har mere eller mindre alle SNPs kun to alleler, og hvis man kender D for et par af alleler, kender man også D for de andre mulige par af alleler, da DAB = −DaB = −DAb = Dab. (2.7) Fortegnet på D er vilkårligt og afhænger af hvilket par af alleler, man starter med. Haplotype-blokke i mennesker varierer i størrelse fra få kb (1000 base- par) til mere end 100 kb. Det var denne blokopdeling, der gav ideén om, at det muligvis var nok at måle én SNP i hver blok for at kunne afdække hele genomet. Det blev dog mere kompliceret end som så, for nogle dele af genomet havde åbenbart ikke rigtig blokke, og nogle gange afhang blokkene af, hvordan man denerede/målte dem [Slatkin, 2008]. 2.3 SNPs som genetiske markører Selv om det med whole genome sequencing er blevet muligt at afkode hele genomet, er det både dyrt og tidskrævende og ikke helt klart, hvordan vi skal analysere den totale mængde af DNA. Derfor må vi for at undersøge genomet udvælge objekter at måle på placeret på en fornuftig måde langs genomet. Som nævnt tidligere kaldes disse måle-objekter for genetiske markører. Per denition er en genetisk markør et locus bestående af mindst et basepar, der varierer mellem mindst to personer [Ziegler and König, 2010]. Disse markører kan udvælges, så de har bestemte egenskaber. Ønskværdige egenskaber kunne være: 1. Simpel nedarvning. 2. Lav mutationsfrekvens. 3. Være co-dominant. 4. Være i Hardy-Weinberg ligevægt i populationen. 17
  • 20. 5. Nemt (og billigt) at måle præcist. 6. Være polymorsk i befolkningen. Co-dominant betyder at allelerne er lige dominante. Den mest almindelige form for variation i det menneskelige genom er enkelt-nukleotid-polymorer (single nucleotid polymorphism) også kaldet SNPs (udtales snips), og det vil sige, at variationen nder sted på et enkelt basepar, se gur 2.5. SNPs står for omkring 90% af variationen i den menneskelige befolkning [Ziegler and König, 2010]. Almindeligvis kræves det, at frekvensen af den mindre almindelige allel (MAF for minor allele frequency) er større end 1%, før en given SNP kan betegnes som en polymor. At dette også er gældende for det aktuelle data, er en del af modelkontrollen i GWA-studier. CTCATAGCATTATTATTATTATTCAGGACTA CAGTATCGTAATAATAATAATAAGTCCTGAT 1 bp 15 bp 30 bp CTCATAGCATTATTATTATTATTCAGGCCTA CAGTATCGTAATAATAATAATAAGTCCGGAT Figur 2.5: På billedet ses en SNP-variation mellem 2 individer. Andre former for variation i genomet udover SNPs indbefatter insertio- ner og deletioner. Insertioner og deletioner vil sige, at ét eller ere (muligvis mange) basepar enten er blevet slettet eller indsat. Store regioner af gentagel- ser kaldes `Copy Number Variants` og betegnes CNV [Hartwell et al., 2011]. Ingen af disse former for genetisk variation vil blive behandlet yderligere i dette speciale. Der ndes forskellige nomenklaturer for SNPs, men den mest almindelige er baseret på reference SNP-ID numre, rs-ID. Disse rs-numre er tildelt af det amerikanske National Center for Biotechnology Information [NCBI] og n- des i forskellige SNP-databaser, blandt andet deres egen dbSNP. rs-numrene er unikke, men rummer ingen information om en eventuel funktion af den pågældende SNP. Dette er tilfældet for en anden nomenklatur benyttet af Human Genome Variation Society. Selv om SNPs er almindelige, er de ikke ligefordelt over genomet [Ziegler and König, 2010]. I gennemsnit er der dog én SNP for hvert 1000 bp [Hartwell et al., 2011]. SNPs har en lav mutationsfrekvens, og de este stammer derfor fra før dannelsen af de forskellige menneskelige populationer. Dette medfører, 18
  • 21. at omkring 85% af vores SNPs er almindelige i hele jordens befolkning, men med forskellige allelfrekvenser [Ziegler and König, 2010]. Da det menneskelige genom er genstand for stor opmærksomhed i øje- blikket, bliver der løbende revurderet i kortlægningen af elementerne langs genomet. Dette skyldes for eksempel, at forskere har fundet ud af, at en re- gion er kortere eller længere, end de havde troet. Dette rykker kb-positionen langs hele genomet og medfører opdateringer af SNP-databasen. Disse opda- teringer, som kaldes builds, lanceres med jævne mellemrum, og medfører en række ændringer. Hvis to SNPs i den nye build ligger samme sted, vil de bli- ve slået sammen, og ere SNPs får muligvis en ny kb-position. Det er derfor vigtigt i en analyse, at holde styr på hvilket build ens data er genereret ud fra. I dette kapitel har vi set nærmere på strukturen i vores DNA, og hvordan man kan udvælge repræsentative elementer at måle på. I det næste kapitel vil jeg forklare, hvordan vi kan benytte statistiske modeller til at analyse- re disse målinger enkeltvis, og i kapitel 4 forklare hvordan målingerne kan analyseres simultant. 19
  • 22. 20
  • 23. Kapitel 3 Genetisk associationsanalyse At nde associationer mellem det menneskelige DNA og ydre træk hos men- nesker har været genstand for forskeres interesse siden Gregor Mendels forsøg med arvelighed i ærteplanter omkring år 1860. Siden dengang er der sket me- get indenfor området, og vores indsigt i det menneskelige DNA bliver stadig mere og mere kompleks. Der ndes to primære statistiske metoder til at analysere en genotypes indydelse på en givet fænotype, f.eks. sygdomsrisiko. Disse to kaldes kob- lingsanalyse (linkage analysis) og associationsanalyse. Associationsanalyse har generelt større styrke og er blevet et mere og mere populært valg i takt med faldende priser på at fremstille de store mængder data, der kræves. Korrelation mellem en bestemt markørallel og et sygdomstræk kaldes allel-association. En sand association mellem en allel og en fænotype kan enten skyldes direkte biologisk indydelse fra den pågældende markør, eller at markøren er korreleret med en anden allel, som så har direkte indydelse på den givne fænotype. Dette kan f.eks. skyldes, at de to alleler sidder tæt sammen på kromosomet og sjældent eller aldrig i historien har været udsat for rekombination. Når to loci sidder tæt på samme kromosom, er sandsynligheden for at de videregives sammen større, som vi beskrev i forrige kapitel. Vi behøver derfor ikke nødvendigvis at måle det kausale sygdomslokus for at opdage en eekt, vi skal bare have målt en markør i nærheden af det. Spørgsmålet er så bare, hvor tæt vi skal være på? Dette spørgsmål har HapMap-projektet, som omtales mere detaljeret i afsnit 3.1, haft en stor andel i at være med til at besvare. For at dække hele genomet skal der altså udvælges en vis mængde SNPs, der sidder passende tæt. De SNPs, der så bliver udvalgt som repræsentati- ve, kaldes mærkeSNPs eller markør-SNPs (tag SNPs). Der er ere forskellige metoder til at udvælge disse mærkeSNPs, men målet for dem alle er at eekti- visere genotyping og reducere udgifterne samtidig med, at informationstabet minimeres. 21
  • 24. Efterhånden som det bliver muligt at teste ere og ere SNPs, opstår nye problemstillinger, som f.eks. hvordan man håndterer disse store mængder af data, og om forskellige fund i den samme region skyldes uafhængige signaler, eller om de alle peger på den samme underliggende årsag? Et andet problem, der opstår i forbindelse med de store mængder af data er, hvordan man korrigerer for det, der kaldes multipel testning-problemet, som handler om, at jo ere test man udfører, jo større er chancen for at begå fejl. I dette kapitel vil jeg give en introduktion til HapMap-projektet. Herefter introduceres modeller til associationsanalyse for et enkelt locus. Dernæst vil jeg give en introduktion til GWA-studier, som i bund og grund består af at udføre en associationsanalyse for hver enkelt SNP og en given fænotype. Der gives endvidere en introduktion til, hvordan man generelt og specielt i GWA-studier korrigerer sine p-værdier i forhold til de mange test, her både med styrke og fejl af type 1 for øje. Ydermere introduceres genomic control, som er en metode til at korrigere for såkalt populationsstratikation, og nødvendigheden af replikationsstudier forklares. 3.1 HapMap og 1000 Genomes Det Internationale Haplotype Map Project [HapMap Consortium], også om- talt som HapMap, blev startet i oktober 2002 af forskere fra Japan, England, Canada, Kina, Nigeria og USA. Målet var at udvikle et haplotypekort over det menneskelige genom for at beskrive de almindelige mønstre i variationen af den menneskelige DNA-sekvens. Man ville kortlægge ensartetheder og for- skelligheder både indenfor populationer og imellem forskellige populationer. Den resulterende information er frit tilgængelig. HapMap projektet har været med til at muliggøre GWA-studier, da det er gennem dette projekt, at størstedelen af de SNPs, vi kender, er blevet kortlagt [HapMap Consortium]. Det oprindelige formål med HapMap projektet var at identicere og op- tegne haplotype-blokkene, hvorefter man så med fordel kunne udvælge en markør i hver af disse blokke [HapMap Consortium]. Et andet stort kortlægningsprojekt, der også har haft stor betydning, er The 1000 Genomes Project [1000 Genomes Project Consortium, 2010]. Formålet med projektet var at frembringe præcis haplotype-information for alle former for menneskelige DNA-polymorer i ere forskellige populationer. Data fra både HapMap og 1000 Genomes benyttes ofte som referencepa- nel ved imputation af SNPs, som introduceres i afsnit 3.3.3. 3.2 Enkelt-locus associationsmodeller Standard praksis i GWA-studier består af marginale test af hver enkelt SNP. Man kan enten være interesseret i binære responsvariable som f.eks. syg/rask, 22
  • 25. variable med mere end to kategorier eller kvantitative variable som f.eks. højde. I dette kapitel har jeg udelukkende fokuseret på modeller, hvor re- sponsvariablen er binær. Herudover fokuseres på case-kontrol forsøgsdesign med uafhængige individer. Typisk sammenlignes allel-frekvenserne for de observerede SNPs i to grupper, en case-gruppe (f.eks. bærere af en given sygdom) og en kontrolgruppe (f.eks. raske). Dette kan enten gøres simpelt i en 2×2- eller 2×3-tabel eller på mere avancerede måder, hvor der kan tages højde for allelernes dominans eller for andre kovariater som f.eks. køn eller alder. 3.2.1 Test i 2×2- eller 2×3-tabeller Den mest simple form for associationstest er en sammenligning af allel- el- ler genotype-frekvenserne i de to grupper. Derfor betragtes nu to grupper af uafhængige individer: en gruppe bærere af en given sygdom og en kon- trolgruppe. Betragt en given SNP med alleler givet ved A og a. Data kan da opsummeres i enten en 2 × 2-tabel, der angiver antallet af de to alleler i de to grupper, eller en 2 × 3-tabel, der angiver antallet af individer med genotyperne AA, Aa og aa i de to grupper. For at undersøge associationen mellem sygdommen og den pågældende SNP bruges for det meste Pearsons χ2-teststørrelse givet ved X2 = i=0,1,2 j=1,2 (nij − E[nij])2 E[nij] , (3.1) hvor E[nij] = ni.n.j n.. (3.2) altså det forventede antal givet uafhængighed mellem rækker og søjler. Test- størrelsen X2 opsummerer altså forskellen mellem frekvensen af observerede alleler i forhold til, hvad vi ville forvente at nde under antagelse af, at der ikke var forskel i de to grupper. Denne kan så bruges til at vurdere, hvor ekstrem vores aktuelle observation er. Under hypotesen om uafhængighed følger X2 en χ2-fordeling med (n − 1) · (m − 1) frihedsgrader, hvor n beteg- ner antal rækker og m antal søjler. Er det forventede antal i en celle i en 2 × 2-tabel mindre end 5, vil det være mest korrekt at anvende Fishers eksakte test i stedet. X2 reekterer ikke graden af association, så til dette formål benyttes enten odds ratio diskuteret i næste afsnit eller kovariansen i den aktuelle tabel. 3.2.2 Mål for genetisk risiko Genetisk eekt, eller genetisk risiko, deneres tit i termer af odds ratio, forkortet OR. For den genetiske variant i estimeres odds givet den genetiske 23
  • 26. variant som oddsi = ri si , (3.3) hvor ri er antal cases med variant i, og si er antal kontroller med variant i. Her kunne i for eksempel angive antal kopier af den mest almindelige allel, og dermed ville i ∈ {0, 1, 2}. OR for to forskellige genetiske varianter i og j kan nu estimeres som OR = oddsi oddsj = risj sirj . (3.4) Oftest deneres OR i forhold til den mest almindelige genetiske variant i kontrolgruppen [Balding et al., 2007]. Et asymptotisk rimeligt (1 − α)-kondensinterval for OR er givet ved CI(OR) = OR exp ±z1−α 2 1 ri + 1 rj + 1 si + 1 sj , (3.5) hvor z1−α 2 angiver 1 − α 2 -fraktilen i standard normalfordelingen [Ziegler and König, 2010]. 3.2.3 Logistisk regression Det må forventes, at sygdomsrisiko ikke kun styres af vores gener alene, men også bliver påvirket af ydre faktorer såsom livsstil eller levevilkår. Dette kan ikke så let indkapsles i Pearsons teststørrelse, og man har derfor brug for andre modeller, nemlig klassen af logistiske regressionsmodeller. Én af de helt store fordele ved den logistiske regressionsmodel er, at den netop kan benyttes i case/kontrol-studier. En dominans-eekt af en allel kan også modelleres i denne klasse af modeller [Balding et al., 2007]. Lad nu vores genotype eller allelfrekvens være givet ved xi. Da betragtes θ(xi) = P(y = 1|xi), (3.6) hvor y er binær og angiver case/kontrol-status. Vi kan nu betragte transfor- mationen f(xi) = log θ(xi) 1 − θ(xi) = µ + γi, (3.7) hvor γi angiver eekten af genotype xi. I stedet for θ(xi) skrives tit πi. Denne transformation kaldes logit-transformationen og betegnes også som link -funktionen. Modellen kan også formuleres som f(xi) = β0 + β1zi + β2ti, (3.8) 24
  • 27. hvor z og t er såkaldte dummy-variable. Det mest almindelige er at sætte den oftest forekomne genotype som reference, altså AA, og dermed vil zi kode for genotypen Aa og ti kode for genotypen aa. Her repræsenterer parametrene β1 og β2 dominanseekten af allel a over allel A. Under antagelse af en additiv eekt af en allel har vi, at (3.8) reducerer til f(xi) = β0 + β1zi, (3.9) hvor β1 er den additive eekt af allel a, og zi er en indikatorvariabel, der antager værdier i {0, 1, 2} og angiver antal kopier af den sjældne allel. Vi kan undersøge association mellem fænotype og SNPs med LR-teststør- relsen for modeller, hvor β1 og/eller β2 er nul. Populationen kan inddeles i del-populationer efter hvilken genotype g ∈ {0, 1, 2}, de bærer. Lad nu ng betegne antal individer med genotypen g og yg betegne antal cases med genotypen g. Vi får da at likelihood-funktionen er givet ved f(y|β0, β) = 2 g=0 ng! yg!(ng − yg)! θ(g)yg (1 − θ(g))ng−yg (3.10) = L(β0, β). Med maksimum likelihood estimation fås da, at (β0, β) = arg max β0,β L(β0, β) (3.11) = arg max β0,β 2 g=0 θ(g) 1 − θ(g) yg (1 − θ(g))ng = arg max β0,β 2 g=0 eyg(β0+xgβ) 1 + eβ0+xgβ −ng , som simplicerer en del ved at tage logaritmen. Da logaritmen er en monoton funktion, vil maximum være samme sted, og det fås derfor, at (β0, β) = arg max β0,β 2 g=0 yg(β0 + xgβ) − ng log 1 + eβ0+xgβ = arg max β0,β n i=1 yi(β0 + βxi) − log 1 + eβ0+βxi (3.12) = arg max β0,β l(β0, β). I dette setup er det forholdsvis let at tilføje kovariater, som repræsenterer ydre eekter f.eks. køn i de tilfælde, hvor det er kendt. Prædiktion baseret på både genetik og ydre faktorer har dog ikke været i fokus i dette speciale og vil ikke blive behandlet yderligere. 25
  • 28. 3.2.4 Cochran-Armitage trend test Under antagelse af en model for dominanseekten af a (oftest additiv) kan data analyseres med Cochran-Armitage trend test. For data på formen aa Aa AA Total Cases r0 r1 r2 r Controls s0 s1 s2 s Total n0 n1 n2 n udregnes teststørrelsen X2 trend ved X2 trend = n rs · (2r2s − 2rs2 + r1s − s1r)2 2n2n + (2n2 + n1)(n0 − n2) (3.13) og er asymptotisk χ2-fordelt med 1 frihedsgrad. I tilfælde, hvor den under- liggende model ikke kendes, anses det for mere korrekt at anvende Cochran- Armitage trend test frem for Pearsons χ2-test [Ziegler and König, 2010]. Denne test er ækvivalent med score-teststørrelsen for hypotesen β = 0 i en logistisk regressionsmodel [Devlin and Roeder, 1999]. For at se dette lader vi log-likelihooden være på formen l(β0, β) = β0 n i=1 yi + β n i=1 yixi − n i=1 log(1 + eβ0+βxi ), (3.14) og lader pi = eβ0+βxi 1+eβ0+βxi betegne sandsynligheden for at det i'te individ er en case givet genotypen. For hypotesen om at β = 0 (ingen association mellem fænotype og genotype) vil pi = P(yi = 1|xi) = r n , da man der vil forvente, at alle individer har den samme sygdomsrisiko uafhængig af individets genotype. Dermed har vi, at scorefunktionen U(β0, β) = ∂l(β0,β) ∂β0 ∂l(β0,β) ∂β (3.15) = − n i=1 pi + n i=1 yi − n i=1 pixi + n i=1 xiyi ⇔ U(β0, 0) = 0 −p(n1 + 2n2) + (r1 + 2r2) (3.16) og at D2 l(β0, β) =   ∂2l(β0,β) ∂β2 0 ∂2l(β0,β) ∂β0∂β ∂2l(β0,β) ∂β0∂β ∂2l(β0,β) ∂β2   (3.17) = − n i=1 pi(1 − pi) xipi(1 − pi) xipi(1 − pi) x2 i pi(1 − pi) . 26
  • 29. Da den 2. aedede ikke afhænger af y vil I(β0, β) = −D2l(β0, β). Den inverse Fisher informationen under hypotesen er da givet som I(β0, 0)−1 = 1 D p(1 − p)(n1 + 4n2) −p(1 − p)(n1 + 2n2) −p(1 − p)(n1 + 2n2) np(1 − p) (3.18) hvor D er determinanten af Fisher informationen og givet ved D = p2 (1 − p)2 n(n1 + 4n2) − (n1 + 2n2)2 . (3.19) Det ses nu, at score-teststørrelsen for hypotesen β = 0 er givet ved S(β0, 0) = U(β0, 0)T I(β0, 0)−1 U(β0, 0) (3.20) = np(1 − p) (−p(n1 + 2n2) + (r2 + 2r2))2 p2(1 − p)2(n(n1 + 4n2) − (n1 + 2n2)2) = n (n(r2 + 2r2) − r(n1 + 2n2))2 r(n − r)(n(n1 + 4n2) − (n1 + 2n2)2) hvilket er ækvivalent med (3.13). Dette ses ved at sætte n = r+s, n1 = r1+s1 og n2 = r2 + s2 i tælleren og omskrive nævneren. 3.3 GWA-studier GWA-studier (Genome-wide association studies) er kort fortalt en masse tests for association mellem en fænotype og SNPs fordelt nogenlunde tæt langs hele genomet. Den type associationsstudier, der involverer et panel af SNPs kaldes indi- rekte associationsstudier, da de fokuserer på korrelationen mellem de enkelte SNPs og en given sygdom, men det, man egentlig er interesseret i, er den ind- ydelse regionen omkring de pågældende SNPs har på sygdommen, og det er her en vigtig forudsætning, at de forskellige SNPs i et område er stærkt korrelerede [Neale et al., 2008]. I 2007 var det mest almindelige antal SNPs i et GWA-studie ca. 300.000, og det er nu steget til mellem 500.000 og 1.000.000. Test udføres for det me- ste på samme måde som for enkelt-locus associationsmodeller. Det primære software til analyse i GWA-studier er PLINK [Purcell], der kan udføre dette store antal test rimelig hurtigt, og som håndterer data i et pladsbesparende format. Én af de helt store fordele ved GWA-studier er, at man ikke i forvejen behøver én eller ere kandidat-gener, men kan gennemgå hele genomet for signikante eekter. Dermed kan man potentielt opdage eekter af gener eller regioner, man ikke tidligere har været opmærksom på. GWA-studier er designet til at opdage genetiske varianter under den så- kaldte Common Disease - Common Variant (CDCV) hypotese. CDCV hypo- tesen går i bund og grund ud på, at det er en almindelig (mere eller mindre 27
  • 30. udbredt) gen-variant, der forklarer størstedelen af risikoen for en udbredt sygdom. Antagelsen om CDCV er yderst vigtig for, at et GWA-studie kan være en succes. Om denne antagelse er rimelig, er der stadig tvivl om, og der er argumenter både for og imod [Gibson, 2012]. Én af årsagerne til at GWA-studier fungerer mindre godt til at opdage eekter forårsaget af sjæld- ne gen-varianter er, at det simpelthen teknologisk er svært at genotype disse [Ziegler and König, 2010]. På grund af størrelsen af data i GWA-studier, er det vigtigt at forholde sig til at optimere sit forsøgsdesign med hensyn til styrke og omkostninger og at tage højde for det store antal af test, der bliver udført. Dette vil jeg komme nærmere ind på i de næste afsnit. 3.3.1 Styrke og fejl af type I Kort fortalt er styrke sandsynligheden for at afvise en falsk nul-hypotese og dermed opdage en sand eekt, hvorimod det at afvise en sand nul-hypotese og dermed opdage en falsk eekt omtales som fejl af type I, ofte betegnet α. Det er klart, at man gerne vil have så stor styrke som muligt samtidig med, at man ønsker at minimere fejl af type I. Disse er dog forbundne på en sådan måde, at det ofte bliver et trade-o mellem det ene og det andet [Forthofer et al., 2007]. Det er blevet foreslået, at styrken for at opdage en kausal variant skal være hovedkriteriet for valg af forsøgsdesign i et GWA-studie [Spencer et al., 2009]. Én måde, hvorpå man kan øge styrken uden at ændre på α, er at øge stikprøvestørrelsen n [Forthofer et al., 2007]. I praksis kan dette dog være svært af ere grunde, for eksempel at der er en begrænset mængde cases til rådighed eller begrænsede økonomiske resourcer. Simulationsstudier tyder dog på, at man får en større stigning i styrke ved at øge stikprøvestørrelsen end ved at øge tætheden af sine SNPs [Spencer et al., 2009]. Styrken for case-kontrol studier afhænger af forholdet mellem antal del- tagere i de to grupper. For et fast antal deltagere vil lige store grupper give den største styrke. Nogle gange er det dog svært at nde personer til case- gruppen, og styrken kan da øges ved at øge antallet i kontrol-gruppen til mellem 3 og 5 gange antallet i case-gruppen. For at illustrere dette har jeg 100 gange simuleret 10.000 observationer fra modellen givet ved f(xi) = 0.4 + 0.05 · xi (3.21) hvor xi ∈ {0, 1, 2}. For hvert af de 100 datasæt har jeg ttet en logistisk regressionmodel for et varierende antal cases og et stigende antal kontroller. Herefter har jeg estimeret styrken for de forskellige kombinationer ved at tage gennemsnittet over de 100 modelt. Et plot af styrken som funktion af antallet af cases og kontroller ses i gur 3.1. Det ses af grafen, at styrken for et fast antal cases til en vis grad kan øges ved at tilføje ere kontroller til forsøget. 28
  • 31. 500 1000 1500 2000 2500 3000 0.00.20.40.60.81.0 Antal kontroller Styrke 800 cases 400 cases 200 cases 100 cases Figur 3.1: På guren ses sammenhængen mellem styrke og antal kontroller for faste værdier af antallet af cases. Specikt for GWA-studier er der yderligere forhold, der påvirker styrken i et forsøg. Styrken vil blive påvirket af mængden af LD mellem markør-SNPen og sygdoms-allelen, men også af frekvensen af markør alleler. Det kan derfor øge styrken at vælge sine markør-alleler smart, således at genomet er dækket af SNPs i forholdsvis stor korrelation, uden at der medtages unødvendigt mange. Forskellige genotype-platforme måler forskellige markør-alleler, og valg af platform er derfor relevant. Man kunne umiddelbart tro, at det var bedre at analysere hele haplotypen frem for enkelte markører, men det har vist sig ikke at have den store betydning [Spencer et al., 2009]. På trods af mange fund af gener associeret med forskellige sygdomme eller andre fænotyper har det i mange tilfælde været svært at genskabe re- sultaterne i nye forsøg. Dette skyldes muligvis et falsk positivt resultat i første omgang, eller at årsagen til f.eks. en sygdom er meget kompleks og skyldes forskellige gener samt livsstil og ydre påvirkninger. 3.3.2 Valg af markør-SNPs og genotype-platforme Det giver næsten sig selv, at valget af markørSNPs har stor betydning for styrken i GWA-studier. Et mål, for hvor godt en mængde af SNPs repræsen- terer varianter i hele genomet, er dækning, som bestemmes ud fra graden af 29
  • 32. LD mellem SNPs. I regioner med lille dækning vil styrken for GWA-studier være lille [Jorgenson and White, 2006]. Markører kan enten vælges tilfældigt, ligefordelt eller ved hjælp af refe- rencepaneler som HapMap-projektet eller gennem mere omfattende metoder. Én af de simpleste (og mest konservative) måder at udvælge markørSNPs med et referencepanel er ved hjælp af mål for LD. De kan udvælges på den måde, at alle almindelige alleler enten er målt direkte eller, at LD mellem dem og en markør er større end en fastsat grænse. Denne grænse kan enten vælges til r2 = 1 sådan, at alle almindelige alleler enten er målt eller er i perfekt LD med en markør, hvilket selvfølgelig er det optimale, men også det mest bekostelige. Det er vist, at grænseværdier ned til omkring r2 = 0.8 opretholder en rimelig styrke i forhold til r2 = 1 [de Bakker et al., 2005]. En anden metode er at rangordne SNPs efter hvor mange andre SNPs, de er i tilpas høj LD med, og så måle de første N af disse. Denne metode er meget eektiv til at opretholde styrken samt reducere omkostningerne, givet at man har et komplet referencepanel til rådighed [de Bakker et al., 2005]. 3.3.3 Imputation Et andet forhold, der har vist sig at øge styrken i GWA-studier, er imputation af data [Spencer et al., 2009]. I bund og grund handler det om at udnytte graden af LD mellem SNPs og information om almindelige haplotyper, til at imputere manglende SNPs f.eks. fra HapMap [HapMap Consortium], 1000 Genomes Project [1000 Genomes Project] eller et andet tæt referencepanel af SNPs, se gur 3.2. De SNPs, man ønsker at imputere, kan mangle af forskellige årsager. Det kan f.eks. være SNPs, man er specielt interesseret i, men som ikke ndes på den brugte chip eller tilfældigt manglende observationer. Da der til imputerede SNPs hører en sandsynlighed, kræver det ekstra opmærksomhed at teste for association ved disse SNPs [Marchini and Howie, 2010]. Udfordringen ved imputation af SNPs, ligger i at nde en hurtig og præ- cis metode til estimation af haplotyper. Én af de mere avancerede metoder til at imputere SNPs bygger på Hidden Markov Models (HMM) [Scheet and Stephens, 2006]. Modellen bygger på, at over korte regioner i genomet har haplotyperne en tendens til at klumpe sig sammen i grupper af lignende haplotyper. Denne gruppering er på grund af rekombination lokal, og derfor vil de grupper, der ligner hinanden, ændre sig, når man bevæger sig langs genomet. Dette tager modellen højde for, idet den tillader at gruppetilhørs- forhold ændrer sig kontinuert langs genomet med hensyn til en HMM. En hurtigere, men muligvis også mindre præcis, imputationsmetode, er implementeret i PLINK [Purcell], som er et program designet til GWA- studier. Her foregår imputation ved, at for hver SNP, der skal imputeres, benyttes referencepanelet til at søge efter en gruppe omgrænsende SNPs, 30
  • 33. Figur 3.2: Billedet illustrerer, hvordan imputation af SNPs foregår ved hjælp af et referencepanel af haplotyper [Howie, 2013]. som danner en haplotypebaggrund med en høj grad af LD med den SNP, der skal imputeres. Grunden til at denne metode er hurtig, men mere usikker, er at den kun benytter en lille del af data [Marchini and Howie, 2010]. 3.3.4 Genomic control Case-kontrol studier har været kritiseret, fordi de bygger på en antagelse om en homogen population, som ikke altid er realistisk. Derfor foreslås metoden genomic control [Devlin and Roeder, 1999]. Metoden bygger på en antagelse om, at populationsstratikation vil resultere i et øget antal falske positive fund, og dette korrigeres der så for i teststørrelsen [Ziegler and König, 2010]. Problemet med populationsstratikation er, at istedet for, for hver SNP, at have modellen for en population Z logit P(Y = 1|X, Z) = β0 + β1X + β2Z, (3.22) vil man få en model, hvor man er nødt til at dele op efter population: P(Y = 1|x) = P(Y = 1|X, Z = 1)P(Z = 1|X) (3.23) +P(Y = 1|X, Z = 0)P(Z = 0|X). I denne situation er der ikke en oplagt transformation, der giver mening. Man får altså en situation hvor man har en uobserveret variabel, der påvirker både genotypen og responsvariablen. 31
  • 34. For at prøve at rette op på problemet kan man benytte genomic control. Følgende beskriver metoden for association mellem fænotype og et enkelt locus. Metoden går ud på, at man udover sit kandidat-locus genotyper en række nul-loci, og for disse udregnes yderligere teststørrelser. Under hypote- sen om ingen populationsstratikation vil den forventede værdi af disse være 1. Ud fra teststørrelserne udregnes en inationsfaktor κ. Forskellige måder at udregne inationsfaktoren på er blevet foreslået. For en additiv model er et simpelt og robust estimat for κ givet ved [Ziegler and König, 2010] ˆκ = median(X2 1 , X2 2 , . . . , X2 n) 0.456 , (3.24) hvor X2 i er teststørrelsen for det i'te nul-locus, og 0.456 er 50%-fraktilen i χ2 1-fordelingen. Teststørrelsen for et kandidat-locus j korrigeres nu ved hjælp af ˆκ sådan, at X2 GC = X2 j ˆκ (3.25) [Devlin and Roeder, 1999]. Alternativt kan ˆκmax = max(ˆκ, 1) benyttes. Da κ variarer med stikprøvestørrelsen, er det blevet foreslået at benytte κ1000, som er den forventede værdi i et studie med 1000 i både case- og kontrolgruppe [Ziegler and König, 2010]. Denne kan udregnes ud fra ˆκ som κ1000 = 1 + (ˆκ − 1) n−1 case + n−1 kontrol 1/2000 . (3.26) Metoden er kun anvendelig for binære markører, og kan derfor kun bruges sammen med allel-test og ikke sammen med genotype-test. Alternativt kan man undersøge, om der er populationsstratikation ved at plotte de observerede teststørrelser mod de forventede teststørrelser under nul-hypotesen om ingen association. Denne slags plots af observerede mod forventede værdier kaldes også QQ-plot. Metoden bygger på en antagelse om, at uden populationsstratikation vil kun få sandt associerede SNPs afvige fra linien, hvorimod man ved populationsstratikation vil se en systematisk afvigelse blandt de este SNPs. På grund af dette kunne man også beregne ˆκ ved at regressere de observerede værdier mod de forventede og så benytte hældningen som inationsfaktor, da populationsstratikation ville resultere i en hældning forskellig fra 1. Da de sande associationer altid vil afvige, anbefales det at ekskludere de største 10% fra denne udregning [Ziegler and König, 2010]. 3.3.5 Replikationsstudier En måde at validere et positivt fund uafhængig af styrken i studiet er gen- nem ét eller ere uafhængige replikationsstudier. Sådanne replikationsstudier 32
  • 35. bliver efterhånden anset for essentielle for at etablere en valid genotype- fænotype association [Chanock and Manolio, 2007], og ifølge [Kraft et al., 2009] vil mange anerkendte tidsskrifter ikke publicere genotype-fænotype associationer, uden at de er valideret i mindst et replikationsstudie. I nogle replikationsstudier genotyper man ud over de tidligere fundne markører en række af tætsiddende markører i samme region som det tidligere signikante fund eller markører i områder med `næsten-signikante` fund. Det kan enten være omkring gen-regioner eller i områder uden markører i det oprindelige studie. Grunden til dette er, at det kan være et andet locus i samme region som den oprindelige markør, der egentlig var associeret med den aktuelle fænotype. I tilfælde af at man nder association for en anden markør, men i samme region eller gen som tidligere, betragtes den som en bekræftelse, og man taler om lokal replikation [Clarke et al., 2007]. Denne metode står i kontrast til et eksakt replikationsstudie, hvor kun tidligere signikante markører testes. For at sammenligne disse to typer af replikationsstudier må det antages, at de to stikprøver er uafhængige, men stammer fra samme population. I områder med meget høj LD mellem markører vil tilføjelsen af ere markører mindske sandsynligheden for success ved replikation, og det vil i dette tilfælde være bedst med et eksakt replikationsstudie. I områder med lav LD mellem de forskellige markører kan lokal replikation fungere lige så godt eller bedre end eksakt replikation afhængig af graden af LD mellem de nye markører og det kausale locus [Clarke et al., 2007]. 3.3.6 Multipel testning-problemet Ét af de helt store spørgsmål vedrørende GWA-studier er, hvordan man korrigerer sine p-værdier for, at man udfører i omegnen af 500.000-1.000.000 test. For tests med signikansniveau α må man forvente, at man i 100 · α% af tilfældene vil få et falsk positivt resultat, altså at en SNP uden indydel- se viser statistisk signikant association med den pågældende sygdom. Når man i GWA-studier vælger signikansniveau, er det derfor vigtigt at tage forbehold for 'multipel testning'-problemet. Dette kan gøres på forskellige måder. Den nemmeste måde at korrigere α på er ved at bruge Bonferroni korrek- tionen. Hvis man ønsker et overordnet signikansniveau på αtotal og tester p SNPs, benyttes tilnærmelsen α = αtotal p (3.27) for det enkelte test. Problemet med dette er, at ens test muligvis ikke er uafhængige, da forskellige SNPs kan være korrelerede for eksempel på grund 33
  • 36. af LD. Dette fører til, at man får et signikansniveau mindre end det nød- vendige. Således er denne korrektion et korrekt, men muligvis konservativt valg [Johnson et al., 2010]. En anden metode til at sikre et fornuftigt overordnet signikansniveau er permutationstest. Først udregnes den observerede teststørrelse på baggrund af værdierne i de aktuelle grupper. Herefter blandes alle observationerne, og alle mulige værdier af teststørrelsen udregnes ved gentagne gange at opdele observationerne i to grupper på en ny måde. På denne måde nder man fordelingen af teststørrelsen under antagelse af, at der ikke er forskel på grupperne. I denne fordeling ndes så α-fraktilen, og denne benyttes som signikansgrænse, således at p-værdien er givet som andelen af teststørrelser der er mere ekstreme end den observerede teststørrelse. Permutationstest giver gode resultater, men er beregningsmæssigt meget omfattende [Johnson et al., 2010]. I praksis benyttes ofte en signikansgrænse for det enkelte test på om- kring 5 × 10−8 svarende til en bonferroni-korrektion for 1.000.000 test, og det afgørende for om en genotype-fænotype association anses for plausibel er primært, om den er valideret i et replikationsstudie. 34
  • 37. Kapitel 4 Metoder Formålet med mange epidemiologiske studier er at identicere risiko-faktorer for en eller ere sygdomme og ofte med henblik på at benytte disse til at præ- diktere sygdomsrisiko for nye individer eller en del af populationen. I dette kapitel vil jeg give en introduktion til prædiktion i epidemiologiske studier, herunder specikt i GWA-studier. Jeg vil denere ROC-kurven og AUC som er størrelser, der ofte benyttes til at vurdere kvaliteten af prædiktionsme- toder og til sammenligning af forskellige prædiktionsmetoder. Desuden vil jeg give en grundig gennemgang af de metoder, der benyttes til analyse og risikoprædiktion i to konkrete datasæt i kapitel 6. 4.1 Risikoprædiktion i epidemiologiske studier Ved risikoprædiktion forstås almindeligvis et estimat for sandsynligheden for at et tilfældigt individ tilhører en bestemt gruppe, f.eks. syge. Dette estimat bygger på en model, som indeholder én eller ere risikoparametre. Disse kan være alder, køn eller blodtryk, men også genetiske faktorer som for eksempel genotypen for en række SNPs for et individ. Risikoprædiktion kan enten resultere i en klassikation i grupper, f.eks. høj eller lav risiko, eller i en kvantitativ risikoscore, s. En sådan kvantitativ risikoscore kan konverteres til en klassikation ved valg af en grænse T, således at et individ har høj risiko hvis s ≥ T. For at kunne vælge den bedste prædiktionsmodel, er det nødvendigt at have et eller ere mål for kvaliteten af prædiktionen. De simpleste mål for præcision af en klassicering er sensitivitet og specicitet [Jostins and Bar- rett, 2011]. Disse deneres som sensitivitet = P(positiv|syg) = antal sande positive antal syge (4.1) specicitet = P(negativ|rask) = antal sande negative antal raske , (4.2) 35
  • 38. altså andelen af individer, der udvikler sygdommen, som bliver klassiceret i gruppen med høj risiko, og andelen af raske, der klassiceres i gruppen med lav risiko. Givet en risikoscore og en række af grænseværdier T fås en række af vær- dier for specicitet og sensitivitet for hver værdi af T. Plottes sensitiviteten mod 1-speciciteten for alle mulige værdier af T, fås ROC-kurven, som er en forkortelse for Receiver-Operating Characteristic curve [Forthofer et al., 2007]. Arealet under ROC-kurven, AUC, er lig sandsynligheden for, at en tilfældigt udvalgt individ med sygdommen har en højere score end et tilfæl- digt udvalgt raskt individ (se sætning 1), og denne værdi benyttes ofte til at sammenligne prædiktionsmetoder. Sætning 1. Antag der haves et tilfældigt udvalgt par af individer såles at y1 = 0 og y2 = 1. Lad si betegne en risikoscore for det i'te individ. Da gælder det at AUC = P(s1 s2|y1 = 0, y2 = 1). Bevis. Det ses, at 1 − specificitet = P(si T|yi = 0) (4.3) = H(si) = T −∞ h(si)dsi sensitivitet = P(si T|yi = 1) (4.4) = G(si) = T −∞ g(si)dsi. Lad nu A være sandsynligheden for at en tilfældigt valgt case har en højere risikoscore end en tilfældigt valgt kontrol, altså A = P(s1 s2|y1 = 0, y2 = 1). (4.5) Det fås nu, at A = s1s2 h(s1)ds1g(s2)ds2 (4.6) = H(s2)dG(s2) = (1 − specificitet)d(sensitivitet) Hvilket svarer til arealet under ROC-kurven. 36
  • 39. Der ønskes en høj værdi af AUC, hvor værdien 0.5 svarer til, hvad man ville forvente at opnå ved at gætte tilfældigt. Værdien 1 er den højeste vær- di, der kan opnås, og svarer til, at modellen kan skelne de to grupper fra hinanden fuldstændigt. En faktor, det kan være nødvendig at tage højde for, når man evaluerer forskellige prædiktionsmetoder, er prævalensen for den pågældende sygdom. Prævalens for en sygdom er sandsynligheden for, at et tilfældigt valgt individ har sygdommen, og deneres som antal syge individer delt med det totale antal individer i den pågældende population. Et andet ofte anvendt mål for eekten af en prædiktionstest, som netop tager højde for prævalensen, er den Positive Prædiktionsværdi (PPV) og den Negative Prædiktionsværdi (NPV). Disse er deneret som andelen af perso- ner, der tester positivt, og som udvikler sygdom, og andelen af personer, der tester negativt og forbliver raske [Forthofer et al., 2007]. Givet estimater for sensitiviteten og speciciteten samt prævalensen for sygdommen i befolknin- gen kan disse estimeres som [Ziegler and König, 2010] PPV = ˆsens · prev ˆsens · prev + (1 − ˆspec) · (1 − prev) , (4.7) NPV = ˆspec · (1 − prev) ˆspec · (1 − prev) + (1 − ˆsens) · prev . (4.8) For sjældne sygdomme er det især relevant at evaluere en eventuel prædik- tionsmetode i forhold til PPV og NPV. For en klinisk test for en sygdom med en prævalens på 0.001 og med en sensitivitet på 0.95 og en specicitet på 0.87 fås PPV = 0.0073. For et tilfældigt valgt individ, der testes positivt for sygdommen, er sandsynligheden for, at personen udvikler sygdommen altså 0.0073. På denne måde vil mange raske blive klassiceret som væren- de i gruppen med høj risiko, og dette kan der være forskellige ulemper ved, afhængig af hvilke tiltag der bliver gjort for personer i denne gruppe. Risikoprædiktion har tidligere primært været baseret på ydre risikofak- torer såsom alder, køn eller rygning, og det varierer fra sygdom til sygdom hvor meget ekstra information, man vinder ved at inddrage genetiske fakto- rer i sin prædiktionsmodel. Hvis der for eksempel i en test indgår et individs bloktryk, vil man forvente, at SNPs associeret med blodtryk også er associ- eret med sygdommen, men det er ikke sikkert, at man opnår en øget eekt ved at inkludere disse SNPs, da deres information allerede er indeholdt i en blodtryksmåling. Én af de helt store potentielle fordele ved genetisk ri- sikoprædiktion frem for prædiktion baseret på ydre faktorer og prøver er, at prædiktionen på lang sigt er mere stabil. Dette er for eksempel yderst relevant, hvis forebyggende medicin er mere eektivt, hvis det påbegyndes tidligt, eventuelt før man ser nogen ydre symptomer [Jostins and Barrett, 2011]. 37
  • 40. 4.1.1 Prædiktion i GWA-studier Risikoprædiktion i GWA-studier er et noget specielt tilfælde, da man har 500.000-1.000.000 potentielle prædiktorer at vælge imellem. I de tilfælde, hvor mange SNPs har svag til moderat eekt, virker det logisk, at en præ- diktionsmodel, der kun er baseret på de mest signikante SNPs, muligvis ikke er det optimale. I [Kang et al., 2011] har man fundet evidens for, at det optimale kan være at inkludere ere hundrede SNPs. Udover at antallet af SNPs kan øge prædiktionsværdien, kan det også tænkes, at prædiktion baseret på haplotyper eller andre kombinationer af ere SNPs fungerer bedre end at benytte enkelte SNPs, da det kan være en serie af mutationer, der tilsammen har en eekt. Tidligere forsøg har vist, at der muligvis er eekter, der kun kan identiceres med en haplotype-tilgang, mens der er eekter, der kun vedrører enkelte eller få SNPs, og som kan være svære at identicere med store haplotype-blokke [Kang et al., 2011]. En anden ulempe ved store haplotype-blokke er, at estimationen af dem ud fra genotypen er mere usikker, og [Kang et al., 2011] vælger derfor at undersøge prædiktion med små haplotype-blokke frem for enkelte SNPs. I de næste afsnit vil jeg præsentere forskellige metoder til at udvælge præ- diktive SNPs og gennemgå forskellige måder at opstille prædiktionsmodeller på. 4.2 Logistisk regression med penalisering For høj-dimensionelle data, som for eksempel SNP-data, hvor p n er al- mindelig simultan lineær eller logistisk regression ikke mulig. En alternativ metode er de såkaldte penaliseringsmetoder, hvor koecienterne mindskes mod nul. Blandt disse metoder ndes ridge regression (RR) og Least Absolu- te Shrinkage and Selection Operator (Lasso) [Tibshirani, 1996] samt Elastic Net (ELN) [Zou and Hastie, 2005], som er en kombination af disse to. Lasso, RR og ELN er estimationsmetoder til anvendelse indenfor klas- sen af generelle lineære modeller (herunder logistisk regression). Metoderne minimerer den kvadrerede residualsum mht., at den absolutte værdi af koef- cienterne skal være mindre end en given konstant. Ofte vil Lasso og ELN producere ere koecienter, der er præcis 0, hvilket muliggør tolkning af modellen, hvorimod dette ikke er tilfældet med RR [Hastie et al., 2009]. Vi betragter situationen, hvor vi har data (xi, yi), for i = 1, 2, . . . , n, hvor xi = (xi1, . . . , xip) angiver genotypen for det i'te individ, og yi er en binær responsvariabel. Det antages enten, at observationerne er uafhængige, eller at yi'erne er uafhængige givet xij'erne. Det antages yderligere, at søjlerne i designmatricen X er standardiserede, således at søjlerne har middelværdi 0 og varians 1. Lad nu ˆβ = (ˆβ1, . . . , ˆβp). Estimaterne ( ˆβ0, ˆβ) er da deneret 38
  • 41. som [Hastie et al., 2009] ( ˆβ0, ˆβ) = arg min β0,β    −l(β0, β) + λ1 p j=1 |βj| + λ2 p j=1 β2 j    , (4.9) hvor l(β0, β) = n i=1 yi(β0 + x T i β) − log(1 + eβ0+xT i β ) (4.10) er log-likelihood-funktionen for logistisk loss og en generalisering af (3.12) til p variable. λ1, λ2 ≥ 0 er tuningsparametre og kaldes også penaliserings- konstanter. λ1 = 0 vil give RR, og λ2 = 0 vil give Lasso. For alle λ1, λ2 vil ˆβ0 = ¯y. Disse optimeringer har aldrig eksakte løsninger, og må derfor ofte løses numerisk. Til dette eksisterer ere algoritmer, og en af disse gennemgås i afsnit 5.2. Hvis pakken glmnet [Friedman et al., 2010b] i R benyttes til at tte ELN-penaliserede modeller, benyttes den lidt anderledes, men ækvivalente formulering ( ˆβ0, ˆβ) = arg min β0,β {−l(β0, β) + λPα(β)} , (4.11) hvor Pα(β) = p j=1 1 2 (1 − α)β2 j + α|βj| . (4.12) Med denne parametrisering af tuningparametrene svarer α = 1 til Lasso og α = 0 til RR, og penaliseringsparameteren λ angiver, hvor meget koecien- terne skal straes. Jeg vil i resten af specialet benytte denne parametrisering. Da Lasso-estimatet hverken er en lineær eller dierentiabel funktion af responsvariablen, er det svært at udregne et præcist estimat for standard- afvigelsen. En måde at komme uden om dette er ved at benytte bootstrap- metoder, enten for et fast λ eller ved at maksimere over λ for hver bootstrap- runde. λ kan fastlægges på ere måder f.eks. ved krydsvalidering, generaliseret krydsvalidering eller ved et analytisk risiko-estimat [Tibshirani, 1996]. Lasso har specielt sine fordele, når antallet af variable er meget større end antallet af observationer. For mindre værdier af λ kommer ere prædiktorer ind i modellen. De indtræder typisk i rækkefølge efter vigtighed, medmindre de er korrelerede [Wu et al., 2009]. Løsningen til (4.11) for en sekens af λ'er kaldes Lasso-stien. For SNP-data af den typiske størrelse er krydsvalidering for omfatten- de og tidskrævende, og det foreslås derfor, at λ i stedet bestemmes af det ønskede antal prædiktorer (tit i omegnen af 20-50). 39
  • 42. 4.3 SparSNP SparSNP [Abraham et al., 2012] er en selektions- og klassikationsmetode til analyse af SNP-data, der kombinerer penaliseringsmetoder som Lasso og Ela- stic Net med Support Vector Machines (SVM), se mere nedenfor. Metoden er implementeret i C, og evalueringsdelen af metoden benytter R. Udover at udføre variabelselektion og klassikation af individer kan metoden også benyttes til at konstruere risikoprædiktionsmodeller. Ifølge [Abraham et al., 2012] skulle metoden fungere mindst lige så godt med hensyn til risikopræ- diktion som Lasso- og ELN-modeller ttet med glmnet() [Friedman et al., 2010b] i R samtidig med, at SparSNP kan håndtere langt større datasæt indenfor rimelig tid. Det antages, at en risikoscore si ∈ R for individ i er en lineær funktion af antallet af den mindre allel sådan, at si = β0 + p j=1 xijβj. (4.13) Lad designmatricen, X, være standardiseret som i forrige afsnit. Koecien- terne ( ˆβ0, ˆβ) estimeres ved at minimere den penaliserede kvadrerede hinge loss-funktion (se gur 4.1), L(β0, β) = 1 2 n i=1 max{0, 1 − yi(β0 + x T i β)}2 + λPα(β), (4.14) hvor y ∈ {−1, +1} og λPα(β) er som i (4.12). Herefter kan de indgående SNPs ordnes efter størrelsen af koecienterne |βj|, hvor det antages, at en stor værdi af βj er ensbetydende med en høj grad af association mellem SNP og fænotype. Ovenstående risikoscore kan så udregnes, eller de n højest rankede SNPs kan benyttes til at tte en logistisk regressionsmodel. En af fordelene ved at benytte den kvadrerede hinge loss-funktion er, at den er dierentiabel, og dermed kan optimering foretages ved hjælp af en coordinate descent-algoritme, se kapitel 5. Det ses desuden, at den minder en del om loss-funktionen i den logistiske regressionsmodel. Med i implementeringen af metoden er muligheden for at benytte kryds- validering til tuning af λ og stability selection [Meinshausen and Bühlmann, 2010] med det formål at opnå en mere robust ranking af SNPs samt et mere robust estimat for modellens prædiktionsevne (i form af AUC). 4.3.1 Support Vector Machines Metoden SparSNP bygger som nævnt på SVMs, som kommer fra området machine learning, og som ikke umiddelbart har noget med sandsynligheds- modeller at gøre. Grundlæggende ndes der to former for SVMs: Support Vector Classication (SVC) og Support Vector Regression. I det følgende vil 40
  • 43. −10 −5 0 5 020406080100120 Kvadreret hinge−loss y*f(x) loss(x,y) Figur 4.1: På billedet ses den kvadrerede hinge-loss funktion. Det ses, at den først er 0 for y · f(x) = 1. jeg kun fokusere på principperne bag SVC, da det er denne form SparSNP benytter ved en binær fænotype. Konceptet i SVMs er som følger: Det antages, at der eksisterer en ukendt afhængighed y = f(X) mellem (ofte høj-dimensionelle) observationer X og respons y. Den eneste tilgængelige information er træningdatasættet D = {(xi, yi) ∈ X × y}, i = 1, . . . , n. På baggrund af træningseksemplerne kon- struerer SVMs en klassikationsgrænse indenfor en valgt klasse af funktioner. SparSNP benytter en lineær SVM, hvilket vil sige, at denne klassikations- grænse er lineær. For SNP-data vil det betyde, at klassikationsgrænsen er en p-dimensional hyperplan. Når data er lineært seperabelt (hvilket vil sige at de to klasser kan skilles af en lineær funktion) er målet at nde den klassikationsgrænse, der gi- ver den største afstand til de nærmeste observationer, og som også vil være de observationer, det er sværest at klassicere. Denne afstand kaldes margi- nen. De observationer, der ligger nærmest beslutningsgrænsen, kaldes support vectors, og det er udelukkende disse, der bestemmer hvor beslutningsgrænsen skal ligge [Wang, 2005]. Det forekommer selvfølgelig ofte, at data ikke er lineært seperabelt. Dette kan for SVMs løses på to forskellige måder. Enten kan data separeres i en klasse af ikke lineære separationsfunktioner, eller også kan misklassicerede observationer tillades. Den sidste metode er den, der benyttes af SparSNP. Når data ikke er lineært seperabelt, og observationer overlapper, vil der 41
  • 44. ved at benytte en lineær klassikationsgrænse altid forekomme misklassi- cerede observationer. De misklassicerede objekter vil have en meget stor indydelse på beslutningsgrænsen, hvilket vil gøre næsten alle observatio- ner til supportvektorer [Wang, 2005]. Dette løses ved at have en blød (soft) margin, og alle observationer indenfor denne er ignoreret. Bredden på denne margin kontrolleres med en parameter. Se gur 4.2 for et eksempel på en SVM med blød margin i tilfældet hvor p = 2· Figur 4.2: På billedet [Blondel, 2013] ses klassikation med SVMs af to grup- per i et 2-dimensionelt rum. De markerede punkter er supportvektorerne. For SparSNP er det netop penaliseringen, der giver den bløde margin, og parameteren λ, der styrer bredden. L1-penalisering har en tendens til at give færre supportvektorer [Wang, 2005]. 4.4 PrincipLasso Når Lasso benyttes til variabelselektion i situationer, hvor de pågældende variable er delvist korrelerede, udvælges vilkårligt én eller ere af de korre- lerede variable. Dette er ikke nødvendigvis den mest hensigtsmæssige måde, da man måske smider vigtig information væk i de tilfælde, hvor ere af de korrelerede variable har stærke eekter. Jeg vil derfor foreslå og afprøve en metode, hvor designmatricen opdeles i blokke på baggrund af graden af LD mellem de enkelte SNPs, således at der er en forholdsvis høj grad af LD mellem SNPs indenfor disse blokke. For hver af disse blokke beregnes principalkomponenterne (se afsnit 4.4.2), og et passende antal af disse fungerer som repræsentanter for blokken i en Lasso-prædiktionsmodel. Lignende fremgangsmåder, hvor der tages højde for 42
  • 45. blok-strukturen i SNP-data, er for nylig blevet studeret af andre. Se f.eks. Bühlmanns Cluster Representative Lasso [Bühlmann et al., 2012] eller Liu og Huangs Smoothed Group Lasso [Liu et al., 2012]. En anden motivationsfaktor for denne tilgang er, at man ved at benytte et antal principalkomponenter frem for det fulde datasæt får nedbragt dimensionen betragteligt. 4.4.1 Opdeling i blokke med høj grad af LD Det første element i implementeringen af PrincipLasso er at foretage en pas- sende opdeling af de målte SNPs i blokke, således at SNPs indenfor samme blok har en vis grad af korrelation mellem sig, og således at der er en stør- re grad af korrelation indenfor blokke end mellem blokke. En metode til at estimere disse blokke simpelt kunne være at beregne den parvise korrelation mellem alle nabo-SNPs langs et kromosom og så opdele i blokke de steder, hvor den parvise korrelation var lavest, og på en sådan måde at antallet og størrelsen af disse blokke var passende. En anden tilgang til problemet kunne være at benytte UCSC Genome Browser [Kent et al.], som blandt andet indeholder information om estime- rede rekombinationshotspots. De este af disse hotspots er fælles indenfor en nogenlunde homogen befolkning, men omkring 15% varierer mellem mænd og kvinder. Dog ser det ud til, at der ved mandlige rekombinationshotspots er en lille stigning i rekombinationsraten hos kvinder og omvendt [Kong et al., 2010]. En visualisering af dette ses i gur 4.3. Det er vigtigt, at rekombina- tionshotspots er estimeret ud fra det samme build som ens data, da de er baseret på kb-positioner langs genomet og ellers kan være misvisende. Med disse hotspots er der to mulige blokopdelinger: Én der benytter alle hotspots, både for mænd og kvinder, og en, der kun benytter de hotspots der er fælles mellem køn. Det er oplagt, at den første metode giver ere, og dermed mindre, blokke end den anden. Ved at benytte de estimerede hotspots som grænser fås en opdeling i blokke, hvor det virker rimeligt at antage, at andelen af rekombinationer er større mellem blokkene end indenfor blokkene. Disse rekombinationshotspots strækker sig typisk over en region, så for at undgå SNPs, der ikke kan tildeles en blok, kan midterpunktet i en given hotspotregion vælges som grænse. Alternativt kan man for de SNPs, der falder inden for en hotspotregion, vælge sit hotspot, der hvor den parvise korrelation er mindst. Med denne metode vil man få blokke af meget forskellig størrelse, da gra- den af LD mellem SNPs varierer langs genomet. Derudover er der en tendens til at specielt de kønsspecikke hotspots forekommer i klumper [Kong et al., 2010], hvilket vil resultere i små blokke i disse områder. Dette kan delvis undgås ved kun at benytte de hotspots, der er fælles for de to køn. Der er ikke estimeret rekombinationshotspots for X- og Y-kromosomet, så for SNPs langs disse kromosomer må opdelingen foregå på en anden måde, evt. ved at benytte parvis korrelation som forklaret ovenfor. 43
  • 46. Der kunne være en pointe i at benytte en mere data-dreven blokopde- ling, og jeg har derfor undersøgt forskellige former for software og algoritmer beregnet til clustering eller, på dansk, gruppering. De este metoder var dog for avancerede til at anvende på SNP-data, da det tog alt for lang tid for det fulde datasæt. Som forslag til en løsning på problemet har jeg implementeret en hur- tigere og mere enkel version af K-means clustering [MacQueen, 1967], som respekterer den ordning SNPs har langs genomet (se algoritme 1). Jeg vil omtale denne version som ordnet K-means eller OK-means. I almindelig K- means gruppering kan grupperne dannes vilkårligt blandt samtlige variable, hvilket både er mere tidskrævende, men heller ikke giver nogen mening i forhold til at estimere den naturlige LD-struktur langs genomet. Algoritme 1: Ordnet K-means gruppering 1: Inddel de p variable i K grupper H0 : {h0 0 = 1, h0 1, . . . , h0 K = p} 2: i := 1 3: repeat 4: Hi := Hi−1 5: Udregn centrum i grupperne, ck: 1 mk mk i=1 xk 6: for k in 1 : (K − 1) do 7: hk i := arg minj hi k+1 j=hi k−1 xj − ck 2 − xj − ck+1 2 8: end for 9: i := i+1 10: until Hi−1 = Hi 11: return Hi I algoritme 1 består det første skridt i at opdele de p variable i K p grupper. Dette kan gøres på mere eller mindre tilfældige måder, for eksem- pel ved at opdele i K tilnærmelsesvis lige store grupper eller ved tilfældigt at vælge K opdelingsgrænser. En anden mulighed kunne være at benytte forhåndenværende viden som for eksempel de estimerede rekombinations- hotspots. Alternativt kunne man benytte en inddeling baseret på minimal parvis korrelation mellem SNPs. I næste skridt udregnes centrum i blokkene. På baggrund af disse ryk- kes blokinddelingerne iterativt ved at minimere den samlede afstand mellem SNPs og blokkens centrum og samtidig bevare ordningen. For hvert hotspot k erstattes det gamle hotspot eventuelt af et nyt, som er givet som arg minj af funktionen A(j) = hk+1 j=hk−1 xj − ck 2 − xj − ck+1 2 . (4.15) Det ses, at funktionen er negativ for søjler tættest på centrum i blok k og 44
  • 47. positiv for søjler tættest på centrum i blok k + 1. Når der er fundet K nye hotspots gentages proceduren. Når ingen hotspots ændres er algoritmen konvergeret. At algoritmen rent faktisk konvergerer er vist i sætning 2. Sætning 2. Ordnet K-means gruppering-algoritmen konvergerer. Bevis. Antag en opdeling i K grupper H0 = {h0 0 = 1, h0 1, . . . , h0 K = p}. Lad Di = K k=1 hi k l=hi k−1 xl − ck 2 = K k=1 di(k) (4.16) være summen af de kvadrerede afvigelser indenfor grupperne for iteration i, i = 0, 1, 2, . . .. Det ses at for k = 1, . . . , K vil di(k − 1) + di(k) ≥ di+1(k − 1) + di+1(k). (4.17) Dette skyldes, at SNPs der yttes er tættere på centrum i naboblokken end i sin egen, hvilket mindsker den samlede kvadrerede afstand. Denne afstand mindskes yderligere, når det nye centrum beregnes, da dette netop minimerer den samlede afstand til centrum i blokken. Dermed fås det, at D0 ≥ D1 ≥ · · · ≥ 0, og derfor må det for i ∞ forekomme at 0 ≤ D ≤ D(i) = D(i − 1), hvor D er det globale minimum, svarende til en optimal inddeling. Det ses med sætning 2, at algoritme 1 vil konvergere i endelig tid, men at det ikke er sikkert at algoritmen nder den optimale blokinddeling. Desuden vil den endelige opdeling afhænge af, hvordan den første opdeling vælges. For den almindelige K-means algoritme er det en fordel at vælge sine start- grupper fornuftigt, så det kan meget vel også være tilfældet for OK-means. I teorien kan det tage en del skridt, før algoritmen konvergerer, men i praksis ser det ud til at forekomme rimelig hurtigt (for i ≤ 10). 4.4.2 Regression på principalkomponenter For de konstruerede LD-blokke ønskes det nu at nde en form for summary- measure, der fanger variationen indenfor blokken, og som nedbringer dimen- sionen af data. Et sådant mål kunne være et passende antal principalkom- ponenter for hver blok. Udover at disse kunne antages at fange variationen indenfor blokken godt grundet LD-strukturen i data, har principalkompo- nenter også den egenskab, at de enkelte principalkomponenter er lineært uafhængige, hvilket er en fordel ved variabel-selektion med Lasso [Hastie et al., 2009]. En metode til at beregne principalkomponenter er først at skalere og cen- trere søjlerne i designmatricen X og derefter udføre en singular value decom- position, også forkortet SVD. For en n × p-matrix, X, har dekompositionen 45
  • 48. formen X = UDV T . (4.18) For n p vil U henholdsvis V være n × p og p × p ortogonale matricer, og D vil være en p × p diagonal matrix, hvor de diagonale indgange d1 ≥ d2 ≥ · · · ≥ dp ≥ 0 kaldes de singulære værdier for X. For n p vil U og D være af dimension n × n og V n × p. Søjlerne i Z = UD kaldes principalkomponenterne for X. For disse gælder det, at søjlerne er ordnet således, at z1 har dens største varians og zp den mindste [Hastie et al., 2009]. Det antages nu, at data er opdelt i M blokke. Med SVD fås for alle M blokke en n × qj-matrix, Zj, j = 1, . . . , M bestående af qj principalkompo- nenter for hver blok. Lad pj angive antal SNPs i blok j. For qj pj opnås en reduktion i dimensionen af data. Den nye resulterende designmatrix, der benyttes, bliver da den sammensatte n × M j=1 qj -matrix Z = [Z1, Z2, . . . , ZM ]. (4.19) Antallet af principalkomponenter, der medtages for hver blok, skal udvælges således, at vi med det mindst mulige antal får information nok. En måde hvorpå vi kan vurdere, hvor meget nok er, vil være at se på, hvor stor en fejl vi laver ved kun at medtage qj principalkomponenter i stedet for alle pj. Et mål for den qj-dimensionale rekonstruktionsfejl for blok j med pj SNPs vil være (n − 1)pj − qj i=1 d2 i . (4.20) Det virker derfor fornuftigt at bruge størrelsen g = p−1 j qj i=1 d2 i (4.21) til at vælge et passende antal principalkomponenter ud, således at g er større end en valgt grænseværdi mellem 1 og n−1, hvor g = 1 vil resultere i en meget stor rekonstruktionsfejl, og g = n−1 vil resultere i ingen rekonstruktionsfejl. Z benyttes nu som designmatrix i en logistisk regressionsmodel med Lasso-penalisering. Før den resulterende model kan benyttes til prædiktion i et nyt datasæt X , skal søjlerne i X skaleres med de samme værdier som blev benyttet til at standardisere X, og for hver blok beregnes test- komponenterne Zj = X Vj, (4.22) hvor Vj stammer fra SVD af Xj. 46
  • 49. 4.5 Modelselektion Kvaliteten af en statistisk model vurderes ofte på baggrund af dens prædik- tionsevne i et uafhængigt datasæt. Som et mål for en models prædiktionsevne benyttes et estimat for prædiktionsfejlen d(Y, ˆf(X)) (4.23) for en passende afstansfunktion d(·, ·). I dette afsnit vil jeg undersøge hvordan man kan vælge den bedste model mellem forskellige statistiske modeller og herefter vurdere kvaliteten af den endelige model. Vurderingen af statistiske modeller i et uafhængigt datasæt er utrolig vigtig. I dette speciale bruges termerne træningsdata og testdata om 2 for- skellige datasæt indeholdende de samme variable, men ofte med forskelligt antal observationer. Træningsdatasættet benyttes til at tte modellen, og testdatasættet benyttes i vurderingen af kvaliteten af modellen. Det helt op- timale ville være både at have et træningsdatasæt, et vurderingsdatasæt og et testdatasæt. Jo ere variable vi føjer til modellen, jo bedre et t vil vi typisk få til vores træningsdata med den ulempe, at modellen bliver overttet og får problemer med at generalisere til den population, data stammer fra. På denne måde giver ere variable typisk et fald i bias, men en øgning i varians [Hastie et al., 2009]. Modelkompleksitet styres ofte af en parameter, så modelselektion kan både omhandle optimering af denne parameter i en klasse af modeller og at nde den optimale klasse af modeller. 4.5.1 Krydsvalidering En af de simpleste måder at estimere prædiktionsfejl på er gennem K-fold krydsvalidering. Metoden bygger på, at data på en tilfældig måde splittes i K lige store dele. Nu køres K runder, hvor modellen ttes til K − 1 af de K datasæt, og prædiktionsfejlen udregnes på det sidste. Den overordnede prædiktionsfejl kan nu ndes som et gennemsnit af prædiktionsfejlen i de K runder, og på denne måde kan den optimale model vælges. For at mindske bias grundet det aktuelle split af data, kan dette gøres N gange, hvor vi hver gang splitter data på en ny tilfældig måde. Dette omtales som N × K- krydsvalidering. Hvis krydsvalidering inddrages i modelselektion, er det vigtigt, at alle trin, der vedrører responsvariablen, er medtaget i krydsvalideringen for at undgå at underestimere prædiktionsfejlen [Hastie et al., 2009]. I stedet for at estimere prædiktionsfejlen, vil det i dette tilfælde være mere relevant at udregne modellens AUC for et stigende antal variable og dermed få et mere robust estimat for modellernes AUC-værdier. At estimatet 47
  • 50. for AUC bliver mere robust skyldes at vi minimerer bias grundet en konkret opdeling af data i et træningsdatasæt og testdatasæt. 48
  • 51. Figur 4.3: Screenshot fra UCSC Genom browser [Kent et al.]. Der er zoomet ind på et område på kromosom 1. Den øverste kurve viser den gennemsnitlige rekombinationsrate, og nederst ses de estimerede hotspots for mænd (blå) og kvinder (lyserøde). 49
  • 52. 50
  • 53. Kapitel 5 R implementering Størstedelen af min databehandling er udført ved hjælp af statistikprogram- met R [R Core Team, 2012]. I dette kapitel vil jeg sætte ord på de dele af implementeringen, som ikke er helt trivielle. 5.1 Håndtering af data Den første udfordring er at indlæse store datamængder i R. I øjeblikket er PLINK [Purcell] det mest anvendte software til GWA-studier, og de este SNP-data ligger i et binært PLINK-format. I dette format ligger genotype- matricen i et pladsbesparende format, som det ikke er muligt at åbne og læse i. For at indlæse disse ler i R har jeg benyttet pakken snpStats [Clayton, 2012] der med kommandoen read.plink() kan indlæse binære PLINK-ler hurtigt, og på en måde så selve genotype-data er i raw-format, så det ikke fyl- der særlig meget. Output er en liste af længde 3, som indeholder genotypen, information om de enkelte SNPs og information om de enkelte individer. Den fulde genotype-matrix fylder for meget af computerens hukommelse i R, hvis den ligger som typen numeric. Når dele af den skal bruges, er det nødvendigt at omdanne den del til en numerisk matrix. Den mængde hukommelse R kan allokere afhænger af styresystemet og computerens størrelse. Der er en begrænsning for, hvor meget et enkelt ele- ment kan fylde på 231 − 1 eller ca. 2 · 109 elementer. Det ses tydeligt, at man med en matrix bestående af p ≈ 500.000 variable og et par tusind observationer hurtigt rammer grænsen. 5.2 glmnet Til implementeringen af de Lasso-penaliserede logistiske regressionsmodel- ler har jeg benyttet R-pakken glmnet [Friedman et al., 2010b]. I glmnet er implementeret en algoritme, der benytter coordinate descent with warm 51
  • 54. starts, og resultatet er, at metoden kan håndtere forholdsvis store datasæt overraskende hurtigt. Coordinate descent er en algoritme, der kan løse (4.11) ved at opdatere koecienterne et skridt af gangen. I stedet for at benytte den aedede søger algoritmen langs en koordinatretning og cykler så over alle retninger. Løses hele Lasso-stien for en sekvens af λ'er benyttes warm starts, hvilket vil sige, at de tidligere parameter-estimater benyttes som begyndelspunkt. For en logistisk regressionsmodel med binær responsvariabel kan (4.11) løses ved at maksimalisere den penaliserede log-likelihood 1 N N i=1 [I(yi = 1) log θ(xi) + I(yi = 0) log(1 − θ(xi))] (5.1) −λPα(β) = l(β0, β) − λPα(β) med hensyn til (β0, β). For ui = I(yi = 1) (= yi når yi ∈ {0, 1}) kan vi skrive l(β0, β) = 1 N N i=1 ui(β0 + xT i β) − log 1 + e(β0+xT i β) , (5.2) som svarer til (3.12), og som er en konkav funktion af parametrene. For aktuelle estimater (˜β0, ˜β) kan vi med taylorudvikling beregne en kvadratisk approksimation til log-likelihooden ved lQ(β0, β) = − 1 2N N i=1 wi(zi − β0 − xT i β)2 + c(˜β0, ˜β)2 , (5.3) hvor zi = ˜β0 + xT i ˜β + ui − ˜θ(xi) ˜θ(xi)(1 − ˜θ(xi)) , (5.4) wi = ˜θ(xi)(1 − ˜θ(xi)), (5.5) c(˜β0, ˜β)2 er en konstant og ˜θ(xi) er udregnet ud fra de aktuelle parametre. For hver værdi af λ udregnes lQ ud fra de aktuelle parametre og coordinate descent benyttes til at løse (β0, β) = arg min β0,β (−lQ(β0, β) + λPα(β)) (5.6) [Friedman et al., 2010a]. 52
  • 55. 5.3 PrincipLasso Det antages, at vi har to designmatricer fra henholdsvis trænings- og test- datasæt, og de betegnes X og X . På grund af størrelsen af data kan R ikke håndtere beregninger af hele designmatricen på én gang, og derfor foregår det følgende kromosomvis. Ved hjælp af de estimerede rekombinationshotspots inddeles både X og X i de samme blokke. Søjlerne i X centreres og skaleres med scale(), og de anvendte værdier benyttes til at justere og skalere X på samme måde. Det beregnes som forklaret i foregående kapitel hvor mange principal- komponenter, der skal medtages for hver blok. Dette fungerer i praksis ved at sætte en grænse for rekontruktionsfejlen kaldet g og en grænse for det maksimale antal SNPs, Q, der kan medtages fra hver blok. Singular value dekompositionen beregnes nu for den skalerede og centre- rede designmatrix, X, ved hjælp af kommandoen svd(), og principalkompo- nenterne, Zqj = (UD)qj , gemmes. Det antages nu, at designmatricen X er justeret med de samme vær- dier, der blev benyttet til at centrere og skalere X. For at beregne `test- komponenterne`, Z , bemærkes det, at matricen V fra den foregående SVD er unitær. Det fås derfor, at X = U D V T = Z V T ⇔ (5.7) X V = Z . (5.8) Funktionen svd() benytter LAPACK, som er en forkortelse for Linear Alge- bra PACKage. LAPACK er et fortran bibliotek, som kan benyttes til lineære matrixoperationer. For nogle få blokke giver LAPACK problemer. Dette fan- ges med en tryCatch() kommando og LINPACK, som er en ældre version af LAPACK anvendes for disse blokke uden problemer. Grunden til at LIN- PACK ikke benyttes hver gang er, at det med LAPACK er muligt kun at beregne det ønskede antal principalkomponenter i stedet for dem alle, og dette sparer betydelig meget tid. 5.4 Generelt Til at tte logistiske regressionsmodeller uden penalisering har jeg også be- nyttet glmnet(). Endvidere har jeg til beregning af AUC-værdier benyttet R-pakken ROCR [Sing et al., 2012]. 53
  • 56. 54
  • 57. Kapitel 6 Dataanalyse I dette kapitel beskrives, hvordan jeg ved hjælp af to konkrete SNP-datasæt har sammenlignet og evalueret de forskellige prædiktionsmetoder præsente- ret i kapitel 4. Data er rigtige SNP-data indsamlet for og venligst udlånt af Afdeling for Epidemiologisk Forskning på Statens Serum Institut. Data er genereret i forbindelse med GWA-studier af forskellige sygdomme, hvis formål var at identicere genetiske områder associeret med den pågældende sygdom. I dette speciale undersøges data fra studierne af to forskellige sygdomme. Den ene hedder på dansk pylorusstenose og er en sjælden medfødt sygdom, der forårsager en forsnævring i den nederste del af mavesækken hos spæd- børn. Den anden sygdom undersøges stadig af seruminstituttet og er derfor i dette speciale blot omtalt som sygdom2. Begge data stammer fra build 37, men fra forskellige genotypechips. Det er altså ikke præcis de samme SNPs, der indgår som variable i de to forskellige datasæt. Data angiver for hvert individ og for hver SNP antal kopier af den mest almindelige allel. Hvert element i data kan dermed antage værdierne 0, 1 eller 2. Et udsnit af data kunne således se sådan ud: ID rs847584 rs9474783 rs91343485 · · · 1 2 2 1 2 0 2 2 3 2 1 2 4 2 2 2 . . . Derudover indeholder data oplysninger om individernes sygdomsstatus, som i PLINK-format er kodet 2 for cases og 1 for kontroller. For hver SNP er der i data oplysninger om SNPens placering i en såkaldt map-l angivet med et kromosomnummer og dets kb position. Kromosomet er angivet med et nummer fra 1 til 25, hvor nr. 1-22 refererer til kromosom 1-22. Nr. 23 og 24 er X- og Y-kromosomet, og nr. 25 en speciel region der kan foretage rekom- 55