More Related Content More from BioinformaticsInstitute (20) Slides -i._minkin1. Reference-assisted chromosome
assembly
Kim J, Larkin DM, Cai Q, Asan, Zhang Y, Ge RL, Auvil L,
Capitanu B, Zhang G, 2Lewin HA, Ma J.
PNAS USA 2013 Jan 29
Äîêëàä÷èê: Èëüÿ Ìèíêèí
ÑÏáÀÓ ÐÀÍ
27 àïðåëÿ 2013
1 / 28
3. Ìîòèâàöèÿ
Ñåêâåíèðóåòñÿ âñå áîëüøå è áîëüøå ãåíîìîâ
Íå òàê ñëîæíî ïîëó÷èòü êîíòèãè
Êàê ñîáðàòü êîíòèãè â ãåíîì?
Íåîáõîäèìî ãåíîì êàðòèðîâàòü
Òðóäîåìêî è äîðîãî
Áîëü
3 / 28
4. Ñáîðêà ïî ðåôåðåíñó
×òî ïðåäëàãàëîñü ðàíåå:
Ëþäè ïûòàëèñü ïðèêëàäûâàòü ðèäû/êîíòèãè
ê ðåôåðåíñó
Ñêëåèâàÿ êîíòèãè è íàõîäÿ âîçìîæíûå
íåïðàâèëüíûå ñî÷ëåíåíèÿ
Íåêîòîðûå äàæå èñïîëüçóþò ôèëîãåíåòèêó
Òåì íå ìåíåå, ðåôåðåíñ ïðè ýòîì îäèí
Ëèáî èñïîëüçóþòñÿ ïîïàðíûå ñðàâíåíèÿ
4 / 28
5. Îáùèé îáçîð ìåòîäà
Ñðàâíèòåëüíàÿ ãåíîìèêà íàì ïîìîæåò
Âîçüìåì ðåôåðåíñ
Íàéäåì synteny-áëîêè ìåæäó äâóìÿ ãåíîìàìè
Ïîñìîòðèì íà áëîêè íà êîíöàõ êîíòèãîâ
Áåäà ìîãóò áûòü íåëèíåéíûå ïåðåñòðîéêè
Äàâàéòå âîçüìåì åùå âíåøíèå ãåíîìû
È ïîïðîáóåì îöåíèòü âåðîÿòíîñòü ñëåäîâàíèÿ
ôðàãìåíòîâ
5 / 28
6. Îáùèé îáçîð ìåòîäà
Íàõîäèì synteny-ôðàãìåíòû ìåæäó
ðåôåðåíñîì è ñîáèðàåìûì ãåíîìîì
Îòñëåæèâàåì òå æå ôðàãìåíòû âî âíåøíèõ
ãåíîìàõ
Îöåíèâàåì âåðîÿòíîñòü ñëåäîâàíèÿ îäíîãî
ôðàãìåíòà ïîñëå äðóãîãî
Ïðèêðó÷èâàåì ïàðíóþ èíôîðìàöèþ
Ñòðîèì âçâåøåííûé ãðàô èç ñîåäèíåíèé
ìåæäó áëîêàìè
Âåñ ðåáðà ýòî âçâåøåííàÿ ñóììà =
âåðîÿòíîñòü + ïàðíàÿ èíôîðìàöèÿ
Áóäåì æàäíî ñêëåèâàòü êîíòèãè
6 / 28
7. Ãðàô
Ó êàæäîãî áëîêà åñòü ãîëîâà bh
è õâîñò bt
Còðîèì ãðàô, ãäå V = {bh
, bt
|b ∈ B}
Êàæäûé áëîê èìååò íîìåð ñî çíàêîì
Íîìåðà ìîæíî ïîëó÷èòü, åñëè îáîéòè ãðàô
Êàæäîå ðåáðî ýòî ïàðà (i, j), ãäå i è j ýòî
íîìåðà áëîêîâ
Ðèñ. 1: Ïðèìåð ãðàôà èç òðåõ áëîêîâ. Íîìåðà áëîêîâ
ìîæíî ïðî÷èòàòü êàê (b1, −b2, b3) ëèáî êàê (−b3, b2, −b1)
7 / 28
8. Ðåáðà
Âåñà ðåáåð îïðåäåëÿþòñÿ êàê:
w(i, j) =
1 i = −j
αProb(i, j) + (1 − α)Link(i, j) èíà÷å
Prob(i, j) ýòî àïîñòåðèîðíàÿ âåðîÿòíîñòü
ñëåäîâàíèÿ áëîêîâ i è j
Link(i, j) ýòî score ïîñ÷èòàííûé ïðè ïîìîùè
ïàðíûõ ðèäîâ
α ìîæíî îöåíèòü èñõîäÿ èç ðåàëüíûõ äàííûõ
8 / 28
10. Êàê ìû ñ÷èòàåì Prob(i, j)
Ìû ïðåäïîëàãàåì, ÷òî ó íàñ åñòü ôèëîãåíèÿ
Ñíà÷àëà ïåðåñàæèâàåì äåðåâî
Ìåæäó A1 è T äîáàâëÿåòñÿ íîâûé êîðåíü A0
t(A0, T) = t(A1, R), t(A1, A0) = 0
Ðèñ. 3: Ïåðåñàäêà äåðåâà
10 / 28
11. Êàê ìû ñ÷èòàåì Prob(i, j)
Ïóñòü â ãåíîìå T åñòü áëîê bi, òîãäà pT (i) è
sT (i) ýòî ñëåäóþùèé è ïðåäûäóùèé áëîêè
Åñëè pT (j) = i è sT (i) = j, ìû ãîâîðèì, ÷òî
bi è bj ñìåæíû â ãåíîìå T, ò.å. AT (i, j) = 1
Prob(i, j) = P(AT (i, j) = 1|DT ) =
= P(pT (j) = i|DT )P(sT (i) = j|DT )
Ïîñ÷èòàåì P(pT (j) = i|DT ) ïî ôîðìóëå
Áàéåñà:
P(pT (j) = i|DT ) =
P(DT |PT (j) = i)P(PT (j) = i)
P(DT )
11 / 28
12. Åùå îäíî ïðåäïîëîæåíèå
P(pT (j) = i|DT ) =
P(DT |pT (j) = i)P(pT (j) = i)
k P(DT |pT (j) = k)P(pT (j) = k)
Ïðåäïîëàãàåì, ÷òî âñå àïðèîðíûå âåðîÿòíîñòè
P(pT (j) = i) îäèíàêîâûå:
P(pT (j) = i|DT ) =
P(DT |pT (j) = i)
k P(DT |pT (j) = k)
Åñëè T ýòî ëèñò äåðåâà, òî ïðàâäîáèå
îïðåäåëÿåòñÿ ïðîñòî:
P(DT |pT (j) = i) =
1 pT (j) = i
0 èíà÷å
12 / 28
13. Åñëè ìû íå â ëèñòå
Åñëè T ýòî êîðåíü ïîääåðåâà ñ äâóìÿ äî÷åðíèìè
óçëàìè L è R:
P(pT (j) = i|DT ) = P(DL|pT (j) = i)P(DR|pT (j) = i) =
=
k
P(DL|pL(j) = k) P(pL(j) = k|pT (j) = k)×
×
k
P(DR|pR(j) = k) P(pR(j) = k|pT (j) = i)
P(pL(j) = k|pT (j) = k) ýòî âåðîÿòíîñòü òîãî, ÷òî
â ãåíîìå L áëîê, ñòîÿùèé ïåðåä j âäðóã çàìåíèëñÿ
íà k
13 / 28
14. Êàê îöåíèòü âåðîÿòíîñòü çàìåíû áëîêà
Ýòà âåðîÿòíîñòü îöåíèâàåòñÿ ïðè ïîìîùè ìîäåëè
ýâîëþöèè ÄÍÊ Jukes-Cantor ðàñøèðåííîé äëÿ
òî÷åê ðàçëîìà:
P(pL(j) = k|pT (j) = k) =
1
2n − 1
−
2n − 2
2n − 1
e−(2n−1)µtTL
Ãäå:
n ÷èñëî áëîêîâ
µ ïàðàìåòð ìîäåëè (äëÿ âñåõ óçëîâ îäèí)
tTL äëèíà âåòâè
14 / 28
16. Òåïåðü ñ÷èòàåì score äëÿ ïàðíîé
èíôîðìàöèè
Ðàññìîòðèì ñëó÷àé äëÿ ðàçíûõ scaold'îâ
Nir (i, j) êîëè÷åñòâî ïàðíûõ ðèäîâ,
ïðèëîæèâøèõñÿ â áëîêè i è j
Ðàññòîÿíèå íå äîëæíî ïðåâûøàòü ðàçìåð
âñòàâêè + 2SD
16 / 28
17. Ñëó÷àé îäèíàêîâûõ scaold'îâ
Íàéäåì ïàðíûå ðèäû, äèñòàíöèÿ ìåæäó
êîòîðûìè = ðàññòîÿíèå âñòàâêè +/- 2SD
Ïî ðåãèîíàì ìåæäó áëîêàìè ïðîéäåìñÿ
ñêîëüçÿùèì îêíîì
Îêíà ñ÷èòàþò ïîêðûòèå è çàåçæàþòâ áëîêè
íà Lf = 50 Kbp
Ðàçìåð îêíà Lw = 1 Kbp, ïåðåêðûòèå = Lw /2
Äëÿ êàæäîãî îêíà ñ÷èòàåì pa = ïîêðûòèå
îòíîñèòåëüíî ñðåäíåãî ïî âñåì ñêàôôîëäàì
Pia(i, j) = ìèíèìàëüíîå çíà÷åíèå pa
17 / 28
18. Òåïåðü ñ÷èòàåì Link(i, j)
Ñîáåðåì âñå â êó÷ó
Pir (i, j) çíà÷åíèå Nir (i, j) îòíîñèòåëüíî
ñðåäíåãî ïî âñåì âîçìîæíûì ðåáðàì
P(i, j) =
Pir (i, j) sf (i) = sf (j)
Pia(i, j) sf (i) = sf (j)
18 / 28
20. Ñèíòåòè÷åñêèé òåñò
Âîçüìåì äâå ÷åëîâå÷åñêèå õðîìîñîìû
Ïîïðîñèì Evolver ñãåíåðèðîâàòü íàì 12
ñèíòåòè÷åñêèõ ãåíîìîâ
Îäèí ãåíîì âñåãäà áóäåò ðåôåðåíñîì
Êàêîé-òî äðóãîé áóäåò ñîáèðàåìûì
Îñòàëüíûå áóäóò âíåøíèìè
Ðèñ. 4: Ñèíòåòè÷åñêèé òåñò
20 / 28
21. Ïîïðîáóåì óëó÷øèòü ðåàëüíûå ñáîðêè
Äàííûå îò Genome Assembly Gold-Standard
Evaluations (GAGE)
Ñåìü ñáîðîê 14-é õðîìîñîìû ÷åëîâåêà
Ìûøü è îðàíãóòàíã â êà÷åñòâå ðåôåðåíñà
Êðóïíûé ðîãàòûé ñêîò â êà÷åñòâå âíåøíåãî
ãåíîìà
21 / 28
24. Ñáîðêà ãåíîìà òèáåòñêèõ àíòèëîï
Pantholops hodgsonii; 2N = 60
Êîðîâû â êà÷åñòâå ðåôåðåíñà
×åëîâåê â ðîëè âíåøíåãî ãåíîìà
Ìèíèìàëüíûé ðàçìåð synteny-áëîêà 150
KBP
Âûáðàëè 1 434 scaold'îâ èç âñåãî 15 996
øòóê (ïîêðûòèå 96%)
Íàøëè 1 597 synteny-áëîêîâ
Ýòè áëîêè ïîêðûâàþò 95% ãåíîìà àíòèëîï,
29 êîðîâüèõ àâòîñîì è X õðîìîñîìû
Íàøëîñü 1,537 ñîåäèíåíèé ìåæäó áëîêàìè,
èç êîòîðûõ 73 áûëè íàéäåíû òîëüêî RACA
24 / 28
26. Âàëèäàöèÿ
14 ñî÷ëåíåíèé áûëè âàëèäèðîâàíû c
ïîìîùüþ PCR
Èç íèõ 11 ñãåíåðèðîâàëè åäèíñòâåííûé
ôðàãìåíò
×åòûðå PCR ïðîäóêòà áûëè î÷åíü ïîõîæè íà
ïðèìåðíûé ðàçìåð ïðîáåëà
RACA íàøëà òàêæå äâà îøèáî÷íûõ
ñîåäèíåíèÿ
PCR ïîäòâåðäèëà îøèáêó
26 / 28
27. Çàêëþ÷åíèå
Òåïåðü ó íàñ åñòü ñïîñîá ñêëåèâàòü êîíòèãè
áåç êàðòèðîâàíèÿ
Ñàìà èäåÿ èñïîëüçîâàòü íåñêîëüêî
âíåøíèõ ãåíîìîâ î÷åíü ïðèâëåêàòåëüíà
Èñïîëüçóåòñÿ èíôîðìàöèÿ èçî âñåõ ãåíîìîâ
ñðàçó
ßâíî èñïîëüçóåòñÿ ôèëîãåíåòè÷åñêîå äåðåâî
Êàê ïîêàçûâàþò ðåçóëüòàòû, RACA ðàáîòàåò
27 / 28