SlideShare a Scribd company logo
1 of 28
Download to read offline
Reference-assisted chromosome
assembly
Kim J, Larkin DM, Cai Q, Asan, Zhang Y, Ge RL, Auvil L,
Capitanu B, Zhang G, 2Lewin HA, Ma J.
PNAS USA 2013 Jan 29
Äîêëàä÷èê: Èëüÿ Ìèíêèí
ÑÏáÀÓ ÐÀÍ
27 àïðåëÿ 2013
1 / 28
Ïëàí
Ìîòèâàöèÿ
Îáùèé îáçîð ìåòîäà
Äåòàëè
Ðåçóëüòàòû
Çàêëþ÷åíèå
2 / 28
Ìîòèâàöèÿ
Ñåêâåíèðóåòñÿ âñå áîëüøå è áîëüøå ãåíîìîâ
Íå òàê ñëîæíî ïîëó÷èòü êîíòèãè
Êàê ñîáðàòü êîíòèãè â ãåíîì?
Íåîáõîäèìî ãåíîì êàðòèðîâàòü
Òðóäîåìêî è äîðîãî
Áîëü
3 / 28
Ñáîðêà ïî ðåôåðåíñó
×òî ïðåäëàãàëîñü ðàíåå:
Ëþäè ïûòàëèñü ïðèêëàäûâàòü ðèäû/êîíòèãè
ê ðåôåðåíñó
Ñêëåèâàÿ êîíòèãè è íàõîäÿ âîçìîæíûå
íåïðàâèëüíûå ñî÷ëåíåíèÿ
Íåêîòîðûå äàæå èñïîëüçóþò ôèëîãåíåòèêó
Òåì íå ìåíåå, ðåôåðåíñ ïðè ýòîì îäèí
Ëèáî èñïîëüçóþòñÿ ïîïàðíûå ñðàâíåíèÿ
4 / 28
Îáùèé îáçîð ìåòîäà
Ñðàâíèòåëüíàÿ ãåíîìèêà íàì ïîìîæåò
Âîçüìåì ðåôåðåíñ
Íàéäåì synteny-áëîêè ìåæäó äâóìÿ ãåíîìàìè
Ïîñìîòðèì íà áëîêè íà êîíöàõ êîíòèãîâ
Áåäà  ìîãóò áûòü íåëèíåéíûå ïåðåñòðîéêè
Äàâàéòå âîçüìåì åùå âíåøíèå ãåíîìû
È ïîïðîáóåì îöåíèòü âåðîÿòíîñòü ñëåäîâàíèÿ
ôðàãìåíòîâ
5 / 28
Îáùèé îáçîð ìåòîäà
Íàõîäèì synteny-ôðàãìåíòû ìåæäó
ðåôåðåíñîì è ñîáèðàåìûì ãåíîìîì
Îòñëåæèâàåì òå æå ôðàãìåíòû âî âíåøíèõ
ãåíîìàõ
Îöåíèâàåì âåðîÿòíîñòü ñëåäîâàíèÿ îäíîãî
ôðàãìåíòà ïîñëå äðóãîãî
Ïðèêðó÷èâàåì ïàðíóþ èíôîðìàöèþ
Ñòðîèì âçâåøåííûé ãðàô èç ñîåäèíåíèé
ìåæäó áëîêàìè
Âåñ ðåáðà ýòî âçâåøåííàÿ ñóììà =
âåðîÿòíîñòü + ïàðíàÿ èíôîðìàöèÿ
Áóäåì æàäíî ñêëåèâàòü êîíòèãè
6 / 28
Ãðàô
Ó êàæäîãî áëîêà åñòü ãîëîâà bh
è õâîñò bt
Còðîèì ãðàô, ãäå V = {bh
, bt
|b ∈ B}
Êàæäûé áëîê èìååò íîìåð ñî çíàêîì
Íîìåðà ìîæíî ïîëó÷èòü, åñëè îáîéòè ãðàô
Êàæäîå ðåáðî ýòî ïàðà (i, j), ãäå i è j ýòî
íîìåðà áëîêîâ
Ðèñ. 1: Ïðèìåð ãðàôà èç òðåõ áëîêîâ. Íîìåðà áëîêîâ
ìîæíî ïðî÷èòàòü êàê (b1, −b2, b3) ëèáî êàê (−b3, b2, −b1)
7 / 28
Ðåáðà
Âåñà ðåáåð îïðåäåëÿþòñÿ êàê:
w(i, j) =
1 i = −j
αProb(i, j) + (1 − α)Link(i, j) èíà÷å
Prob(i, j) ýòî àïîñòåðèîðíàÿ âåðîÿòíîñòü
ñëåäîâàíèÿ áëîêîâ i è j
Link(i, j) ýòî score ïîñ÷èòàííûé ïðè ïîìîùè
ïàðíûõ ðèäîâ
α ìîæíî îöåíèòü èñõîäÿ èç ðåàëüíûõ äàííûõ
8 / 28
Ñîäåðæàòåëüíàÿ êàðòèíêà
Ðèñ. 2: Îáçîð ìåòîäà
9 / 28
Êàê ìû ñ÷èòàåì Prob(i, j)
Ìû ïðåäïîëàãàåì, ÷òî ó íàñ åñòü ôèëîãåíèÿ
Ñíà÷àëà ïåðåñàæèâàåì äåðåâî
Ìåæäó A1 è T äîáàâëÿåòñÿ íîâûé êîðåíü A0
t(A0, T) = t(A1, R), t(A1, A0) = 0
Ðèñ. 3: Ïåðåñàäêà äåðåâà
10 / 28
Êàê ìû ñ÷èòàåì Prob(i, j)
Ïóñòü â ãåíîìå T åñòü áëîê bi, òîãäà pT (i) è
sT (i) ýòî ñëåäóþùèé è ïðåäûäóùèé áëîêè
Åñëè pT (j) = i è sT (i) = j, ìû ãîâîðèì, ÷òî
bi è bj ñìåæíû â ãåíîìå T, ò.å. AT (i, j) = 1
Prob(i, j) = P(AT (i, j) = 1|DT ) =
= P(pT (j) = i|DT )P(sT (i) = j|DT )
Ïîñ÷èòàåì P(pT (j) = i|DT ) ïî ôîðìóëå
Áàéåñà:
P(pT (j) = i|DT ) =
P(DT |PT (j) = i)P(PT (j) = i)
P(DT )
11 / 28
Åùå îäíî ïðåäïîëîæåíèå
P(pT (j) = i|DT ) =
P(DT |pT (j) = i)P(pT (j) = i)
k P(DT |pT (j) = k)P(pT (j) = k)
Ïðåäïîëàãàåì, ÷òî âñå àïðèîðíûå âåðîÿòíîñòè
P(pT (j) = i) îäèíàêîâûå:
P(pT (j) = i|DT ) =
P(DT |pT (j) = i)
k P(DT |pT (j) = k)
Åñëè T ýòî ëèñò äåðåâà, òî ïðàâäîáèå
îïðåäåëÿåòñÿ ïðîñòî:
P(DT |pT (j) = i) =
1 pT (j) = i
0 èíà÷å
12 / 28
Åñëè ìû íå â ëèñòå
Åñëè T ýòî êîðåíü ïîääåðåâà ñ äâóìÿ äî÷åðíèìè
óçëàìè L è R:
P(pT (j) = i|DT ) = P(DL|pT (j) = i)P(DR|pT (j) = i) =
=
k
P(DL|pL(j) = k) P(pL(j) = k|pT (j) = k)×
×
k
P(DR|pR(j) = k) P(pR(j) = k|pT (j) = i)
P(pL(j) = k|pT (j) = k) ýòî âåðîÿòíîñòü òîãî, ÷òî
â ãåíîìå L áëîê, ñòîÿùèé ïåðåä j âäðóã çàìåíèëñÿ
íà k
13 / 28
Êàê îöåíèòü âåðîÿòíîñòü çàìåíû áëîêà
Ýòà âåðîÿòíîñòü îöåíèâàåòñÿ ïðè ïîìîùè ìîäåëè
ýâîëþöèè ÄÍÊ Jukes-Cantor ðàñøèðåííîé äëÿ
òî÷åê ðàçëîìà:
P(pL(j) = k|pT (j) = k) =
1
2n − 1
−
2n − 2
2n − 1
e−(2n−1)µtTL
Ãäå:
n  ÷èñëî áëîêîâ
µ  ïàðàìåòð ìîäåëè (äëÿ âñåõ óçëîâ îäèí)
tTL  äëèíà âåòâè
14 / 28
Êàê óçíàòü çíà÷åíèå µ
15 / 28
Òåïåðü ñ÷èòàåì score äëÿ ïàðíîé
èíôîðìàöèè
Ðàññìîòðèì ñëó÷àé äëÿ ðàçíûõ scaold'îâ
Nir (i, j)  êîëè÷åñòâî ïàðíûõ ðèäîâ,
ïðèëîæèâøèõñÿ â áëîêè i è j
Ðàññòîÿíèå íå äîëæíî ïðåâûøàòü ðàçìåð
âñòàâêè + 2SD
16 / 28
Ñëó÷àé îäèíàêîâûõ scaold'îâ
Íàéäåì ïàðíûå ðèäû, äèñòàíöèÿ ìåæäó
êîòîðûìè = ðàññòîÿíèå âñòàâêè +/- 2SD
Ïî ðåãèîíàì ìåæäó áëîêàìè ïðîéäåìñÿ
ñêîëüçÿùèì îêíîì
Îêíà ñ÷èòàþò ïîêðûòèå è çàåçæàþòâ áëîêè
íà Lf = 50 Kbp
Ðàçìåð îêíà Lw = 1 Kbp, ïåðåêðûòèå = Lw /2
Äëÿ êàæäîãî îêíà ñ÷èòàåì pa = ïîêðûòèå
îòíîñèòåëüíî ñðåäíåãî ïî âñåì ñêàôôîëäàì
Pia(i, j) = ìèíèìàëüíîå çíà÷åíèå pa
17 / 28
Òåïåðü ñ÷èòàåì Link(i, j)
Ñîáåðåì âñå â êó÷ó
Pir (i, j)  çíà÷åíèå Nir (i, j) îòíîñèòåëüíî
ñðåäíåãî ïî âñåì âîçìîæíûì ðåáðàì
P(i, j) =
Pir (i, j) sf (i) = sf (j)
Pia(i, j) sf (i) = sf (j)
18 / 28
Ñêëåèâàåì êîíòèãè íàïðàâî è íàëåâî
19 / 28
Ñèíòåòè÷åñêèé òåñò
Âîçüìåì äâå ÷åëîâå÷åñêèå õðîìîñîìû
Ïîïðîñèì Evolver ñãåíåðèðîâàòü íàì 12
ñèíòåòè÷åñêèõ ãåíîìîâ
Îäèí ãåíîì âñåãäà áóäåò ðåôåðåíñîì
Êàêîé-òî äðóãîé áóäåò ñîáèðàåìûì
Îñòàëüíûå áóäóò âíåøíèìè
Ðèñ. 4: Ñèíòåòè÷åñêèé òåñò
20 / 28
Ïîïðîáóåì óëó÷øèòü ðåàëüíûå ñáîðêè
Äàííûå îò Genome Assembly Gold-Standard
Evaluations (GAGE)
Ñåìü ñáîðîê 14-é õðîìîñîìû ÷åëîâåêà
Ìûøü è îðàíãóòàíã â êà÷åñòâå ðåôåðåíñà
Êðóïíûé ðîãàòûé ñêîò â êà÷åñòâå âíåøíåãî
ãåíîìà
21 / 28
Óëó÷øàåì ðåàëüíûå ñáîðêè
22 / 28
Íå âñå ðåôåðåíñû îäèíàêîâî ïîëåçíû
23 / 28
Ñáîðêà ãåíîìà òèáåòñêèõ àíòèëîï
Pantholops hodgsonii; 2N = 60
Êîðîâû â êà÷åñòâå ðåôåðåíñà
×åëîâåê â ðîëè âíåøíåãî ãåíîìà
Ìèíèìàëüíûé ðàçìåð synteny-áëîêà  150
KBP
Âûáðàëè 1 434 scaold'îâ èç âñåãî 15 996
øòóê (ïîêðûòèå 96%)
Íàøëè 1 597 synteny-áëîêîâ
Ýòè áëîêè ïîêðûâàþò 95% ãåíîìà àíòèëîï,
29 êîðîâüèõ àâòîñîì è X õðîìîñîìû
Íàøëîñü 1,537 ñîåäèíåíèé ìåæäó áëîêàìè,
èç êîòîðûõ 73 áûëè íàéäåíû òîëüêî RACA
24 / 28
Ðåçóëüòàòû
25 / 28
Âàëèäàöèÿ
14 ñî÷ëåíåíèé áûëè âàëèäèðîâàíû c
ïîìîùüþ PCR
Èç íèõ 11 ñãåíåðèðîâàëè åäèíñòâåííûé
ôðàãìåíò
×åòûðå PCR ïðîäóêòà áûëè î÷åíü ïîõîæè íà
ïðèìåðíûé ðàçìåð ïðîáåëà
RACA íàøëà òàêæå äâà îøèáî÷íûõ
ñîåäèíåíèÿ
PCR ïîäòâåðäèëà îøèáêó
26 / 28
Çàêëþ÷åíèå
Òåïåðü ó íàñ åñòü ñïîñîá ñêëåèâàòü êîíòèãè
áåç êàðòèðîâàíèÿ
Ñàìà èäåÿ  èñïîëüçîâàòü íåñêîëüêî
âíåøíèõ ãåíîìîâ î÷åíü ïðèâëåêàòåëüíà
Èñïîëüçóåòñÿ èíôîðìàöèÿ èçî âñåõ ãåíîìîâ
ñðàçó
ßâíî èñïîëüçóåòñÿ ôèëîãåíåòè÷åñêîå äåðåâî
Êàê ïîêàçûâàþò ðåçóëüòàòû, RACA ðàáîòàåò
27 / 28
Ñïàñèáî çà âíèìàíèå!
28 / 28

More Related Content

What's hot

20101021 proof complexity_hirsch_lecture05
20101021 proof complexity_hirsch_lecture0520101021 proof complexity_hirsch_lecture05
20101021 proof complexity_hirsch_lecture05
Computer Science Club
 
гдз. 1 класс. к учебн. дорофеева, миракова 2011 104с
гдз. 1 класс. к учебн. дорофеева, миракова 2011  104сгдз. 1 класс. к учебн. дорофеева, миракова 2011  104с
гдз. 1 класс. к учебн. дорофеева, миракова 2011 104с
Сергей Лыжин
 
Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷
Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷
Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷
zaluu_medleg
 
ÕÝÂÐÝÃØÈË
ÕÝÂÐÝÃØÈËÕÝÂÐÝÃØÈË
ÕÝÂÐÝÃØÈË
zaluu_medleg
 
Garin awlaga mate
Garin awlaga mateGarin awlaga mate
Garin awlaga mate
talst_bolor
 
Д. М. Ицыксон. Вводный курс. Лекция 2
Д. М. Ицыксон. Вводный курс. Лекция 2Д. М. Ицыксон. Вводный курс. Лекция 2
Д. М. Ицыксон. Вводный курс. Лекция 2
Computer Science Club
 
тоон дараалал
тоон дараалалтоон дараалал
тоон дараалал
enkhtuya_od
 

What's hot (12)

Bodloguud
BodloguudBodloguud
Bodloguud
 
2013 03 17_computer_science_seminar
2013 03 17_computer_science_seminar2013 03 17_computer_science_seminar
2013 03 17_computer_science_seminar
 
20101021 proof complexity_hirsch_lecture05
20101021 proof complexity_hirsch_lecture0520101021 proof complexity_hirsch_lecture05
20101021 proof complexity_hirsch_lecture05
 
гдз. 1 класс. к учебн. дорофеева, миракова 2011 104с
гдз. 1 класс. к учебн. дорофеева, миракова 2011  104сгдз. 1 класс. к учебн. дорофеева, миракова 2011  104с
гдз. 1 класс. к учебн. дорофеева, миракова 2011 104с
 
Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷
Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷
Òðàíñôîðìàòîðûí îðóóëãûí á¿ä¿¿â÷
 
ÕÝÂÐÝÃØÈË
ÕÝÂÐÝÃØÈËÕÝÂÐÝÃØÈË
ÕÝÂÐÝÃØÈË
 
решебник и гдз по математике за 1 класс моро, 2011 год
решебник и гдз по математике за 1 класс   моро, 2011 годрешебник и гдз по математике за 1 класс   моро, 2011 год
решебник и гдз по математике за 1 класс моро, 2011 год
 
Garin awlaga mate
Garin awlaga mateGarin awlaga mate
Garin awlaga mate
 
Д. М. Ицыксон. Вводный курс. Лекция 2
Д. М. Ицыксон. Вводный курс. Лекция 2Д. М. Ицыксон. Вводный курс. Лекция 2
Д. М. Ицыксон. Вводный курс. Лекция 2
 
TMPA-2015: The Verification of Functional Programs by Applying Statechart Dia...
TMPA-2015: The Verification of Functional Programs by Applying Statechart Dia...TMPA-2015: The Verification of Functional Programs by Applying Statechart Dia...
TMPA-2015: The Verification of Functional Programs by Applying Statechart Dia...
 
Keisuud
KeisuudKeisuud
Keisuud
 
тоон дараалал
тоон дараалалтоон дараалал
тоон дараалал
 

Viewers also liked

Vien tham - 9 chuyen doi anh - c
Vien tham - 9 chuyen doi anh - cVien tham - 9 chuyen doi anh - c
Vien tham - 9 chuyen doi anh - c
ttungbmt
 
Vien tham - 10 phan loai anh - b
Vien tham - 10   phan loai anh - bVien tham - 10   phan loai anh - b
Vien tham - 10 phan loai anh - b
ttungbmt
 
Vien tham - 9 chuyen doi anh - a
Vien tham - 9 chuyen doi anh - aVien tham - 9 chuyen doi anh - a
Vien tham - 9 chuyen doi anh - a
ttungbmt
 
Vien tham - 9 chuyen doi anh - b
Vien tham - 9 chuyen doi anh - bVien tham - 9 chuyen doi anh - b
Vien tham - 9 chuyen doi anh - b
ttungbmt
 
Vien tham - 10 phan loai anh - a
Vien tham - 10 phan loai anh - aVien tham - 10 phan loai anh - a
Vien tham - 10 phan loai anh - a
ttungbmt
 
Vien tham - 8 tien xu ly anh
Vien tham - 8 tien xu ly anhVien tham - 8 tien xu ly anh
Vien tham - 8 tien xu ly anh
ttungbmt
 
Vien tham - 5 du lieu vien tham
Vien tham - 5 du lieu vien thamVien tham - 5 du lieu vien tham
Vien tham - 5 du lieu vien tham
ttungbmt
 
Vien tham - 0 tong quan
Vien tham - 0 tong quanVien tham - 0 tong quan
Vien tham - 0 tong quan
ttungbmt
 
Vien tham - 7 he thong xu ly anh vien tham
Vien tham - 7 he thong xu ly anh vien thamVien tham - 7 he thong xu ly anh vien tham
Vien tham - 7 he thong xu ly anh vien tham
ttungbmt
 
Vien tham - 6 giai doan anh
Vien tham - 6 giai doan anhVien tham - 6 giai doan anh
Vien tham - 6 giai doan anh
ttungbmt
 
Vien tham - 4 ve tinh vien tham
Vien tham - 4 ve tinh vien thamVien tham - 4 ve tinh vien tham
Vien tham - 4 ve tinh vien tham
ttungbmt
 
Phan 2 chuong 6 - vien tham ve tinh
Phan 2   chuong 6 - vien tham ve tinhPhan 2   chuong 6 - vien tham ve tinh
Phan 2 chuong 6 - vien tham ve tinh
bien14
 
đặC điểm của các đối tượng tự nhiên trên ảnh viễn thám
đặC điểm của các đối tượng tự nhiên trên ảnh viễn thámđặC điểm của các đối tượng tự nhiên trên ảnh viễn thám
đặC điểm của các đối tượng tự nhiên trên ảnh viễn thám
Đặng Hoàng
 
Bài giảng viễn thám
Bài giảng viễn thámBài giảng viễn thám
Bài giảng viễn thám
trankha8792
 

Viewers also liked (18)

Robot using Kinect
Robot using KinectRobot using Kinect
Robot using Kinect
 
Hoang Long_CV
Hoang Long_CVHoang Long_CV
Hoang Long_CV
 
Vien tham - 9 chuyen doi anh - c
Vien tham - 9 chuyen doi anh - cVien tham - 9 chuyen doi anh - c
Vien tham - 9 chuyen doi anh - c
 
Vien tham - 10 phan loai anh - b
Vien tham - 10   phan loai anh - bVien tham - 10   phan loai anh - b
Vien tham - 10 phan loai anh - b
 
San pham 2
San pham 2San pham 2
San pham 2
 
Vien tham - 9 chuyen doi anh - a
Vien tham - 9 chuyen doi anh - aVien tham - 9 chuyen doi anh - a
Vien tham - 9 chuyen doi anh - a
 
Vien tham - 9 chuyen doi anh - b
Vien tham - 9 chuyen doi anh - bVien tham - 9 chuyen doi anh - b
Vien tham - 9 chuyen doi anh - b
 
Vien tham - 10 phan loai anh - a
Vien tham - 10 phan loai anh - aVien tham - 10 phan loai anh - a
Vien tham - 10 phan loai anh - a
 
Vien tham - 8 tien xu ly anh
Vien tham - 8 tien xu ly anhVien tham - 8 tien xu ly anh
Vien tham - 8 tien xu ly anh
 
Vien tham - 5 du lieu vien tham
Vien tham - 5 du lieu vien thamVien tham - 5 du lieu vien tham
Vien tham - 5 du lieu vien tham
 
Vien tham - 0 tong quan
Vien tham - 0 tong quanVien tham - 0 tong quan
Vien tham - 0 tong quan
 
Phan 2 chuong 5 - giai doan anh
Phan 2   chuong 5 - giai doan anhPhan 2   chuong 5 - giai doan anh
Phan 2 chuong 5 - giai doan anh
 
Vien tham - 7 he thong xu ly anh vien tham
Vien tham - 7 he thong xu ly anh vien thamVien tham - 7 he thong xu ly anh vien tham
Vien tham - 7 he thong xu ly anh vien tham
 
Vien tham - 6 giai doan anh
Vien tham - 6 giai doan anhVien tham - 6 giai doan anh
Vien tham - 6 giai doan anh
 
Vien tham - 4 ve tinh vien tham
Vien tham - 4 ve tinh vien thamVien tham - 4 ve tinh vien tham
Vien tham - 4 ve tinh vien tham
 
Phan 2 chuong 6 - vien tham ve tinh
Phan 2   chuong 6 - vien tham ve tinhPhan 2   chuong 6 - vien tham ve tinh
Phan 2 chuong 6 - vien tham ve tinh
 
đặC điểm của các đối tượng tự nhiên trên ảnh viễn thám
đặC điểm của các đối tượng tự nhiên trên ảnh viễn thámđặC điểm của các đối tượng tự nhiên trên ảnh viễn thám
đặC điểm của các đối tượng tự nhiên trên ảnh viễn thám
 
Bài giảng viễn thám
Bài giảng viễn thámBài giảng viễn thám
Bài giảng viễn thám
 

More from BioinformaticsInstitute

Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
BioinformaticsInstitute
 
Knime & bioinformatics
Knime & bioinformaticsKnime & bioinformatics
Knime & bioinformatics
BioinformaticsInstitute
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус
BioinformaticsInstitute
 
Плюрипотентность 101
Плюрипотентность 101Плюрипотентность 101
Плюрипотентность 101
BioinformaticsInstitute
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
BioinformaticsInstitute
 

More from BioinformaticsInstitute (20)

Graph genome
Graph genome Graph genome
Graph genome
 
Nanopores sequencing
Nanopores sequencingNanopores sequencing
Nanopores sequencing
 
A superglue for string comparison
A superglue for string comparisonA superglue for string comparison
A superglue for string comparison
 
Comparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsComparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphs
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 
Вперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкВперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днк
 
Knime & bioinformatics
Knime & bioinformaticsKnime & bioinformatics
Knime & bioinformatics
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус
 
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
 
Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)
 
Плюрипотентность 101
Плюрипотентность 101Плюрипотентность 101
Плюрипотентность 101
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
 
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
 
Biodb 2011-everything
Biodb 2011-everythingBiodb 2011-everything
Biodb 2011-everything
 
Biodb 2011-05
Biodb 2011-05Biodb 2011-05
Biodb 2011-05
 
Biodb 2011-04
Biodb 2011-04Biodb 2011-04
Biodb 2011-04
 
Biodb 2011-03
Biodb 2011-03Biodb 2011-03
Biodb 2011-03
 
Biodb 2011-01
Biodb 2011-01Biodb 2011-01
Biodb 2011-01
 
Biodb 2011-02
Biodb 2011-02Biodb 2011-02
Biodb 2011-02
 
Ngs 3 1
Ngs 3 1Ngs 3 1
Ngs 3 1
 

Slides -i._minkin

  • 1. Reference-assisted chromosome assembly Kim J, Larkin DM, Cai Q, Asan, Zhang Y, Ge RL, Auvil L, Capitanu B, Zhang G, 2Lewin HA, Ma J. PNAS USA 2013 Jan 29 Äîêëàä÷èê: Èëüÿ Ìèíêèí ÑÏáÀÓ ÐÀÍ 27 àïðåëÿ 2013 1 / 28
  • 3. Ìîòèâàöèÿ Ñåêâåíèðóåòñÿ âñå áîëüøå è áîëüøå ãåíîìîâ Íå òàê ñëîæíî ïîëó÷èòü êîíòèãè Êàê ñîáðàòü êîíòèãè â ãåíîì? Íåîáõîäèìî ãåíîì êàðòèðîâàòü Òðóäîåìêî è äîðîãî Áîëü 3 / 28
  • 4. Ñáîðêà ïî ðåôåðåíñó ×òî ïðåäëàãàëîñü ðàíåå: Ëþäè ïûòàëèñü ïðèêëàäûâàòü ðèäû/êîíòèãè ê ðåôåðåíñó Ñêëåèâàÿ êîíòèãè è íàõîäÿ âîçìîæíûå íåïðàâèëüíûå ñî÷ëåíåíèÿ Íåêîòîðûå äàæå èñïîëüçóþò ôèëîãåíåòèêó Òåì íå ìåíåå, ðåôåðåíñ ïðè ýòîì îäèí Ëèáî èñïîëüçóþòñÿ ïîïàðíûå ñðàâíåíèÿ 4 / 28
  • 5. Îáùèé îáçîð ìåòîäà Ñðàâíèòåëüíàÿ ãåíîìèêà íàì ïîìîæåò Âîçüìåì ðåôåðåíñ Íàéäåì synteny-áëîêè ìåæäó äâóìÿ ãåíîìàìè Ïîñìîòðèì íà áëîêè íà êîíöàõ êîíòèãîâ Áåäà ìîãóò áûòü íåëèíåéíûå ïåðåñòðîéêè Äàâàéòå âîçüìåì åùå âíåøíèå ãåíîìû È ïîïðîáóåì îöåíèòü âåðîÿòíîñòü ñëåäîâàíèÿ ôðàãìåíòîâ 5 / 28
  • 6. Îáùèé îáçîð ìåòîäà Íàõîäèì synteny-ôðàãìåíòû ìåæäó ðåôåðåíñîì è ñîáèðàåìûì ãåíîìîì Îòñëåæèâàåì òå æå ôðàãìåíòû âî âíåøíèõ ãåíîìàõ Îöåíèâàåì âåðîÿòíîñòü ñëåäîâàíèÿ îäíîãî ôðàãìåíòà ïîñëå äðóãîãî Ïðèêðó÷èâàåì ïàðíóþ èíôîðìàöèþ Ñòðîèì âçâåøåííûé ãðàô èç ñîåäèíåíèé ìåæäó áëîêàìè Âåñ ðåáðà ýòî âçâåøåííàÿ ñóììà = âåðîÿòíîñòü + ïàðíàÿ èíôîðìàöèÿ Áóäåì æàäíî ñêëåèâàòü êîíòèãè 6 / 28
  • 7. Ãðàô Ó êàæäîãî áëîêà åñòü ãîëîâà bh è õâîñò bt Còðîèì ãðàô, ãäå V = {bh , bt |b ∈ B} Êàæäûé áëîê èìååò íîìåð ñî çíàêîì Íîìåðà ìîæíî ïîëó÷èòü, åñëè îáîéòè ãðàô Êàæäîå ðåáðî ýòî ïàðà (i, j), ãäå i è j ýòî íîìåðà áëîêîâ Ðèñ. 1: Ïðèìåð ãðàôà èç òðåõ áëîêîâ. Íîìåðà áëîêîâ ìîæíî ïðî÷èòàòü êàê (b1, −b2, b3) ëèáî êàê (−b3, b2, −b1) 7 / 28
  • 8. Ðåáðà Âåñà ðåáåð îïðåäåëÿþòñÿ êàê: w(i, j) = 1 i = −j αProb(i, j) + (1 − α)Link(i, j) èíà÷å Prob(i, j) ýòî àïîñòåðèîðíàÿ âåðîÿòíîñòü ñëåäîâàíèÿ áëîêîâ i è j Link(i, j) ýòî score ïîñ÷èòàííûé ïðè ïîìîùè ïàðíûõ ðèäîâ α ìîæíî îöåíèòü èñõîäÿ èç ðåàëüíûõ äàííûõ 8 / 28
  • 10. Êàê ìû ñ÷èòàåì Prob(i, j) Ìû ïðåäïîëàãàåì, ÷òî ó íàñ åñòü ôèëîãåíèÿ Ñíà÷àëà ïåðåñàæèâàåì äåðåâî Ìåæäó A1 è T äîáàâëÿåòñÿ íîâûé êîðåíü A0 t(A0, T) = t(A1, R), t(A1, A0) = 0 Ðèñ. 3: Ïåðåñàäêà äåðåâà 10 / 28
  • 11. Êàê ìû ñ÷èòàåì Prob(i, j) Ïóñòü â ãåíîìå T åñòü áëîê bi, òîãäà pT (i) è sT (i) ýòî ñëåäóþùèé è ïðåäûäóùèé áëîêè Åñëè pT (j) = i è sT (i) = j, ìû ãîâîðèì, ÷òî bi è bj ñìåæíû â ãåíîìå T, ò.å. AT (i, j) = 1 Prob(i, j) = P(AT (i, j) = 1|DT ) = = P(pT (j) = i|DT )P(sT (i) = j|DT ) Ïîñ÷èòàåì P(pT (j) = i|DT ) ïî ôîðìóëå Áàéåñà: P(pT (j) = i|DT ) = P(DT |PT (j) = i)P(PT (j) = i) P(DT ) 11 / 28
  • 12. Åùå îäíî ïðåäïîëîæåíèå P(pT (j) = i|DT ) = P(DT |pT (j) = i)P(pT (j) = i) k P(DT |pT (j) = k)P(pT (j) = k) Ïðåäïîëàãàåì, ÷òî âñå àïðèîðíûå âåðîÿòíîñòè P(pT (j) = i) îäèíàêîâûå: P(pT (j) = i|DT ) = P(DT |pT (j) = i) k P(DT |pT (j) = k) Åñëè T ýòî ëèñò äåðåâà, òî ïðàâäîáèå îïðåäåëÿåòñÿ ïðîñòî: P(DT |pT (j) = i) = 1 pT (j) = i 0 èíà÷å 12 / 28
  • 13. Åñëè ìû íå â ëèñòå Åñëè T ýòî êîðåíü ïîääåðåâà ñ äâóìÿ äî÷åðíèìè óçëàìè L è R: P(pT (j) = i|DT ) = P(DL|pT (j) = i)P(DR|pT (j) = i) = = k P(DL|pL(j) = k) P(pL(j) = k|pT (j) = k)× × k P(DR|pR(j) = k) P(pR(j) = k|pT (j) = i) P(pL(j) = k|pT (j) = k) ýòî âåðîÿòíîñòü òîãî, ÷òî â ãåíîìå L áëîê, ñòîÿùèé ïåðåä j âäðóã çàìåíèëñÿ íà k 13 / 28
  • 14. Êàê îöåíèòü âåðîÿòíîñòü çàìåíû áëîêà Ýòà âåðîÿòíîñòü îöåíèâàåòñÿ ïðè ïîìîùè ìîäåëè ýâîëþöèè ÄÍÊ Jukes-Cantor ðàñøèðåííîé äëÿ òî÷åê ðàçëîìà: P(pL(j) = k|pT (j) = k) = 1 2n − 1 − 2n − 2 2n − 1 e−(2n−1)µtTL Ãäå: n ÷èñëî áëîêîâ µ ïàðàìåòð ìîäåëè (äëÿ âñåõ óçëîâ îäèí) tTL äëèíà âåòâè 14 / 28
  • 16. Òåïåðü ñ÷èòàåì score äëÿ ïàðíîé èíôîðìàöèè Ðàññìîòðèì ñëó÷àé äëÿ ðàçíûõ scaold'îâ Nir (i, j) êîëè÷åñòâî ïàðíûõ ðèäîâ, ïðèëîæèâøèõñÿ â áëîêè i è j Ðàññòîÿíèå íå äîëæíî ïðåâûøàòü ðàçìåð âñòàâêè + 2SD 16 / 28
  • 17. Ñëó÷àé îäèíàêîâûõ scaold'îâ Íàéäåì ïàðíûå ðèäû, äèñòàíöèÿ ìåæäó êîòîðûìè = ðàññòîÿíèå âñòàâêè +/- 2SD Ïî ðåãèîíàì ìåæäó áëîêàìè ïðîéäåìñÿ ñêîëüçÿùèì îêíîì Îêíà ñ÷èòàþò ïîêðûòèå è çàåçæàþòâ áëîêè íà Lf = 50 Kbp Ðàçìåð îêíà Lw = 1 Kbp, ïåðåêðûòèå = Lw /2 Äëÿ êàæäîãî îêíà ñ÷èòàåì pa = ïîêðûòèå îòíîñèòåëüíî ñðåäíåãî ïî âñåì ñêàôôîëäàì Pia(i, j) = ìèíèìàëüíîå çíà÷åíèå pa 17 / 28
  • 18. Òåïåðü ñ÷èòàåì Link(i, j) Ñîáåðåì âñå â êó÷ó Pir (i, j) çíà÷åíèå Nir (i, j) îòíîñèòåëüíî ñðåäíåãî ïî âñåì âîçìîæíûì ðåáðàì P(i, j) = Pir (i, j) sf (i) = sf (j) Pia(i, j) sf (i) = sf (j) 18 / 28
  • 20. Ñèíòåòè÷åñêèé òåñò Âîçüìåì äâå ÷åëîâå÷åñêèå õðîìîñîìû Ïîïðîñèì Evolver ñãåíåðèðîâàòü íàì 12 ñèíòåòè÷åñêèõ ãåíîìîâ Îäèí ãåíîì âñåãäà áóäåò ðåôåðåíñîì Êàêîé-òî äðóãîé áóäåò ñîáèðàåìûì Îñòàëüíûå áóäóò âíåøíèìè Ðèñ. 4: Ñèíòåòè÷åñêèé òåñò 20 / 28
  • 21. Ïîïðîáóåì óëó÷øèòü ðåàëüíûå ñáîðêè Äàííûå îò Genome Assembly Gold-Standard Evaluations (GAGE) Ñåìü ñáîðîê 14-é õðîìîñîìû ÷åëîâåêà Ìûøü è îðàíãóòàíã â êà÷åñòâå ðåôåðåíñà Êðóïíûé ðîãàòûé ñêîò â êà÷åñòâå âíåøíåãî ãåíîìà 21 / 28
  • 23. Íå âñå ðåôåðåíñû îäèíàêîâî ïîëåçíû 23 / 28
  • 24. Ñáîðêà ãåíîìà òèáåòñêèõ àíòèëîï Pantholops hodgsonii; 2N = 60 Êîðîâû â êà÷åñòâå ðåôåðåíñà ×åëîâåê â ðîëè âíåøíåãî ãåíîìà Ìèíèìàëüíûé ðàçìåð synteny-áëîêà 150 KBP Âûáðàëè 1 434 scaold'îâ èç âñåãî 15 996 øòóê (ïîêðûòèå 96%) Íàøëè 1 597 synteny-áëîêîâ Ýòè áëîêè ïîêðûâàþò 95% ãåíîìà àíòèëîï, 29 êîðîâüèõ àâòîñîì è X õðîìîñîìû Íàøëîñü 1,537 ñîåäèíåíèé ìåæäó áëîêàìè, èç êîòîðûõ 73 áûëè íàéäåíû òîëüêî RACA 24 / 28
  • 26. Âàëèäàöèÿ 14 ñî÷ëåíåíèé áûëè âàëèäèðîâàíû c ïîìîùüþ PCR Èç íèõ 11 ñãåíåðèðîâàëè åäèíñòâåííûé ôðàãìåíò ×åòûðå PCR ïðîäóêòà áûëè î÷åíü ïîõîæè íà ïðèìåðíûé ðàçìåð ïðîáåëà RACA íàøëà òàêæå äâà îøèáî÷íûõ ñîåäèíåíèÿ PCR ïîäòâåðäèëà îøèáêó 26 / 28
  • 27. Çàêëþ÷åíèå Òåïåðü ó íàñ åñòü ñïîñîá ñêëåèâàòü êîíòèãè áåç êàðòèðîâàíèÿ Ñàìà èäåÿ èñïîëüçîâàòü íåñêîëüêî âíåøíèõ ãåíîìîâ î÷åíü ïðèâëåêàòåëüíà Èñïîëüçóåòñÿ èíôîðìàöèÿ èçî âñåõ ãåíîìîâ ñðàçó ßâíî èñïîëüçóåòñÿ ôèëîãåíåòè÷åñêîå äåðåâî Êàê ïîêàçûâàþò ðåçóëüòàòû, RACA ðàáîòàåò 27 / 28