Your SlideShare is downloading. ×
20121007 algorithmsinbioinformatics vyahhi_lecture04_0
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

20121007 algorithmsinbioinformatics vyahhi_lecture04_0

320

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
320
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Графы Николай Вяххи vyahhi@bioinf.spbau.ru Computer Science клуб Екатеринбург, 2012воскресенье, 7 октября 12 г.
  • 2. Центральная Догмавоскресенье, 7 октября 12 г.
  • 3. Омикивоскресенье, 7 октября 12 г.
  • 4. Что мы узнали • Редакционное расстояние • Глобальное и локальное выравнивание • Аффинная модель вставки • Всё за O(N )2 • Множественное выравнивание • Геномные перестройкивоскресенье, 7 октября 12 г.
  • 5. Что мы узнали • Поиск подстроки в строке • Таблица К-меров • Суффиксное дерево, массив • BLASTвоскресенье, 7 октября 12 г.
  • 6. Графы Николай Вяххи vyahhi@bioinf.spbau.ru Computer Science клуб Екатеринбург, 2012воскресенье, 7 октября 12 г.
  • 7. Линейность геномавоскресенье, 7 октября 12 г.
  • 8. Граф интерваловвоскресенье, 7 октября 12 г.
  • 9. Граф интерваловвоскресенье, 7 октября 12 г.
  • 10. Граф интерваловвоскресенье, 7 октября 12 г.
  • 11. Граф интерваловвоскресенье, 7 октября 12 г.
  • 12. Линейность генов Линейный Нелинейныйвоскресенье, 7 октября 12 г.
  • 13. Микрочипывоскресенье, 7 октября 12 г.
  • 14. Микрочипывоскресенье, 7 октября 12 г.
  • 15. Секвенирование Видовое секвенирование: определить «общий геном» вида. Индивидуальное секвенирование: определить, насколько индивидуум отличается от вида.воскресенье, 7 октября 12 г.
  • 16. Зачем? Видовое cеквенирование: • Сравнить различные виды (например, человек и шимпанзе) • Понять, как функционируют гены (например, какие гены важны для развития головного мозга). • Выявить эволюционное родство между видами. • Определить генетический состав предков.воскресенье, 7 октября 12 г.
  • 17. Зачем? Индивидуальное секвенирование: • Открытие генетической основы заболеваний. • Судебные исследования.воскресенье, 7 октября 12 г.
  • 18. Краткая история Конец 1970-х: Уолтер Гилберт и Фредерик Сэнгер развивают независимые методы секвенирования. 1980: Они получают Нобелевскую премию по химии. Их методы выявления последовательности слишком дороги для больших геномов.воскресенье, 7 октября 12 г.
  • 19. Краткая история 1990: Общественный проект «Человеческий геном», возглавляемый Фрэнсисом Коллинзом, задаётся целью расшифровать человеческий геном. 1997: Крейг Вентер создаёт частную компанию «Celera Genomics» с той же целью.воскресенье, 7 октября 12 г.
  • 20. Краткая история 2000: Черновой вариант человеческого генома одновременно завершён (общественным) проектом «Человеческий геном» и (частной) компанией Celera Genomics.воскресенье, 7 октября 12 г.
  • 21. воскресенье, 7 октября 12 г.
  • 22. Персональная геномка 2000-е: Компании запускают проекты с целью на порядок уменьшить затраты на секвенирование. 2010: Рождается рынок приборов, секвенирующих геном: • Illumina уменьшает стоимость секвенирования индивидуального человеческого генома с 3 миллиардов долларов до 10 тысяч. • Complete Genomics строит в Кремниевой долине предприятие по секвенированию с производительностью сотни геномов в месяц. • Beijing Genomic Institute заказывает сотни секвенирующих машин, становясь крупнейшим секвенирующим центром в мире. • 23andMe предлагает частичное чтение последовательности генома за 499 долларов (1M позиций).воскресенье, 7 октября 12 г.
  • 23. Будущее Секвенирование человеческого генома за 1000 долларов может стать реальностью уже в 2013-14 году. Cеквенирование индивидуального генома вскоре станет таким же рутинным делом, как рентгеновский снимок.воскресенье, 7 октября 12 г.
  • 24. Объемы данных Beijing Genomics Institute, based in China, is the world’s largest genomics research institute, with 167 DNA sequencers producing the equivalent of 2,000 human genomes a day. BGI churns out so much data that it often cannot transmit its results to clients or collaborators over the Internet or other communications lines because that would take weeks. Instead, it sends computer disks containing the data, via FedEx. The New York Times, 30 Nov 2011воскресенье, 7 октября 12 г.
  • 25. Объемы данных 2124 секвенирующих машин в 764 центрах (omicsmaps.com): • 621, Illumina HiSeq 2000 • 532, Illumina Genome Analyser 2x • 348, ABI SOLiD • 320, Roche 454 • 167, Ion Torrent • 76, Illumina MiSeq • 39, Pacific Biosciencesвоскресенье, 7 октября 12 г.
  • 26. Illumina HiSeq 2000/2500: 600Gb / 11 days HiSeq 2500: 120Gb / 27 hвоскресенье, 7 октября 12 г.
  • 27. Объемы данных 621 Illumina HiSeq 2000 = 33.8 Tb / day = 12 Pb / year Лучшее хранилище ДНК — холодильник.воскресенье, 7 октября 12 г.
  • 28. BGIвоскресенье, 7 октября 12 г.
  • 29. 1000genomes.org > 2500 геномов людей было прочитано 249 TB сжатых данных (FASTQs, BAMs,VCFs) ftp://ftp.1000genomes.ebi.ac.uk, s3://1000genomes 29 Oct 2009 (pilot): • 24581 CPU-days = 67 CPU-years • Full production project is >10 times more data than the pilot.воскресенье, 7 октября 12 г.
  • 30. Genome10K.orgвоскресенье, 7 октября 12 г.
  • 31. Секвенирование Чтение фрагментов (лабораторная): Считать множество фрагментов из многих копий одного генома. Сборка фрагментов (вычислительная): Собрать геном из этих ридов с помощью алгоритмов.воскресенье, 7 октября 12 г.
  • 32. Next Gen Sequencingвоскресенье, 7 октября 12 г.
  • 33. Исправление ошибоквоскресенье, 7 октября 12 г.
  • 34. Исправление ошибоквоскресенье, 7 октября 12 г.
  • 35. Исправление ошибоквоскресенье, 7 октября 12 г.
  • 36. Сборкавоскресенье, 7 октября 12 г.
  • 37. Сборка By reference (Индивидуум) De novo (Новые виды) Assisted assembly (Похожие виды)воскресенье, 7 октября 12 г.
  • 38. SNP SNP — Single Nucleotide Polymorphism. Indel — insertion или deletion. dbSNP — база данных известных SNP.воскресенье, 7 октября 12 г.
  • 39. По референсувоскресенье, 7 октября 12 г.
  • 40. Де ново Overlap Graphs de Bruijn Graphsвоскресенье, 7 октября 12 г.
  • 41. TSP overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2.воскресенье, 7 октября 12 г.
  • 42. TSP overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2. Вершины — строки. Рёбра — перекрытия.воскресенье, 7 октября 12 г.
  • 43. TSP overlap(s1, s2) — длина максимального суффикса s1 равного префиксу s2. Вершины — строки. Рёбра — перекрытия. Travelling salesman problem (NP-hard)!воскресенье, 7 октября 12 г.
  • 44. Спектр Спектр: мультимножество К-меров из строки. Spectrum(TATGGTGC, 3) = {TAT, ATG, TGG, GGT, GTG, TGC} Spectrum(GTATCT, 2) = Spectrum(GTCTAT, 2) = {AT, CT, GT, TA, TC}воскресенье, 7 октября 12 г.
  • 45. Задача Дано: Spectrum(Genome, K) Найти: Genomeвоскресенье, 7 октября 12 г.
  • 46. Overlap Graph Вершины: K-меры Рёбра: (K-1)-мерывоскресенье, 7 октября 12 г.
  • 47. Overlap Graph Вершины: K-меры Рёбра: (K-1)-меры { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}воскресенье, 7 октября 12 г.
  • 48. Overlap Graph Вершины: K-меры Рёбра: (K-1)-меры { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT} Hamiltonian path problem (NP-complete)!воскресенье, 7 октября 12 г.
  • 49. de Bruijn Graphвоскресенье, 7 октября 12 г.
  • 50. de Bruijn Graph Вершины: (K-1)-меры Рёбра: K-мерывоскресенье, 7 октября 12 г.
  • 51. de Bruijn Graph Вершины: (K-1)-меры Рёбра: K-меры { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT}воскресенье, 7 октября 12 г.
  • 52. de Bruijn Graph Вершины: (K-1)-меры Рёбра: K-меры { ATG, TGG, TGC, GTG, GGC, GCA, GCG, CGT} Eulerian path problem (linear)!воскресенье, 7 октября 12 г.
  • 53. Снова ошибки К = ??? Tips Bulges (bubbles) Химерические фрагментывоскресенье, 7 октября 12 г.
  • 54. Assisted Assemblyвоскресенье, 7 октября 12 г.
  • 55. Exome Sequencingвоскресенье, 7 октября 12 г.
  • 56. RNA-seqвоскресенье, 7 октября 12 г.
  • 57. ChIP-seq Chromatin ImmunoPrecipitationвоскресенье, 7 октября 12 г.
  • 58. Single Cell Sequencingвоскресенье, 7 октября 12 г.
  • 59. Покрытие Много клеток Одна клетка Геномвоскресенье, 7 октября 12 г.
  • 60. http://www.youtube.com/watch? v=yKW4F0Nu-UYвоскресенье, 7 октября 12 г.
  • 61. Масс-спектрометрия H...-HN-CH-CO-NH-CH-CO-NH-CH-CO-…OH Ri-1 Ri Ri+1 N-terminus C-terminus AA residuei-1 AA residuei AA residuei+1воскресенье, 7 октября 12 г.
  • 62. Масс-спектрометрия PRTEINвоскресенье, 7 октября 12 г.
  • 63. Масс-спектрометрия PRTEIN P RTEINвоскресенье, 7 октября 12 г.
  • 64. Масс-спектрометрия PRTEIN P RTEIN PR TEINвоскресенье, 7 октября 12 г.
  • 65. Масс-спектрометрия PRTEIN P RTEIN PR TEIN PRT EIN PRTE IN PRTEI Nвоскресенье, 7 октября 12 г.
  • 66. Масс-спектрометрия m(P) = 97 PRTEIN m(R) = 156 P RTEIN m(T) = 101 PR TEIN m(E) = 129 PRT EIN m(I) = 113 PRTE IN m(N) = 114 PRTEI Nвоскресенье, 7 октября 12 г.
  • 67. Масс-спектрометрия m(P) = 97 PRTEIN 710 m(R) = 156 P RTEIN 97 613 m(T) = 101 PR TEIN 253 457 m(E) = 129 PRT EIN 354 356 m(I) = 113 PRTE IN 483 227 m(N) = 114 PRTEI N 596 114воскресенье, 7 октября 12 г.
  • 68. Спектрывоскресенье, 7 октября 12 г.
  • 69. Сборка белка Де ново По базе данныхвоскресенье, 7 октября 12 г.
  • 70. Де нововоскресенье, 7 октября 12 г.
  • 71. Spectrum Graphвоскресенье, 7 октября 12 г.
  • 72. Spectrum Graphвоскресенье, 7 октября 12 г.
  • 73. По базе данных ..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD, MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...воскресенье, 7 октября 12 г.
  • 74. По базе данных ..., MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT, HLLERTKMNVV, GGPASSDA, GGLITGMQSD, MQPLMNWE, ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC, GVFGSVLRA, EKLNKAATYIN, ...воскресенье, 7 октября 12 г.
  • 75. Похожие спектры Shared peaks count (SPC) — количество общих пиков. S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 } (S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2) SPC = (S1 ⊕ S2)(0)воскресенье, 7 октября 12 г.
  • 76. Spectral Convolution Shared peaks count (SPC) — количество общих пиков. S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 } (S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2) SPC = ?(S1 ⊕ S2)(0)воскресенье, 7 октября 12 г.
  • 77. Spectral Convolution Shared peaks count (SPC) — количество общих пиков. S1 ⊕ S2 = { s1 - s2 : s1 ∈ S1, s2 ∈ S2 } (S1 ⊕ S2)(x) = количество x в (S1 ⊕ S2) SPC = (S1 ⊕ S2)(0)воскресенье, 7 октября 12 г.
  • 78. Сдвиги S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100} S = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95} S = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95} (S ⊕ S)(0) = (S ⊕ S)(0) = 5 (S ⊕ S)(5) = (S ⊕ S)(5) = 5воскресенье, 7 октября 12 г.
  • 79. Сдвиги S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100} S = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95} S = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95} (S ⊕ S)(0) = (S ⊕ S)(0) = 5 (S ⊕ S)(5) = (S ⊕ S)(5) = 5воскресенье, 7 октября 12 г.
  • 80. Сдвиги S = {10, 20, 30, 40, 50, 60, 70, 80, 90, 100} S = {10, 20, 30, 40, 50, 55, 65, 75, 85, 95} S = {10, 15, 30, 35, 50, 55, 70, 75, 90, 95} (S ⊕ S)(0) = (S ⊕ S)(0) = 5 (S ⊕ S)(5) = (S ⊕ S)(5) = 5 Выравнивание строк!воскресенье, 7 октября 12 г.
  • 81. Книги Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. Dan Gusfield, 1997. An Introduction to Bioinformatics Algorithms. Jones & Pevzner, 2004. Computational Molecular Biology, An Algorithmic Approach. Pavel Pevzner, 2000. http://bioinf.me/booksвоскресенье, 7 октября 12 г.
  • 82. Домашнее задание http://rosalind.info • LONG • DBRU • GASM • ASMQ • PRTM, SPEC http://rosalind.info/classes/enroll/ 171da3d314a0b07e00883287cd2b6ddeeeba225b/воскресенье, 7 октября 12 г.
  • 83. Приезжайте к нам :) Магистратура: http://mit.spbau.ru/bioinf Курсы: http://bioinf.me Лаборатория: http://bioinf.spbau.ru Стажировка: http://bioinf.spbau.ru/int Розалинд: http://rosalind.info vyahhi@bioinf.spbau.ruвоскресенье, 7 октября 12 г.

×