Your SlideShare is downloading. ×
Guests 2011-10-04-pevzner-assembly
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Guests 2011-10-04-pevzner-assembly

585

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
585
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
8
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Реконструкция генома: пазл с миллиардом частей Филлип Компо и Павел Певзнер, Калифорнийский университет, Сан-Диего
  • 2. Вопрос Номер 1: Кто Эти Люди?
  • 3. Содержание
    • Введение в секвенирование генома
    • Задача о газете
    • ДНК-чипы: первая попытка секвенирования короткими ридами
    • Два математических обхода
    • Введение в теорию графов
    • Теорема Эйлера
    • Эйлеров цикл против гамильтонова цикла и алгоритмическая сложность
    • От Эйлера и Гамильтона — к сборке фрагментов
    • Де Брюйн и итоговое решение для сборки фрагментов
    • Обобщая сборку фрагментов
  • 4. Часть 1: Введение в секвенирование генома
  • 5. Что такое секвенирование генома?
    • Геном можно рассматривать как книгу, написанную при помощи алфавита, содержащего лишь 4 буквы — это нуклеотиды : A, T, G и C.
    • В человеческом геноме содержится около 3 миллиардов нуклеотидов.
    • Секвенирование генома — процесс выявления последовательности нуклеотидов, составляющих геном.
    ...CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGATCGATCGATCGATTATCTACGATCGATCGATCGATCACTATACGAGCTACTACGTACGTACGATCGCGGGACTATTATCGACTACAGATAAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATATAGCCGAGCGGCTACGATGATGCTAGCTGTACAGCTGATGATCTAGCTATCGATGCGATCGATGCGCGAGTGCGATCGATCACTTCGAGCTAGCTGATCGATCGATGCTAGCTAGCTGACTGATCATGGCGTTAGCTAGCTAGCTGATCGTCGATCGTACGTAGCTGATTACGATCGTCCGATCGTGCTATGACGTACGAGGCGGCTACGTAGCATGCTAGCTGACTGATGTAGCTAGCTATACGATACTATATATTCGATCGATTTATTACCATGACTGACGCGCATCGCTGTACACGTACTAGCTGATCGATGCTAGTCGATCGATCGATCATGTTATATATCGCGGCGCATCGATCGACTGCTCGATTATCGATACGTCGATCGCTGTATATACGTCTTTATAGCTAGGAGCATAGCGACGCGCTATCGATCGATCGTCTAGTCGACTGATCGTACTAGCTGACGCTGACGACTAGCTAGCTATCGACGATCGTAGTGCGATTACTAGCTAGGATCCTACTGTACGTCAGTCAGTCTGATCGATAGCGAGGAAAGCGAGACTGATCGTTCTCTAGATGTAGCTGATGTGACTACTATACTACTGGCAGCGATCGGGA…
  • 6. Что такое секвенирование генома?
    • Разные люди имеют слегка различные геномы: у всех людей общие 99.9% генетического кода.
    • Разница в 0.1% касается роста, цвета глаз, склонности к высокому уровню холестерина и т. д.
    CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTAC C ACATCGTAGCTACGATGCATTAGCAAGCTATCGATCGATCGATCGATTATCTACGATCGATCGATCGATCACTATACGAGCTACTACGTACGTACGATCGCG G GACTATTATCGACTACAGAT A AAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGAT CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTAC A ACATCGTAGCTACGATGCATTAGCAAGCTATCGATCGATCGATCGATTATCTACGATCGATCGATCGATCACTATACGAGCTACTACGTACGTACGATCGCG T GACTATTATCGACTACAGAT G AAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGAT
  • 7. Видовое и индивидуальное секвенирование
    • Видовое секвенирование : определить «общий геном» всего вида.
  • 8. Видовое и индивидуальное секвенирование
    • Индивидуальное секвенирование: определить, насколько индивидуум отличается от вида.
  • 9.
    • Видовое cеквенирование генома:
    • Сравнить различные виды (например, человек и шимпанзе), чтобы понять, как функционируют их гены (например, какие гены важны для развития головного мозга).
    • Выявить эволюционное родство между видами.
    • Определить генетический состав наших эволюционных предков.
    Зачем мы хотим секвенировать геном?
  • 10. Зачем мы хотим секвенировать геном?
    • Индивидуальное секвенирование генома:
    • Открытие генетической основы многих заболеваний;
    • Судебные исследования.
    • Пример: в 2010 г. 6-летний Николас Волкер стал первым человеком, которого удалось спасти благодаря секвенированию генома.
    • Доктора не могли диагностировать его состояние, вызывавшее странные инфекции; он побывал в сотне врачебных кабинетов.
    • Последовательность генома выявила редкую мутацию в гене, ведущую к дефекту в его иммунной системе.
    • Это подтолкнуло врачей к использованию более глубокой иммунотерапии, что и спасло ребёнка.
  • 11. Краткая история секвенирования генома
    • Конец 1970 -х: Уолтер Гилберт и Фредерик Сэнгер развивают независимые методы секвенирования.
    • 1980 : Они получают Нобелевскую премию по химии.
    • Однако их методы выявления последовательности были слишком дороги для больших геномов: при расходах в 1 доллар на нуклеотид расшифровка человеческого генома стоила бы 3 миллиарда долларов.
    Уолтер Гилберт Фредерик Сэнгер
  • 12. Краткая история секвенирования генома
    • 1990 : Общественный проект «Человеческий геном», возглавляемый Фрэнсисом Коллинзом, задаётся целью расшифровать человеческий геном.
    • 1997 : Крейг Вентер основывает частную фирму «Celera Genomics» с той же целью.
    Фрэнсис Коллинз Крейг Вентер
  • 13. Краткая история секвенирования генома
    • 2000 : Черновой вариант человеческого генома одновременно завершён (общественным) проектом «Человеческий геном» и (частной) Celera Genomics.
  • 14. Краткая история секвенирования генома
    • 2000 -е: расшифровывается всё большее число геномов млекопитающих.
  • 15. Начало персональной геномики
    • 2000 -е: Многие компании запускают проекты, ставящие целью на порядок уменьшить затраты на секвенирование.
    • 2010 : Рождается рынок приборов, секвенирующих геном:
      • Illumina уменьшает стоимость секвенирования индивидуального человеческого генома с 3 миллиардов долларов до 10 тысяч.
      • Complete Genomics строит в Кремниевой долине предприятие по секвенированию с производительностью сотни геномов в месяц.
      • Пекинский институт по исследованию геномов заказывает сотни секвенирующих машин, становясь крупнейшим центром в мире.
      • 23andMe предлагает частичное чтение последовательности генома за 499 долларов.
      • Многие университеты вводят новые курсы, на которых студенты будут изучать свои собственные геномы.
  • 16. Будущее секвенировнания генома
    • 2010 -е?: Секвенирование генома будет, надеемся, продолжать развиваться.
    • Секвенирование человеческого генома за 1000 долларов может стать реальностью уже в 2012 году.
    • Вероятно, секвенирование индивидуального генома вскоре станет таким же рутинным делом, как рентгеновский снимок.
  • 17. Что делает секвенирование генома трудн ым ?
    • Когда мы читаем книгу, мы можем прочесть её всю по букве от начала до конца.
    • Однако современные машины по расшифровке не могут прочесть весь геном нуклеотид за нуклеотидом от начала до конца. Они могут читать лишь короткие отрывки, вырезанные из генома.
    • Поэтому мы можем идентифицировать очень короткие фрагменты ДНК (длиной примерно в 100 нуклеотидов), называемые риды ( reads ).
    • Но у нас нет подсказки, из какой части генома данный рид!
    • Мы должны выяснить, как составить риды вместе, чтобы получился геном.
  • 18. Часть 2: Задача о газет е и секвенирование генома
  • 19. Задача о газете
  • 20. Задача о газете
  • 21. Задача о газете
  • 22. Задача о газете
  • 23. Задача о газете
  • 24. Задача о газете
  • 25. Задача о газете как «пазл с наложениями »
    • Задача о газете — не то же самое, что обычный пазл:
      • У нас есть множество копий одного и того же издания газеты.
      • Некоторые листы газеты разлетелись на мелкие клочки.
    • Мы должны использовать клочки бумаги, накладывающиеся друг на друга, чтобы восстановить, что говорилось в газете.
    • Это даёт нам гигантский пазл с наложениями!
  • 26. Секвенирование сложнее задач и о газете
    • В задаче о газете на нас работают правила языка и здравый смысл (например, « убийство » и « подозреваемый » скорее встретятся в газете рядом друг с другом) .
    • Однако « язык » ДНК остаётся по большей части нея с ным.
  • 27. Секвенирование сложнее задач и о газете
    • В каждом геноме есть много повторяющихся подстрок (50% человеческого генома — повторения).
      • Пример : GCTT встречается четыре раза в строке
    • AA GCTT CTATT GCTT AATTG GCTT GCTTC GCTT TG
    • Аналогия: треугольный пазл содержит множество повторяющихся фигур. Это сильно затрудняет его решение (даже с 16 кусочками).
  • 28. Секвенирование: лаборатория + вычисления
    • Генерация ридов ( лабораторная ): Считать множество ридов из многих копий одного генома.
    • Сборка фрагментов ( вычислительная ): Собрать геном из этих ридов с помощью эффективного алгоритма .
  • 29. Секвенирование генома : иллюстрация Много копий генома
  • 30. Секвенирование генома: иллюстрация Много копий генома Чтение ридов
  • 31. Секвенирование генома: иллюстрация Много копий генома Риды Чтение ридов
  • 32. Секвенирование генома: иллюстрация Много копий генома Риды Чтение ридов Сборка фрагментов
  • 33. Секвенирование генома: иллюстрация Много копий генома Риды Собранный геном … GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC … Чтение ридов Сборка фрагментов
  • 34. Часть 3: ДНК-чипы  — перв ая попытка секвенирования с помощью коротки х ридов
  • 35. ДНК-чипы: от идеи до новой индустрии
    • 1989 : Радое Дрманач, Андрей Мирзабеков и Эдвин Саутерн независимо друг от друга вводят понятие ДНК-чипов ( матриц ) для чтения ридов.
    • Ключевая идея : считать все k -меры * генома в надежде, что из них может быть собран геном.
    • 1989 : журнал Science пишет: «Использование ДНК-матриц для определения последовательности было бы всего лишь заменой одной безнадежной задачи на другую.»
    • 2000 : Матрицы ‒ индустрия с миллиардами долларов.
    Саутерн Мирзабеков Дрманач k- мер : Строка длины k ( над алфавитом из четырех нуклеотидов )
  • 36. ДНК-чипы: реализация
    • Синтезировать все k -меры в каждой из 4 k ячеек матрицы.
    • Покрыть матрицу многими копиями флуоресцентно помеченного фрагмента неизвестной ДНК.
    • ДНК гибридизирует с k -мером, если они дополняют друг друга.
    • Использовать спектроскоп, чтобы определить, какие ячейки излучают свет — дополнения к этим ячейкам выявят k -меры неизвестного фрагмента ДНК. Это и есть искомые риды!
  • 37. ДНК-чипы: иллюстрация
  • 38. ДНК-чипы: пример
    • Прочитанные риды:
    AAA AGA CAA CGA GAA GGA TAA TGA AAC AGC CAC CGC GAC GGC TAC TGC AAG AGG CAG CGG GAG GGG TAG TGG AAT AGT CAT CGT GAT GGT TAT TGT ACA ATA CCA CTA GCA GTA TCA TTA ACC ATC CCC CTC GCC GTC TCC TTC ACG ATG CCG CTG GCG GTG TCG TTG ACT ATT CCT CTT GCT GTT TCT TTT
  • 39. ДНК-чипы: пример
    • Прочитанные риды:
    CAT CAC CGC TGC CAT CCA GCA GCC ACG TTG ATT
  • 40. ДНК-чипы: пример
    • Прочитанные риды:
    CAT ||| ATG CAC CGC TGC CAT CCA GCA GCC ACG TTG ATT
  • 41. ДНК-чипы: пример
    • Прочитанные риды:
    CAT ATG CAC CGC TGC CAT CCA GCA GCC ACG TTG ATT
  • 42. ДНК-чипы: пример
    • Прочитанные риды:
    CAT ATG CAC CGC TGC CAT CCA GCA GCC ACG TTG ATT
  • 43. ДНК-чипы: пример
    • Прочитанные риды:
    CAT ATG CAC CGC TGC CAT CCA GCA GCC ACG TTG ATT
  • 44. ДНК-чипы: пример
    • Прочитанные риды:
    CAT ATG CAC CGC TGC CAT CCA GCA GCC ACG TTG ATT
  • 45. ДНК-чипы: пример
    • Прочитанные риды:
    • Значит, 3- мер ATG встречается где-то в геноме !
    ATG CAC CGC TGC ATG CCA GCA GCC ACG TTG ATT
  • 46. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
      • GCA  TGC
      • GCC  GGC
      • TTG  CAA
    CAC CGC TGC ATG CCA GCA GCC ACG TTG ATT
  • 47. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC
      • CGC  GCG
      • CAT  ATG
    CAC CGC TGC ATG CCA GCA GCC ACG TTG ATT
  • 48. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
    GTG CGC TGC ATG CCA GCA GCC ACG TTG ATT
  • 49. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
      • GCA  TGC
      • GCC  GGC
      • TTG  CAA
    GTG CGC TGC ATG CCA GCA GCC ACG TTG ATT
  • 50. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
      • GCA  TGC
      • GCC  GGC
      • TTG  CAA
    GTG GCG TGC ATG CCA GCA GCC ACG TTG ATT
  • 51. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC
    GTG GCG TGC ATG CCA GCA GCC ACG TTG ATT
  • 52. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
    GTG GCG GCA ATG CCA GCA GCC ACG TTG ATT
  • 53. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG
    GTG GCG GCA ATG CCA GCA GCC ACG TTG ATT
  • 54. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
    GTG GCG GCA ATG CCA GCA GCC CGT TTG ATT
  • 55. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT
    GTG GCG GCA ATG CCA GCA GCC CGT TTG ATT
  • 56. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
    GTG GCG GCA ATG CCA GCA GCC CGT TTG AAT
  • 57. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA
    GTG GCG GCA ATG CCA GCA GCC CGT TTG AAT
  • 58. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
    GTG GCG GCA ATG TGG GCA GCC CGT TTG AAT
  • 59. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
      • GCA
    GTG GCG GCA ATG TGG GCA GCC CGT TTG AAT
  • 60. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
      • GCA  TGC
    GTG GCG GCA ATG TGG TGC GCC CGT TTG AAT
  • 61. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
      • GCA  TGC
      • GCC
    GTG GCG GCA ATG TGG TGC GCC CGT TTG AAT
  • 62. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
      • GCA  TGC
      • GCC  GGC
    GTG GCG GCA ATG TGG TGC GGC CGT TTG AAT
  • 63. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
      • GCA  TGC
      • GCC  GGC
      • TTG
    GTG GCG GCA ATG TGG TGC GGC CGT TTG AAT
  • 64. Красные 3- меры точно присутствуют в геноме
    • Прочитанные риды:
      • CAC  GTG
      • CGC  GCG
      • CAT  ATG
      • TGC  GCA
      • ACG  CGT
      • ATT  AAT
      • CCA  TGG
      • GCA  TGC
      • GCC  GGC
      • TTG  CAA
    GTG GCG GCA ATG TGG TGC GGC CGT CAA AAT
  • 65. От биологических данных к вычислительной задаче
    • Цель : построить наиболее короткий геном, содержащий все имеющиеся риды.
    • Теперь это вычислительная задача!
    GTG GCG GCA ATG TGG TGC GGC CGT CAA AAT
  • 66. Часть 4: Два математических обхода
  • 67. Ке нигсберг ские мосты
    • Жители Кенигсберга в Пруссии (ныне Калининград в России) любили гулять.
  • 68. Ке нигсберг ские мосты
    • Можно ли пройти по городу, проходя по каждому мосту ровно один раз и вернуться туда, откуда начался путь?
  • 69. Ке нигсберг ские мосты
    • 1735 : Леонард Эйлер развивает подход к задаче для любого города, даже для города с миллионом островов.
    • Мы вскоре обсудим метод Эйлера, а равно и то, какое он имеет отношение к секвенированию генома.
    Леонард Эйлер
  • 70. Икосаэдрическая ( Icosian ) игра
    • Проходит более столетия...
    • 1857 : Ирландский математик Уильям Гамильтон разрабатывает игру на доске с 20 «островами», соединёнными «мостами».
    • Цель : найти путь, посещающий каждый остров ровно один раз и возвращающийся в начальную точку.
    Уильям Гамильтон Икосаэдрическая игра
  • 71. Похожие задачи с очень разными судьба ми
    • Эти две задачи формулируются в целом похоже:
      • Найти путь, который проходит через каждый мост лишь один раз (Кёнигсбергие мосты)
      • Найти путь, который проходит через каждый остров лишь один раз (Икосаэдрическая игра)
    • Эйлер решил первую задачу (даже для города с миллионом мостов ), но математики до сих пор не знают, как решить вторую задачу, даже для города с небольшим количеством островов .
    • Однако причем же тут геномы?!
  • 72. Часть 5: Введение в теорию   графов
  • 73. Графы
    • Граф — это сеть из двух типов объектов :
      • Вершины : каждая вершина представлена точкой.
      • Рёбра : каждое ребро представлено отрезком, соединяющим две вершины.
    • Теория графов может применяться к самым различным задачам:
      • Транспортные сети;
      • Эпидемиология;
      • Компьютерные вирусы, распространяющиеся по интернету;
      • И да… секвенирование генома!
  • 74. Граф К е нигсберг ских мостов
    • Для задачи о Кёнигсбергских мостах мы создаём граф :
      • Вершины = 4 участка земли;
      • Рёбра = 7 мостов, соединяющих участки земли.
    Замечание: нам не нужно знать точное расположение вершин, как и форму мостов.
  • 75. Граф Икосаэдрической игры
    • Для Икосаэдрической игры мы создаём граф :
      • Вершины = острова;
      • Рёбра = мосты, соединяющие острова.
  • 76. Эйлеров и Гамильтонов циклы
    • Рассмотрим муравья, стоящего на вершине графа G .
    • Муравей может ходить от вершины к вершине вдоль рёбер G .
    • Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G .
  • 77. Эйлеров и Гамильтонов циклы
    • Рассмотрим муравья, стоящего на вершине графа G .
    • Муравей может ходить от вершины к вершине вдоль рёбер G .
    • Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G .
    “ Here I go!”
  • 78. Эйлеров и Гамильтонов циклы
    • Рассмотрим муравья, стоящего на вершине графа G .
    • Муравей может ходить от вершины к вершине вдоль рёбер G .
    • Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G .
    “… He wakes up in the morning…”
  • 79. Эйлеров и Гамильтонов циклы
    • Рассмотрим муравья, стоящего на вершине графа G .
    • Муравей может ходить от вершины к вершине вдоль рёбер G .
    • Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G .
    “… goes to visit his mommy…”
  • 80. Эйлеров и Гамильтонов циклы
    • Рассмотрим муравья, стоящего на вершине графа G .
    • Муравей может ходить от вершины к вершине вдоль рёбер G .
    • Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G .
    “… when all the little ants are marching…”
  • 81. Эйлеров и Гамильтонов циклы
    • Рассмотрим муравья, стоящего на вершине графа G .
    • Муравей может ходить от вершины к вершине вдоль рёбер G .
    • Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G .
    “… they all do it the same way…”
  • 82. Эйлеров и Гамильтонов циклы
    • Рассмотрим муравья, стоящего на вершине графа G .
    • Муравей может ходить от вершины к вершине вдоль рёбер G .
    • Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G .
    “ Oh no! I’m back where I started!”
  • 83. Эйлеров и Гамильтонов циклы
    • Два вопроса:
      • Существует ли в G цикл, в котором муравей проходит каждое ребро точно один раз?
      • Существует ли в G цикл, в котором муравей проходит каждую вершину точно один раз?
    “ ??? !!! ”
  • 84. Эйлеров и Гамильтонов циклы
    • Два вопроса:
      • Существует ли в G цикл, в котором муравей проходит каждое ребро точно один раз? Эйлеров цикл.
      • Существует ли в G цикл, в котором муравей проходит каждую вершину точно один раз? Гамильтонов цикл.
    “ I wish someone would name a cycle after me…I’m the one doing all the walking here!”
  • 85. Эйлеров цикл
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
  • 86. Эйлеров цикл
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
  • 87. Эйлеров цикл
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
    1
  • 88.
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
    Эйлеров цикл 1 2
  • 89.
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
    Эйлеров цикл 1 2 3
  • 90.
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
    Эйлеров цикл 1 2 3 4
  • 91.
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
    Эйлеров цикл 1 2 3 4 5
  • 92.
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
    Эйлеров цикл 1 2 3 4 5 6
  • 93.
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
    Эйлеров цикл 1 2 3 4 5 6 7
  • 94.
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
    Эйлеров цикл 1 2 3 4 5 6 7 8
  • 95. Эйлеров цикл
    • Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.
      • Граф, содержащий такой цикл, называется эйлеровым .
    • Если бы было решение для задачи о Кёнигсбергских мостах, то мы могли бы найти эйлеров цикл в этом графе.
    • Однако такого цикла не существует.
    • Если добавить два ребра, такой цикл появится, видите?
    1 2 3 4 5 6 7 8 9
  • 96. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, называется гамильтоновым .
      • Например, граф, соответствующий Икосаэдрической игре — гамильтонов.
      • Это означает, что Икосаэдрическая игра имеет решение!
  • 97. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1
  • 98. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2
  • 99. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3
  • 100. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4
  • 101. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5
  • 102. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6
  • 103. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7
  • 104. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8
  • 105. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9
  • 106. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10
  • 107. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11
  • 108. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12
  • 109. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12 13
  • 110. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12 13 14
  • 111. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
  • 112. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
  • 113. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
  • 114. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
  • 115. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
  • 116. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
  • 117. Гамильтонов цикл
      • Гамильтонов цикл  — это цикл, проходящий через каждую вершину ровно один раз.
        • Граф, содержащий такой цикл, — гамильтонов .
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
  • 118. Поиск Эйлерова цикла и Гамильтонова цикла
    • Если нам дан граф G , то возникают два вопроса насчёт G :
    • Задача об эйлеровом цикле (ECP): найти эйлеров цикл в  G или доказать, что G — не эйлеров.
    • Задача о гамильтоновом цикле (HCP): найти гамильтонов цикл в G или доказать, что G — не гамильтонов.
  • 119. Часть 6: Теорема Эйлера
  • 120. Теорема Эйлера
    • А теперь посмотрим, как Эйлер решил задачу о Кёнигсбергских мостах.
    • Вы можете предположить: он использовал теорию графов!
    • Это не совсем корректно. Лучше было бы сказать: он изобрёл теорию графов!
  • 121. Ориентированные графы
    • Ориентированный граф — граф, в котором каждое ребро имеет направление (представленное стрелкой).
      • Возможно, проще представить ориентированные ребра как «мосты с односторонним движением».
    Неориентированный граф Ориентированный граф
  • 122. Эйлеров цикл в о риентированн ом граф е
    • Эйлеров цикл в ориентированном графе ‒ это цикл, который проходит все рёбра в правильном направлении.
    • Ориентированный граф ‒ эйлеров , если он содержит эйлеров цикл.
    • Этот граф ‒ эйлеров? Почему?
  • 123.
    • входящая степень ( v ) = число ребер, ведущих в вершину v .
    • исходящая степень ( v ) = число ребер, ведущих из вершины v .
    • Если входящая степень( v ) = исходящая степень( v ) для каждой вершины v , то граф сбалансирован.
    • Этот граф несбалансирован, т. к. у некоторых вершин не равны входящая и исходящая степени.
    Сбалансированные графы (1, 2) (2, 1) (1, 0) (2, 1) (1, 1) (0, 2) (1, 1)
  • 124.
    • входящая степень ( v ) = число ребер, ведущих к вершине v .
    • исходящая степень ( v ) = число ребер, ведущих из вершины v .
    • Если входящая степень( v ) = исходящая степень( v ) для каждой вершины v , то граф сбалансирован.
    • Добавлением нескольких ребер, этот граф можно сбалансировать.
    Сбалансированные графы (2, 2) (2, 2) (1, 1) (2, 2) (1, 1) (2, 2) (1, 1)
  • 125. Теорема Эйлера
    • Теорема Эйлера : ориентированный граф G эйлеров тогда и только тогда, когда G связен и сбалансирован.
      • Граф — связный , если для каждой пары вершин муравей может пройти от одной вершины к другой.
    (2, 2) (2, 2) (1, 1) (2, 2) (1, 1) (2, 2) (1, 1) Несвязный Связный + Сбалансированный   = Эйлеров
  • 126. Proof of Euler’s Theorem: Eulerian Balanced
    • Every time an Eulerian cycle passes through a vertex v , it must enter v by a new edge and exit v by a new edge.
    • Therefore, indegree(v)=outdegree(v) for every vertex v
  • 127. Proof of Euler’s Theorem: Balanced Eulerian
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
  • 128. Proof of Euler’s Theorem: Balanced Eulerian
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
  • 129. Proof of Euler’s Theorem: Balanced Eulerian
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
  • 130. Proof of Euler’s Theorem: Balanced Eulerian
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
  • 131. Proof of Euler’s Theorem: Balanced Eulerian
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
  • 132. Proof of Euler’s Theorem: Balanced Eulerian
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
  • 133. Proof of Euler’s Theorem: Balanced Eulerian
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
  • 134. Proof of Euler’s Theorem: Balanced Eulerian
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
  • 135. Proof of Euler’s Theorem: Balanced Eulerian
    • Where will the ant stop? Can it stop in a vertex w different from v?
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
    3 2 4 6 5 1 7
  • 136. Proof of Euler’s Theorem: Balanced Eulerian
    • Where will the ant stop? Can it stop in a vertex w different from v?
    • Since indegree(w)=outdegree(w), there exists an edge out of w that the ant has not traversed yet!
    • Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.
    3 2 4 6 5 1 7
  • 137. Proof of Euler’s Theorem: Balanced Eulerian
    • After this random walk, the ant cannot get stuck in an intermediate vertex and thus will return to the vertex where he started!
  • 138. Proof of Euler’s Theorem: The Second Ant
    • Has the ant traversed all edges?
      • If YES, then G is Eulerian.
      • If NO, then
      • remove edges traversed by the ant
  • 139. Proof of Euler’s Theorem: The Second Ant
    • Has the ant traversed all edges?
      • If YES, then G is Eulerian.
      • If NO, then
      • remove edges traversed by the ant
      • let the second ant
      • randomly walk in
      • the resulting (smaller)
      • balanced graph
  • 140. Proof of Euler’s Theorem: The Second Ant
    • Has the ant traversed all edges?
      • If YES, then G is Eulerian.
      • If NO, then
      • remove edges traversed by the ant
      • let the second ant
      • randomly walk in
      • the resulting (smaller)
      • balanced graph
  • 141. Proof of Euler’s Theorem: The Second Ant
    • Has the ant traversed all edges?
      • If YES, then G is Eulerian.
      • If NO, then
      • remove edges traversed by the ant
      • let the second ant
      • randomly walk in
      • the resulting (smaller)
      • balanced graph
  • 142. Proof of Euler’s Theorem: The Second Ant
    • Has the ant traversed all edges?
      • If YES, then G is Eulerian.
      • If NO, then
      • remove edges traversed by the ant
      • let the second ant
      • randomly walk in
      • the resulting (smaller)
      • balanced graph
      • until it returns
      • where it started
  • 143. Proof of Euler’s Theorem: The Second Ant
    • Has the ant traversed all edges?
      • If YES, then G is Eulerian.
      • If NO, then
      • remove edges traversed by the ant
      • let the second ant
      • randomly walk in
      • the resulting (smaller)
      • balanced graph
      • It is important that
      • the second ant starts
      • in a vertex traversed
      • by the first ant
  • 144. Can Red and Green Ants Combine Their Cycles Into a Single One?
  • 145. Changing the Starting Vertex of the Red Ant
  • 146. Now Red and Green Ant Start at the Same Vertex
  • 147. Since Red and Green Ants Now Start at the Same Vertex, Their Walks Can be Combined into a Single Superwalk! If two ants still leave some edges non-traversed, bring in 3rd, 4 th , 5 th … ant
  • 148. Часть 7: Э йлеров цикл против гамильтонова цикла и алгоритмическая сложность
  • 149. Решение задачи об эйлеров ом цикл е
    • По теореме Эйлера для выяснения того, содержит ли связный граф G эйлеров цикл, нужно лишь выяснить, сбалансирован ли G .
    • Так что мы просто подходим к каждой вершине и осуществляем эту простую проверку:
      • Если каждая вершина сбалансирована, то G должен содержать эйлеров цикл.
      • Если какая-то вершина не сбалансирована, то G не может содержать эйлеров цикл.
  • 150. Связный + Сбалансированный = Эйлеров
    • Вернёмся к ориентированному графу из примера.
    • Здесь граф не сбалансирован, следовательно, не эйлеров.
    (1, 2) (2, 1) (1, 0) (1, 1) (0, 2) (1, 1) (2, 1)
  • 151.
    • Вернёмся к ориентированному графу из примера.
    • Здесь граф не сбалансирован, следовательно, не эйлеров.
    • После добавления рёбер и балансировки графа, эйлеров цикл будет существовать.
    Связный + Сбалансированный = Эйлеров (2, 2) (2, 2) (1, 1) (1, 1) (2, 2) (1, 1) 1 2 3 7 6 5 4 8 9 10 11 (2, 2)
  • 152. Поиск эффективного алгоритма решения HCP
    • Никто не знает столь же эффективного теста для определения, гамильтонов ли граф.
    • Конечно, мы можем исследовать все возможные прохождения муравья по графу.
    • Однако этот грубый подход просто неэффективен: даже по графу с 1000 вершин существует больше вариантов прохождений, чем атомов во вселенной!
  • 153. NP -полные задачи
    • Задача о гамильтоновом цикле классифицируется как NP -полная .
    • Изъясняясь непрофессиональным языком, это значит, что задача гамильтонова цикла относится к тысячам вычислительных задач, которые не могут быть решены быстро для больших входных данных.
    • NP -полные проблемы эквивалентны друг другу: найдя эффективное решение для одной из них, вы получите эффективное решение для всех.
  • 154. NP -полные задачи
    • Попытка решить любую NP -полную задачу сложна.
    « Я не могу найти эффективного алгоритма, наверное, я просто слишком глуп. » Из Гэри и Джонсон. Компьютеры и трудность. 1979
  • 155. NP -полные задачи
    • Попытка решить любую NP -полную задачу сложна.
    • Остаётся надеяться, что мы терпим неудачу потому, что эффективного алгоритма для NP -полных задач — не существует.
    « Я не могу найти эффективного алгоритма, потому что такого алгоритма не может быть. » Из Гэри и Джонсон. Компьютеры и трудность. 1979
  • 156. NP -полные задачи
    • Попытка решить любую NP -полную задачу сложна.
    • Остаётся надеяться, что мы терпим неудачу потому, что эффективного алгоритма для NP -полных задач — не существует.
    • Текущее состояние дел — где-то посередине.
    « Я не могу найти эффективного алгоритма, но и все эти велики е люди тоже не могут. » Из Гэри и Джонсон. Компьютеры и трудность. 1979
  • 157. NP -полнота задачи о гамильтонов ом цикл е
    • Вопрос, могут ли NP -полные задачи (в т. ч. задачи гамильтонова цикла) быть эффективно решены, — одна из семи математических задач тысячелетия.
    • Найдите эффективный алгоритм для задачи о гамильтоновом цикле или докажите, что такого алгоритма не существует, и вы получите миллион долларов.
    • Однако если вы станете математиком, есть вероятность, что вы занимаетесь наукой не ради $$$ ... недавно Григорий Перельман решил одну из задач тысячелетия, но отказался от премии.
    Григорий Перельман, легенда
  • 158. Часть 8: От Эйлера и Гамильтона к сборк е фрагментов
  • 159. Несколько упрощений
    • Каждый k -мер, встречающийся в геноме, встречается хотя бы в одном риде.
    • Считывания безошибочны.
    • Каждый k -мер, встречающийся в геноме, встречается в нем ровно один раз.
    • Исследуемый геном — одна кольцевая хромосома.
    • В финальной части мы откажемся от этих предположений.
  • 160. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCA ATG TGG TGC GGC CGT CAA AAT
  • 161. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GTG GCG GCA ATG TGG TGC GGC CGT CAA AAT
  • 162. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCG GCA ATG TGG TGC GGC CGT CAA AAT
  • 163. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCA GCA ATG TGG TGC GGC CGT CAA AAT
  • 164. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCA ATG ATG TGG TGC GGC CGT CAA AAT
  • 165. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCA ATG TGG TGG TGC GGC CGT CAA AAT
  • 166. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCA ATG TGG TGC TGC GGC CGT CAA AAT
  • 167. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCA ATG TGG TGC GGC GGC CGT CAA AAT
  • 168. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCA ATG TGG TGC GGC CGT CGT CAA AAT
  • 169. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCA ATG TGG TGC GGC CGT CAA CAA AAT
  • 170. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    GTG GCG GCA ATG TGG TGC GGC CGT CAA AAT AAT
  • 171. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 172. Первый подход: граф H
    • Создадим в графе H вершины, соответствующие всем k -мерам, найденным с помощью ДНК-чипа.
      • Префикс  — это первые k – 1 нуклеотидов k- мера ( CA A )
      • Суффикс  — последние k – 1 нуклеотидов k- мера ( C AA )
    • Разные 3-меры могут иметь общий префикс/суффикс: A TG , TG A, C TG
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 173. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    A TG CGT GGC AAT GTG TG G TG C CAA GCA GCG
  • 174. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    A TG CGT GGC AAT GTG TG G TG C CAA GCA GCG
  • 175. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    ATG C GT GGC AAT GT G TGG TGC CAA GCA GCG
  • 176. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    ATG CGT G GC AAT GTG TGG TGC CAA GC A GC G
  • 177. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    AT G CGT GGC A AT GTG TGG TGC CAA GCA GCG
  • 178. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    ATG CGT GGC AAT G TG TG G TG C CAA GCA GCG
  • 179. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    ATG CGT GG C AAT GTG T GG TGC CAA GCA GCG
  • 180. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    ATG CGT GGC AAT GTG TGG T GC CAA GC A GC G
  • 181. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    ATG CGT GGC AA T GTG TGG TGC C AA GCA GCG
  • 182. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    ATG CGT GGC AAT GTG TGG TGC CA A G CA GCG
  • 183. Первый подход: граф H
    • Создавая ребра графа H , соединим вершину v и вершину w ориентированным ребром , если суффикс v совпадает с префиксом w .
    ATG CG T GGC AAT GTG TGG TGC CAA GCA G CG
  • 184. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 185. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 186. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 187. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 188. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 189. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 190. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 191. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 192. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 193. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 194. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 195. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
    ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
  • 196. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
  • 197. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
      • ATG
      • ATG
    Геном : T G A
  • 198. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • A TG  TG G  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
      • A TG
      • TG G
      • A TG G
    Геном : T G G A
  • 199. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  T GG  GG C  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
      • ATG
      • T GG
      • GG C
      • AT GG C
    Геном : T G G C A
  • 200. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  G GC  GC G  CGT  GTG  TGC  GCA  CAA  AAT  ATG
      • ATG
      • TGG
      • G GC
      • GC G
      • ATG GC G
    Геном : T G G C G A
  • 201. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  G CG  CG T  GTG  TGC  GCA  CAA  AAT  ATG
      • ATG
      • TGG
      • GGC
      • G CG
      • CG T
      • ATGG CG T
    Геном : T G G C G T A
  • 202. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
      • ATG
      • TGG
      • GGC
      • GCG
      • C GT
      • GT G
      • ATGGC GT G
    Геном : T G G C G T G A
  • 203. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  G TG  TG C  GCA  CAA  AAT  ATG
      • ATG
      • TGG
      • GGC
      • GCG
      • CGT
      • G TG
      • TG C
      • ATGGCG TG C
    Геном : T G G C G T G C A
  • 204. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  T GC  GC A  CAA  AAT  ATG
      • ATG
      • TGG
      • GGC
      • GCG
      • CGT
      • GTG
      • T GC
      • GC A
      • ATGGCGT GC A
    Геном : T G G C G T G C A A
  • 205. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  G CA  CA A  AAT  ATG
      • ATG
      • TGG
      • GGC
      • GCG
      • CGT
      • GTG
      • TGC
      • G CA
      • CA A
      • ATGGCGTG CA A
    Геном : A T G G C G T G C A
  • 206. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  C AA  AA T  ATG
      • ATG
      • TGG
      • GGC
      • GCG
      • CGT
      • GTG
      • TGC
      • GCA
      • C AA
      • AA T
      • ATGGCGTGC AA T
    Геном : A T G G C G T G C A
  • 207. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
      • ATG
      • TGG
      • GGC
      • GCG
      • CGT
      • GTG
      • TGC
      • GCA
      • CAA
      • A AT
      • AT G
      • ATGGCGTGCA AT G
    Геном : A T G G C G T G C A
  • 208. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
      • ATG
      • TGG
      • GGC
      • GCG
      • CGT
      • GTG
      • TGC
      • GCA
      • CAA
      • AAT
      • ATG
      • ATGGCGTGCAATG
    Геном : A T G G C G T G C A
  • 209. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
      • ATG
      • TGG
      • GGC
      • GCG
      • CGT
      • GTG
      • TGC
      • GCA
      • CAA
      • AAT
      • ATG
      • ATG GCGTGCA ATG
    Геном : A T G G C G T G C A
  • 210. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
    Геном : A T G G C G T G C A
  • 211. Гамильтонов цикл в графе H
    • В графе H есть гамильтонов цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT  ATG
    Геном : A T G G C G T G C A
  • 212. Проблема с графом H
    • Итак, мы должны найти гамильтонов цикл в графе  H , чтобы найти искомую последовательность.
    • На этой идее базировался метод сборки человеческого генома из 50 миллионов (долгих и дорогих) ридов в 2000 г., но вычислительная нагрузка была непомерно высока: секвенирование человеческого генома заняло несколько компьютеро-месяцев (в круглосуточном режиме работы).
    • С новейшими технологиями секвенируются миллиарды (коротких и недорогих) ридов: нужна новая идея.
  • 213. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды
  • 214. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TGC GGC CGT CAA AAT GT G GCG GCA ATG TGG Риды
  • 215. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG TGC GGC CGT CAA AAT G TG GCG GCA ATG TGG Риды
  • 216. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC TGC GGC CGT CAA AAT GTG GC G GCA ATG TGG Риды
  • 217. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG TGC GGC CGT CAA AAT GTG G CG GCA ATG TGG Риды
  • 218. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG TGC GGC CGT CAA AAT GTG GCG GC A ATG TGG Риды
  • 219. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA TGC GGC CGT CAA AAT GTG GCG G CA ATG TGG Риды
  • 220. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT TGC GGC CGT CAA AAT GTG GCG GCA AT G TGG Риды
  • 221. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT TGC GGC CGT CAA AAT GTG GCG GCA A TG TGG Риды
  • 222. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT TGC GGC CGT CAA AAT GTG GCG GCA ATG TG G Риды
  • 223. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG TGC GGC CGT CAA AAT GTG GCG GCA ATG T GG Риды
  • 224. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG TG C GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды
  • 225. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG T GC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды
  • 226. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG TGC GG C CGT CAA AAT GTG GCG GCA ATG TGG Риды
  • 227. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG TGC G GC CGT CAA AAT GTG GCG GCA ATG TGG Риды
  • 228. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG TGC GGC CG T CAA AAT GTG GCG GCA ATG TGG Риды
  • 229. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG TGC GGC C GT CAA AAT GTG GCG GCA ATG TGG Риды
  • 230. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG TGC GGC CGT CA A AAT GTG GCG GCA ATG TGG Риды
  • 231. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG AA TGC GGC CGT C AA AAT GTG GCG GCA ATG TGG Риды
  • 232. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG AA TGC GGC CGT CAA AA T GTG GCG GCA ATG TGG Риды
  • 233. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    GT TG GC CG CA AT GG AA TGC GGC CGT CAA A AT GTG GCG GCA ATG TGG Риды
  • 234. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды
  • 235. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды
  • 236. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды GTG
  • 237. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды GCG GTG
  • 238. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды GCG GTG GCA
  • 239. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG GCG GTG GCA
  • 240. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GCG GTG GCA
  • 241. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GCG GTG TGC GCA
  • 242. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GGC GCG GTG TGC GCA
  • 243. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GGC GCG CGT GTG TGC GCA
  • 244. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GGC GCG CGT GTG TGC GCA CAA
  • 245. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT
  • 246. Второй подход: граф E
    • Сформируем иной граф E следующим образом :
      • Вершины = все префиксы и суффиксы всех k - меров .
      • Соединим вершины v и w ориентированным ребром, если есть k - мер, в котором префикс — это v , а суффикс — это w .
    CA GC CG TG GT GG AT AA TGC GGC CGT CAA AAT GTG GCG GCA ATG TGG Риды ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT
  • 247. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT
  • 248. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1
  • 249. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG 
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2
  • 250. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2
  • 251. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4
  • 252. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG  CGT
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5
  • 253. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6
  • 254. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл :
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7
  • 255. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8
  • 256. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9
  • 257. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10
  • 258. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10
  • 259. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT
      • Эта та же последовательность 3-меров, что и в графе H !
  • 260. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT
      • Эта та же последовательность 3-меров, что и в графе H !
      • Значит, мы получим тот же геном.
    Геном : A T G G C G T G C A
  • 261. Эйлеров цикл в графе E
    • В графе E есть эйлеров цикл:
      • ATG  TGG  GGC  GCG  CGT  GTG  TGC  GCA  CAA  AAT
      • Эта та же последовательность 3-меров, что и в графе H !
      • Значит, мы получим тот же геном.
    Геном : A T G G C G T G C A
  • 262. Анализ графа E
    • Хорошая новость : Теперь нам только остаётся найти эйлеров цикл в графе E , что можно сделать на этом компьютере.
    • Плохая новость :
    • Может существовать более чем один эйлеров цикл в E .
      • Эту беду здесь обсуждать не будем, но это решаемо.
    • Как мы узнаем, что граф E имеет эйлеров цикл?
      • По теореме Эйлера нам нужно лишь показать, что E  — сбалансированный граф.
      • Чтобы сделать это, нам нужен ещё один фрагмент математической истории…
  • 263. Часть 9: Де Бр ю йн и сборка фрагментов
  • 264. Вопрос Де Брюйна
    • 1946 : голландский математик Николаас де Брюйн задаётся вопросом: как создать циклическую строку минимальной длины, которая содержала бы любую строку длины k из нулей и единиц?
    • Например, k = 3. Круговая строка «00011101» содержит все 8 двоичных строк длины 3. (На иллюстрации — подстроки 000 и 110).
    Николаас де Брюйн
  • 265. Вопрос Де Брюйна
    • Де Брёйн ввёл специальный граф B ( n , k ) :
      • Вершины = все n k – 1 возможных ( k – 1)- меров над n - буквенным алфавитом .
      • Ребро идет из v в w , если есть k- мер, чей префикс = v , а суффикс = w .
    • Справа приведен B (2, 4)
      • Подразумевается алфавит {0, 1}
  • 266. Вопрос Де Брюйна
    • При любых n и k , B ( n , k ) является сблансированным и связным, а значит, эйлеровым .
    • Почему? Потому что входящая и исходящая степень каждой вершины равняется n  — размеру алфавита.
    • Красные числа показывают порядок рёбер в эйлеровом цикле.
  • 267. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 268. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 269. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 270. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 271. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 272. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 273. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 274. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 275. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 276. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 277. Вопрос Де Брюйна
    • Рассмотренный нами граф E содержится в B (4, k ).
      • n = 4 — это количество возможных нуклеотидов.
    • Граф E тоже должен быть сбалансированным/эйлеровым !
      • Входящая и исходящая степени любой вершины равны числу появлений соответствующего ( k – 1)-мера в геноме.
    3 CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT 1 2 4 5 6 7 8 9 10 Геном :
  • 278. Часть 10: Обобщая сборк у фрагментов
  • 279. Используемые упрощения
    • Вспомним предположения, которые мы использовали :
      • Каждый k -мер, встречающийся в геноме, встречается хотя бы в одном риде.
      • Считывания безошибочны.
      • Каждый k -мер, встречающийся в геноме, встречается в нем ровно один раз.
      • Исследуемый геном — одна кольцевая хромосома.
    • Наша цель — отринуть каждое из этих предположений и определить, как изменится задача.
  • 280. Упрощение 1: Чтение ( почти ) всех k - меров
    • 100-нуклеотидные риды, сгенерированные по технологии Illumina , охватывают лишь небольшую часть 100-меров из генома, тем самым нарушая ключевое упрощение.
    • Но если разбить эти риды на более короткие k -меры, то k -меры, полученные в результате, зачастую будут представлять почти все k -меры из генома (при достаточно малом k ).
    • Например, современные сборщики часто разбивают 100-нуклеотидное риды на 46 накладывающихся друг на друга 55-меров, а далее собирают полученные 55-меры, используя графы де Брюйна.
  • 281.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATGCAAGCTAGCT ATGCAA CAAGCT CTAGCT ATGC CT Риды Геном
  • 282.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATG CAAGCTAGCT ATG CAA CAAGCT CTAGCT ATG C CT Риды Геном
  • 283.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров A TGC AAGCTAGCT A TGC AA CAAGCT CTAGCT A TGC CT Риды Геном
  • 284.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров AT GCA AGCTAGCT AT GCA A CAAGCT CTAGCT ATGC CT Риды Геном
  • 285.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATG CAA GCTAGCT ATG CAA CAA GCT CTAGCT ATGC CT Риды Геном
  • 286.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATGC AAG CTAGCT ATGCAA C AAG CT CTAGCT ATGC CT Риды Геном
  • 287.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATGCA AGC TAGCT ATGCAA CA AGC T CTAGCT ATGC CT Риды Геном
  • 288.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATGCAA GCT AGCT ATGCAA CAA GCT CTAGCT ATGC CT Риды Геном
  • 289.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATGCAAG CTA GCT ATGCAA CAAGCT CTA GCT ATGC CT Риды Геном
  • 290.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATGCAAGC TAG CT ATGCAA CAAGCT C TAG CT ATGC CT Риды Геном
  • 291.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATGCAAGCT AGC T ATGCAA CAAGCT CT AGC T ATGC CT Риды Геном
  • 292.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров ATGCAAGCTA GCT ATGCAA CAAGCT CTA GCT ATGC CT Риды Геном
  • 293.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров A TGCAAGCTAG CT ATGCAA CAAGCT CTAGCT A TGC CT Риды Геном
  • 294.
    • Пример : рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6 :
    • Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.
    Упрощение 1: Чтение ( почти ) всех k - меров AT GCAAGCTAGC T ATGCAA CAAGCT CTAGCT AT GC C T Риды Геном
  • 295. Упрощение 2: Ошибки в ридах
    • Что случится с графом E , если в ридах будут ошибки ?
    • Пример : пусть граф E для генома ATGGCGTGCAATG выглядит следующим образом .
  • 296. Упрощение 2: Ошибки в ридах
    • Что случится с графом E , если в ридах будут ошибки ?
    • Пример : пусть граф E для генома ATGGCGTGCAATG выглядит следующим образом .
      • Если рид TGGCGTG будет ошибочно прочитан как TGG A GTG , то граф будет выглядеть по-другому .
      • Это называется выступом ( bulge ) в графе E .
  • 297. Упрощение 2: Ошибки в ридах
    • Большинство ридов в реальных данных содержат ошибки, что дает в итоге миллионы выступов в графе E .
    • 2004 : Певзнер и др . создали алгоритм удаления выступов.
  • 298. Упрощение 3: Повторяющиеся k - меры
    • Пример : в геноме ACGTACGT только четыре различных 3- мера —  ACG , CGT , GTA , and TAC .
    • Получается приведенный на рисунке граф E , а геном восстанавливается как ACGT .
    • Иными словами, повторяющиеся k - меры не представимы в графе !
    AC CG GT TA TAC ACG CGT GTA
  • 299. Упрощение 3: Повторяющиеся k - меры
    • Определим кратность k -мера как количество его появлений в геноме.
    • Создадим новый граф E *, клонировав ребра графа E в соответствии с их кратностью.
    • Эйлеров цикл в E * всё ещё даёт возможный геном.
  • 300. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCGTGGCGTGCA
  • 301. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG CGTGGCGTGCA
  • 302. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT A TGC GTGGCGTGCA
  • 303. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT AT GCG TGGCGTGCA
  • 304. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG CGT GGCGTGCA
  • 305. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGC GTG GCGTGCA
  • 306. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCG TGG CGTGCA
  • 307. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCGT GGC GTGCA
  • 308. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCGTG GCG TGCA
  • 309. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCGTGG CGT GCA
  • 310. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCGTGGC GTG CA
  • 311. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCGTGGCG TGC A
  • 312. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCGTGGCGT GCA
  • 313. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT A TGCGTGGCGTG CA
  • 314. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT AT GCGTGGCGTGC A
  • 315. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCGTGGCGTGCA
  • 316. Упрощение 3: Повторяющиеся k - меры
    • Пусть кратности 3-меров в ридах таковы :
      • Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA
      • Кратность 2: GCG, CGT, GTG, TGC
    • Е* сбалансирован, так как входящие и исходящие степени вершин равны
    • Возможный геном :
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGCGTGGCGTGCA
  • 317. Упрощение 3: Повторяющиеся k - меры
    • Как определить кратность k -мера в геноме?
    • Кратность k -мера пропорциональна частоте появления этого k -мера в ридах.
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT
  • 318. Упрощение 4: От кольцевых — к линейным
    • Геномы всех сложных организмов разбиты на определённое число линейных хромосом (46 у человека).
    • Чтобы секвенировать человеческий геном, генетики секвенировали все эти линейные хромосомы.
    • Вопрос: как собрать линейный сегмент ДНК?
  • 319. Упрощение 4: От кольцевых — к линейным
    • Пусть линейный сегмент ДНК — ATGCGTGGCGTGCA .
    • Тогда 3-меры из этого сегмента ‒ те же самые, что и для кольцевого сегмента за исключением двух 3-меров:
  • 320. Упрощение 4: От кольцевых — к линейным
    • Пусть линейный сегмент ДНК — A TGCGTGGCGTG CA .
    • Тогда 3-меры из этого сегмента ‒ те же самые, что и для кольцевого сегмента за исключением двух 3-меров:
      • CAA
  • 321. Упрощение 4: От кольцевых — к линейным
    • Пусть линейный сегмент ДНК — AT GCGTGGCGTGC A .
    • Тогда 3-меры из этого сегмента ‒ те же самые, что и для кольцевого сегмента за исключением двух 3-меров:
      • CAA
      • AAT
  • 322. Упрощение 4: От кольцевых — к линейным
    • Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E *.
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT
  • 323. Упрощение 4: От кольцевых — к линейным
    • Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E *.
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT
  • 324. Упрощение 4: От кольцевых — к линейным
    • Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E *.
    • А также вершины AA .
    CA GC CG TG GT GG AT AA ATG TGG GGC GCG CGT GTG TGC GCA
  • 325. Упрощение 4: От кольцевых — к линейным
    • Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E *.
    • А также вершины AA .
    CA GC CG TG GT GG AT ATG TGG GGC GCG CGT GTG TGC GCA
  • 326. Упрощение 4: От кольцевых — к линейным
    • Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E *.
    • А также вершины AA .
    • Итак, для сборки строки ATGCGTGGCGTGCA , надо найти путь в E * , который начинается в AT , заканчивается в CA и проходит по всем ребрам .
    CA GC CG TG GT GG AT ATG TGG GGC GCG CGT GTG TGC GCA
  • 327. Упрощение 4: От кольцевых — к линейным
    • Эйлеров путь в ориентированном графе G  — это путь, проходящий по каждому ребру ровно один раз.
      • Как эйлеров цикл, только необязательно стартовать и заканчивать путь в одной и той же вершине.
    • К счастью, теорема Эйлера обобщается на этот случай.
    • Вторая теорема Эйлера : связный ориентированный граф имеет эйлеров путь именно тогда, когда либо все вершины сбалансированы, либо ровно две вершины не сбалансированы на единицу.
  • 328. Упрощение 4: От кольцевых — к линейным
    • Значит, граф E * должен содержать эйлеров путь, потому что AT и CA (концы нашего сегмента) — единственные две несбалансированные вершины.
    • Выходит, мы разгадали наш гигантский пазл в общем случае!
    CA GC CG TG GT GG AT ATG TGG GGC GCG CGT GTG TGC GCA
  • 329. Что дальше?
  • 330. Персональная геномика: миллионы геномов
    • Расшифровка персонального генома началась с геномов нескольких учёных в 2009 г., и вскоре затронет миллионы индивидуумов.
    • Тысячи геномов больных раком уже определены, и определение последовательности генома вскоре станет рутинной техникой в медицине.
    • В сердце этого революционного процесса — биоинформатики, которые должны точно и эффективно анализировать всё возрастающие объемы данных.
    10 учёных и предпринимателей, сделавших свои геномы досто-янием общественности в 2009 г.
  • 331. Геном 10 тысяч и далее
    • 2010 : учёные запускают амбициозный проект по секвенированию геномов 10000 видов живых существ.
    • 201x? : возможно, мы сможем воссоздать «древо жизни» и собрать геномы предков, которые жили миллионы лет назад.
    • 20xx? : возможно, всего лишь возможно, мы узнаем, почему у жирафов идёт рост шеи, а у людей — мозга.

×