Сборка генома: мифы и
реальность
Царев Ф. Н., канд. техн. наук, доцент
кафедры «Компьютерные технологии»
III Всероссийский...
Зачем нужна
биоинформатика?
2
2014 год
2030 год
10
Геном
• Совокупность всей
наследственной
информации организма
• Как правило –
закодирован в молекуле
ДНК (у некоторых в...
12
Размеры геномов
Тип Организм Размер генома Комментарий
Virus
Bacteriophage
MS2
3,569 3.5kb
Первый прочитанный
РНК-геном...
С 1990 года по 2001 год
3 000 000 000 «букв»
$3 000 000 000
Проект «Геном
человека»
• Геном одного человека отличается от генома
другого человека примерно в одном из 1000
символов
• Эти 0.1% отвечает за все...
Чтение
генома
Сборка
генома
Анализ
генома
На компьютере
Чтение и сборка генома
Несколько копий генома
17
Чтение и сборка генома
Несколько копий генома
Чтение
18
Чтение и сборка генома
Несколько копий генома
Чтения
Чтение
19
Чтение и сборка генома
Несколько копий генома
Чтения
Чтение
Сборка
20
Чтение и сборка генома
Несколько копий генома
Чтения
Собранный геном
…GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC…
Чтение
Сб...
Чтение генома
• Специальные
устройства -
секвенаторы
– Illumina
– Life Technologies
– Oxford Nanopore
– Pacific Biotechnol...
23
Карта секвенаторов
Объем данным ~15PB/год
Взаимодействие
биологов и
программистов
Сложная
структура
генома
Очень
большие
объемы
данных
Ошибки во
входных
данных
Слож...
Задача сборки генома
• Исходные данные –
набор чтений
• Результат – геномная
последовательность
• Проблема – не знаем
из к...
Объем данных
• Геном человека – 3 млрд.
символов
• Покрытие чтениями – 40 раз
• 120 Гб информации
Закон Мура – за 18
месяцев компьютеры
становятся в 2 раза
быстрее
Секвенаторы – в 10 раз
Разработка алгоритмов сборки гено...
Мифы о сборке генома
• Миф №1. Собрать геном – это просто
• Миф №2. Есть понимание, что значит
«собрать геном»
• Миф №3. С...
Миф №1
Собрать геном – это
просто
29
Кенигсбергские мосты
30
Эйлеров путь в графе
• Путь, который проходит
по каждому ребру ровно
один раз
• Существует способ
быстро определить, есть
...
Секвенирование с помощью ДНК-
чипов
• С помощью чипа
можно определить,
содержит ли геном
некоторую заданную
подстроку
• За...
33
Граф де Брёйна
• Ориентированный граф
• Вершины = строки
длины (k-1)
• Ребра = строки длины k
• Эйлеров путь в этом
гра...
Меньшее k
• AGCTAAGCTG
• AGCT
• GCTA
• CTAA
• TAAG
• AAGC
• AGCT
• GCTG
34
Меньшее k
• GCTAAGCTG
• Должно быть
AGCTAAGCTG
• Проблема
возникла из-за
повторов!
35
Меньшее k
• Если знать точное
число вхождений, то
проблема исправлена
36
Миф №2
Есть понимание, что
значит «собрать геном»
37
Математические модели сборки
генома
• Наименьшая общая надстрока
• Эйлеров путь в графе де Брейна
• Кратчайший суперпуть в...
Наименьшая общая надстрока
Чтения генома:
– AATGC
– GCATA
– CATAG
Искомая последовательность
AATGCATAG
Искомая последовательность
AATGCATAG
Искомая последовательность
AATGCATAG
Искомая последовательность
AATGCATAG
Проблема
• В реальных геномов много повторяющихся
участков достаточно большой длины
AGCTAGCTAT
AGCT
GCTA
TAGC
CTAT
TAGCTAT
Граф де Брёйна с кратностями
Чтения генома:
– AGCT
– GCTA
– TAGC
– CTAT
AGCT
AG GC
AGC
AGCT
GC CT
GCT
GCTA
GC CT
GCT
GCTA
CT TA
CTA
TAGC
TA AG
TAG
TAGC
AG GC
AGC
CTAT
CT TA
CTA
CTAT
TA AT
TAT
Кратчайший суперпуть в графе де
Брёйна с кратностями
AG GC
CTTA
AT
2
1 2
2
1
AGCT
AG GC
CTTA
AT
2
1 2
2
1
GCTA
AG GC
CTTA
AT
2
1 2
2
1
TAGC
AG GC
CTTA
AT
2
1 2
2
1
CTAT
AG GC
CTTA
AT
2
1 2
2
1
AG GC
CTTA
AT
2
1 2
2
1
AG
AG GC
CTTA
AT
1
1 2
2
1
AGC
AG GC
CTTA
AT
1
1 1
2
1
AGCT
AG GC
CTTA
AT
1
1 1
1
1
AGCTA
AG GC
CTTA
AT
1
0 1
1
1
AGCTAG
AG GC
CTTA
AT
0
0 1
1
1
AGCTAGC
AG GC
CTTA
AT
0
0 0
1
1
AGCTAGCT
AG GC
CTTA
AT
0
0 0
0
1
AGCTAGCTA
AG GC
CTTA
AT
0
0 0
0
0
AGCTAGCTAT
Сложность сборки генома для
различных моделей
• Наименьшая общая надстрока – NP-трудная
(Gallant et al., 1980)
• Эйлеров п...
NP-трудность задачи сборки генома
на графе де Брёйна с кратностями
• Открытая задача с 2009 года
• Результаты работы предс...
NP-трудность задачи сборки генома
на парном графе де Брёйна
• Открытая задача с 2011 года
• Результаты работы представлены...
Миф №3
Существующие
программы для сборки
генома хорошо его
собирают
71
Как работают сборщики геномов?
• Основаны на эвристических или
приближенных алгоритмах
• Собирают не целую геномную
послед...
Контиги
• Непрерывная последовательность, которая
с большой долей уверенности является
частью геномной последовательности
...
Скэффолд
• Скэффолд – последовательность контигов, для
которых известен их относительный порядок и
расстояния между ними
C...
Метрики сборки генома
• Длина кратчайшего
контига/скэффолда
• Длина наибольшего
контига/скэффолда
• Средняя длина контига/...
Метрики сборки генома
• N50/N90 – наибольшая длина контига
такая, что в контигах не меньшей
длины содержится 50/90% суммар...
Пример
• Длина контигов:
5, 7, 10, 15, 22, 24, 30, 45
• Длина кратчайшего – 5
• Длина наибольшего – 45
• Средняя длина – (...
Пример
• N50 = 24, так как
– 30 + 45 = 75 < 50% от 158
– 24 + 30 + 45 = 99 > 50% от 158
• Если длина генома 100, то NG50 =...
Что же делать?
• Сравнительные исследования работы
сборщиков на известных геномах
• Новые метрики, которые оценивают
наско...
Выводы
• Есть разрыв между теорией и
практикой сборки генома
• У задачи сборки генома нет
универсального решения
• Необход...
Благодарности
• Научный руководитель, зав. каф. ТП, докт.
техн. наук, проф. А. А. Шалыто
• Декан факультета ИТиП, докт. те...
Благодарности
• Директор центра «Биоинженерия» РАН
академик РАН К. Г. Скрябин
• Зав. лаб. геномики и эпигеномики
позвоночн...
Благодарности
• Сотрудники лаборатории «Алгоритмы сборки
геномных последовательностей»:
– Евгений Капун
– Алексей Сергушич...
Сотрудничество с Washington
University St. Louis
• Системная биология и биоинформатика
• Объединение нескольких видов
биол...
Email: fedor.tsarev@gmail.com
Twitter: @fedortsarev
Web: http://genome.ifmo.ru
Спасибо за внимание!
85
Сборка генома: мифы и
реальность
Царев Ф. Н., канд. техн. наук, доцент
кафедры «Компьютерные технологии»
III Всероссийский...
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых
Upcoming SlideShare
Loading in …5
×

Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых

3,115 views

Published on

Published in: Science

Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссийского конгресса молодых ученых

  1. 1. Сборка генома: мифы и реальность Царев Ф. Н., канд. техн. наук, доцент кафедры «Компьютерные технологии» III Всероссийский конгресс молодых ученых Санкт-Петербург, 08.04.2014
  2. 2. Зачем нужна биоинформатика? 2
  3. 3. 2014 год
  4. 4. 2030 год
  5. 5. 10 Геном • Совокупность всей наследственной информации организма • Как правило – закодирован в молекуле ДНК (у некоторых вирусов – РНК) • Двойная спираль • Четыре типа оснований: – A – аденин – T – тимин – G – гуанин – C – цитозин
  6. 6. 12 Размеры геномов Тип Организм Размер генома Комментарий Virus Bacteriophage MS2 3,569 3.5kb Первый прочитанный РНК-геном Virus Phage Φ- X174 5,386 5.4kb Первый прочитанный ДНК-геном Bacterium Escherichia coli 4,600,000 4.6Mb Plant Arabidopsis thaliana 157,000,000 157Mb Mammal Homo sapiens 3,200,000,000 3.2Gb Fish Protopterus aethiopicus 130,000,000,000 130Gb Самый большой известный геном позвоночного Plant Paris japonica 150,000,000,000 150Gb Самый большой известный геном растения
  7. 7. С 1990 года по 2001 год 3 000 000 000 «букв» $3 000 000 000 Проект «Геном человека»
  8. 8. • Геном одного человека отличается от генома другого человека примерно в одном из 1000 символов • Эти 0.1% отвечает за все различия между людьми …CTGATGATGGACTACGCTACTACTGCTAGCTGTAT TACGATCAGCTACCACATCGTAGCTACGATGCATTA GGATCGCGGGACTATTATCGACTACAGATAAAACAT GCTAGTACAACAGTATACATAGCTGCGGGATACGAT TAGCTAATAGCTGACGATATCCGA… …CTGATGATGGACTACGCTACTACTGCTAGCTGTAT TACGATCAGCTACAACATCGTAGCTACGATGCATTA GGATCGCGTGACTATTATCGACTACAGATGAAACAT GCTAGTACAACAGTATACATAGCTGCGGGATACGAT TAGCTAATAGCTGACGATATCCGA… Геном человека
  9. 9. Чтение генома Сборка генома Анализ генома На компьютере
  10. 10. Чтение и сборка генома Несколько копий генома 17
  11. 11. Чтение и сборка генома Несколько копий генома Чтение 18
  12. 12. Чтение и сборка генома Несколько копий генома Чтения Чтение 19
  13. 13. Чтение и сборка генома Несколько копий генома Чтения Чтение Сборка 20
  14. 14. Чтение и сборка генома Несколько копий генома Чтения Собранный геном …GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC… Чтение Сборка 21
  15. 15. Чтение генома • Специальные устройства - секвенаторы – Illumina – Life Technologies – Oxford Nanopore – Pacific Biotechnologies 22
  16. 16. 23 Карта секвенаторов Объем данным ~15PB/год
  17. 17. Взаимодействие биологов и программистов Сложная структура генома Очень большие объемы данных Ошибки во входных данных Сложность задачи сборки генома Новые технологии секвенирования Новые технологии сборки Цель: один геном за 1000$ 24
  18. 18. Задача сборки генома • Исходные данные – набор чтений • Результат – геномная последовательность • Проблема – не знаем из какой части генома прочитано каждое чтение 25
  19. 19. Объем данных • Геном человека – 3 млрд. символов • Покрытие чтениями – 40 раз • 120 Гб информации
  20. 20. Закон Мура – за 18 месяцев компьютеры становятся в 2 раза быстрее Секвенаторы – в 10 раз Разработка алгоритмов сборки геномных последовательностей для вычислительных систем экзафлопсного уровня производительности
  21. 21. Мифы о сборке генома • Миф №1. Собрать геном – это просто • Миф №2. Есть понимание, что значит «собрать геном» • Миф №3. Существующие программы для сборки генома хорошо его собирают 28
  22. 22. Миф №1 Собрать геном – это просто 29
  23. 23. Кенигсбергские мосты 30
  24. 24. Эйлеров путь в графе • Путь, который проходит по каждому ребру ровно один раз • Существует способ быстро определить, есть ли в графе такой путь 31
  25. 25. Секвенирование с помощью ДНК- чипов • С помощью чипа можно определить, содержит ли геном некоторую заданную подстроку • Зафиксируем длину строки k • Рассмотрим чип для всех 4k строк длины k 32
  26. 26. 33 Граф де Брёйна • Ориентированный граф • Вершины = строки длины (k-1) • Ребра = строки длины k • Эйлеров путь в этом графе соответствует геномной последовательности
  27. 27. Меньшее k • AGCTAAGCTG • AGCT • GCTA • CTAA • TAAG • AAGC • AGCT • GCTG 34
  28. 28. Меньшее k • GCTAAGCTG • Должно быть AGCTAAGCTG • Проблема возникла из-за повторов! 35
  29. 29. Меньшее k • Если знать точное число вхождений, то проблема исправлена 36
  30. 30. Миф №2 Есть понимание, что значит «собрать геном» 37
  31. 31. Математические модели сборки генома • Наименьшая общая надстрока • Эйлеров путь в графе де Брейна • Кратчайший суперпуть в графе де Брейна • Суперпуть в графе де Брейна с кратностями • Путь в парном графе де Брейна • Не учитывают ошибки секвенирования! 38
  32. 32. Наименьшая общая надстрока Чтения генома: – AATGC – GCATA – CATAG
  33. 33. Искомая последовательность AATGCATAG
  34. 34. Искомая последовательность AATGCATAG
  35. 35. Искомая последовательность AATGCATAG
  36. 36. Искомая последовательность AATGCATAG
  37. 37. Проблема • В реальных геномов много повторяющихся участков достаточно большой длины AGCTAGCTAT AGCT GCTA TAGC CTAT TAGCTAT
  38. 38. Граф де Брёйна с кратностями Чтения генома: – AGCT – GCTA – TAGC – CTAT
  39. 39. AGCT AG GC AGC
  40. 40. AGCT GC CT GCT
  41. 41. GCTA GC CT GCT
  42. 42. GCTA CT TA CTA
  43. 43. TAGC TA AG TAG
  44. 44. TAGC AG GC AGC
  45. 45. CTAT CT TA CTA
  46. 46. CTAT TA AT TAT
  47. 47. Кратчайший суперпуть в графе де Брёйна с кратностями AG GC CTTA AT 2 1 2 2 1
  48. 48. AGCT AG GC CTTA AT 2 1 2 2 1
  49. 49. GCTA AG GC CTTA AT 2 1 2 2 1
  50. 50. TAGC AG GC CTTA AT 2 1 2 2 1
  51. 51. CTAT AG GC CTTA AT 2 1 2 2 1
  52. 52. AG GC CTTA AT 2 1 2 2 1 AG
  53. 53. AG GC CTTA AT 1 1 2 2 1 AGC
  54. 54. AG GC CTTA AT 1 1 1 2 1 AGCT
  55. 55. AG GC CTTA AT 1 1 1 1 1 AGCTA
  56. 56. AG GC CTTA AT 1 0 1 1 1 AGCTAG
  57. 57. AG GC CTTA AT 0 0 1 1 1 AGCTAGC
  58. 58. AG GC CTTA AT 0 0 0 1 1 AGCTAGCT
  59. 59. AG GC CTTA AT 0 0 0 0 1 AGCTAGCTA
  60. 60. AG GC CTTA AT 0 0 0 0 0 AGCTAGCTAT
  61. 61. Сложность сборки генома для различных моделей • Наименьшая общая надстрока – NP-трудная (Gallant et al., 1980) • Эйлеров путь в графе де Брейна – решается за время, пропорциональное размеру входных данных (Pevzner et al., 1989) • Суперпуть в графе де Брейна – NP-трудная (Medvedev et al., 2007) • Суперпуть в графе де Брейна с кратностями – NP-трудная (Kapun and Tsarev, 2013) • Путь в парном графе де Брейна – NP-трудная (Kapun and Tsarev, 2013) 68
  62. 62. NP-трудность задачи сборки генома на графе де Брёйна с кратностями • Открытая задача с 2009 года • Результаты работы представлены на конференции RECOMB-Seq 2013 и опубликованы в журнале BMC Bioinformatics 69
  63. 63. NP-трудность задачи сборки генома на парном графе де Брёйна • Открытая задача с 2011 года • Результаты работы представлены на семинаре WABI в рамках конференции ALGO 2013 70
  64. 64. Миф №3 Существующие программы для сборки генома хорошо его собирают 71
  65. 65. Как работают сборщики геномов? • Основаны на эвристических или приближенных алгоритмах • Собирают не целую геномную последовательность, а контиги и скэффолды • Распространенные метрики сборки генома мало связаны с качеством сборки 72
  66. 66. Контиги • Непрерывная последовательность, которая с большой долей уверенности является частью геномной последовательности Contig 73
  67. 67. Скэффолд • Скэффолд – последовательность контигов, для которых известен их относительный порядок и расстояния между ними ContigContig Contig Scaffold 74
  68. 68. Метрики сборки генома • Длина кратчайшего контига/скэффолда • Длина наибольшего контига/скэффолда • Средняя длина контига/скэффолда 75
  69. 69. Метрики сборки генома • N50/N90 – наибольшая длина контига такая, что в контигах не меньшей длины содержится 50/90% суммарной длины контигов • NG50/N90 – наибольшая длина контига такая, что в контигах не меньшей длины содержится 50/90% суммарной длины генома • Аналогично – для скэффолдов 76
  70. 70. Пример • Длина контигов: 5, 7, 10, 15, 22, 24, 30, 45 • Длина кратчайшего – 5 • Длина наибольшего – 45 • Средняя длина – (5 + 7 + 10 + 15 + 122+ 24 + 30 + 45) / 8 = 19.75 77
  71. 71. Пример • N50 = 24, так как – 30 + 45 = 75 < 50% от 158 – 24 + 30 + 45 = 99 > 50% от 158 • Если длина генома 100, то NG50 = 30 • Если длина генома 200, то NG50 = 22 78
  72. 72. Что же делать? • Сравнительные исследования работы сборщиков на известных геномах • Новые метрики, которые оценивают насколько результат сборки соответствует чтениям, которые были на входе 79
  73. 73. Выводы • Есть разрыв между теорией и практикой сборки генома • У задачи сборки генома нет универсального решения • Необходимы новые математические модели, алгоритмы сборки генома и метрики качества 80
  74. 74. Благодарности • Научный руководитель, зав. каф. ТП, докт. техн. наук, проф. А. А. Шалыто • Декан факультета ИТиП, докт. техн. наук, проф. В. Г. Парфенов • Ректор НИУ ИТМО, докт. техн. наук, проф., чл.-корр. РАН В. Н. Васильев 81
  75. 75. Благодарности • Директор центра «Биоинженерия» РАН академик РАН К. Г. Скрябин • Зав. лаб. геномики и эпигеномики позвоночных Центра «Биоинженерия» РАН, докт. биол. наук Е. Б. Прохорчук 82
  76. 76. Благодарности • Сотрудники лаборатории «Алгоритмы сборки геномных последовательностей»: – Евгений Капун – Алексей Сергушичев – Антон Александров – Сергей Казаков – Павел Федотов – Антон Ахи – Сергей Мельников • Сотрудники МНЛ «Компьютерные технологии» 83
  77. 77. Сотрудничество с Washington University St. Louis • Системная биология и биоинформатика • Объединение нескольких видов биологических данных для анализа одного и того же процесса в клетке 84
  78. 78. Email: fedor.tsarev@gmail.com Twitter: @fedortsarev Web: http://genome.ifmo.ru Спасибо за внимание! 85
  79. 79. Сборка генома: мифы и реальность Царев Ф. Н., канд. техн. наук, доцент кафедры «Компьютерные технологии» III Всероссийский конгресс молодых ученых Санкт-Петербург, 08.04.2014

×