Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

5,571 views

Published on

  • Be the first to comment

  • Be the first to like this

Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

  1. 1. Совместное применение графов де Брѐйна, графов перекрытий и микросборки для de novo сборки генома Александров А. В., Казаков С. В., Мельников С. В., Сергушичев А. А., Федотов П. В., Царев Ф. Н., Шалыто А. А.Лаборатория «Алгоритмы сборки геномных последовательностей» Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики Казань, 2012
  2. 2. Секвенирование генома• Геном – строка над алфавитом {A, T, G, C}.• Секвенаторы первого поколения читают «длинные» фрагментами (~1000 нуклеотидов). – Долго и дорого.• Секвенаторы второго поколения читают «короткие» фрагменты. – Намного быстрее и дешевле.• Необходимо покрыть геном чтениями несколько десятков раз. ДНК Фрагмент (~500 нуклеотидов) Парные чтения (риды) (по ~100 нуклеотидов) 2
  3. 3. Алгоритм Граф де БрѐйнаИсправление Сборка Начальная Микро- Сборка ошибок квази- сборка сборка скэффолдов контигов контигов контигов Граф перекрытий 3
  4. 4. Исправление ошибок• K-меры – подстроки длины k.• «Надежные» и «ненадежные» k-меры.• Исправить «ненадежные» k-меры на «надежные».• Все k-меры не влезают в память. • Разделить их на корзины согласно префиксам. • Обрабатывать корзины отдельно. 4
  5. 5. Сборка квазиконтиговATGC ??? GTCCATGC ATGCATGCAGTG GTCC 5
  6. 6. Граф де Брѐйна 6
  7. 7. Пример графа де Брѐйна (1) 7
  8. 8. Пример графа де Брѐйна (2) GTC TCA CAT ATC TCCAGT GTG CCA CAC CAAGAG GGA AGG CAG ACA AAC 8
  9. 9. Сборка квазиконтигов• Построим граф де Брѐйна.• Для каждой пары чтений (r1, r2) найдем путь от первого k-мера r1 до последнего k-мера r2.• Длина пути должна укладываться в априорные границы.• Путь должен быть единственным. 9
  10. 10. Пример графа де Брѐйна (3) 10
  11. 11. Пример графа де Брѐйна (4) 11
  12. 12. Уникальные пути преобразуются в квазиконтиги
  13. 13. Сборка первых версий контигов• Overlap – Суффиксный массив – Неточные перекрытия• Layout – Граф перекрытий• Consensus 13
  14. 14. Микросборка• Есть парные чтения, концы которых расположены на разных контигах.• Промежуток между контигами покрыт чтениями, парными к расположенным на обоих контигах. 14
  15. 15. Алгоритм микросборки• Найдем позиции парных чтений в контигах (Bowtie).• Найдем такие пары контигов, что их соединяет достаточно большое число чтений.• Построим граф де Брѐйна из парных чтений, как минимум одно из которых расположено в одном из этих контигов.• Воспользуемся алгоритмом сборки квазиконтигов для заполнения промежутка. 15
  16. 16. Результаты• Геном E. Coli – 4,5 миллионов нуклеотидов.• Библиотека SRR001665, длина фрагмента – 200 нуклеотидов, длина чтений – 36 нуклеотидов, покрытие – 300.• До микросборки – 525 контигов с N50 = 17804.• После микросборки – 247 контигов с N50 = 53720.• ABySS – 632 контига с N50 = 64280. 16
  17. 17. Интернет-сервис• http://genome.ifmo.ru/cloud 17
  18. 18. Благодарности• Академик РАН Скрябин К. Г., Центр «Биоинженерия» РАН.• Докт. биол. наук Прохорчук Е. Б., Центр «Биоинженерия» РАН.• Алексеев Д. Г., НИИ ФХМ. 18
  19. 19. Вопросы? 19

×