SlideShare a Scribd company logo
1 of 19
Download to read offline
Описание задачи Описание применяемого метода Заключение
Сборка контигов геномной
последовательности на основе метода
максимального правдоподобия
Шагал А. А.
Научный руководитель к.т.н., доцент каф. КТ
Царев Ф. Н.
Университет ИТМО
16 июня 2014 г.
1/19
Описание задачи Описание применяемого метода Заключение
Геном
Наследственная информация организма
ДНК для большинства организмов, РНК для вирусов
Двойная спираль
A - аденин
С - цитозин
T - тимин
G - гуанин
Исследование генома
Чтение данных
Сборка генома
Анализ генома
2/19
Описание задачи Описание применяемого метода Заключение
Сборка генома
Исправление ошибок
Парные чтения - префикс и суффикс фрагмента генома
Квазиконтиги - фрагменты генома
Контиги - более длинные фрагменты генома
Скэффолды
3/19
Описание задачи Описание применяемого метода Заключение
Overlap-Layout-Consensus
ATGCCATCAGGACT
CCATCAGGACTAAC
center
shift
C1
C2
CATCAGGACT
CCATCAGGACTAAC
center
shift
C1
C2
Поиск перекрытий
Удаление транзитивных перекрытий
Построение графа перекрытий и его упрощение
Вывод первого приближения контигов
Микросборка
4/19
Описание задачи Описание применяемого метода Заключение
Граф перекрытий
Вершины - квазиконтиги
Ребра - перекрытия
Размер перекрытия ∼ вес
ребра
Цель: несколько простых
путей
Проблема: развилки
AGCT
GCTTT
GCTA
TGC
31
3
1
1
2
5/19
Описание задачи Описание применяемого метода Заключение
Упрощение графа перекрытий
Объединение схожих путей
Удаление отростков
Удаление не максимальных по весу ребер
Влияние ошибочных ребер
ошибочный путь
уменьшение средней длины
6/19
Описание задачи Описание применяемого метода Заключение
Упрощение графа перекрытий, продолжение
Оценка правдоподобия ребер
P(e) = 1 − Pw(e)
e - ребро
P(e) правдоподобие ребра
Pw(e) оценочная вероятность ребра оказаться ошибочным
A
B D
C
AC, AD, BC, BD
7/19
Описание задачи Описание применяемого метода Заключение
Постановка задачи
Разработать метод тестирования путей на основе
статистических тестов
Разработать статистики для статистических тестов
Примененить методику тестированию путей для
распутывания графа перекрытий
8/19
Описание задачи Описание применяемого метода Заключение
Статистические тесты
Модель получения чтений
Равномерно выбирается позиция
Исходя из нормального распределения выбирается
длина фрагмента
Тестирование пути
Нулевая гипотеза(H0) - путь существует в геноме
Статистика(f) - числовая функция от набора чтений и
информации о пути.
Покрытие генома
Нормальность распределения длин парных чтений
Информация о позиции "сомнительного"фрагмента
Пример: f(набор чтений + информация о пути) = длина
самого правого чтения.
9/19
Описание задачи Описание применяемого метода Заключение
Статистические тесты
путь
+
информация о нем
набор чтений,
скартировавшихся на путь
генератор
+
модель получения чтений
+
нулевая гипотеза
1000 * набор чтений
1000 * f(набор чтений)
value
value
p-value
статистика(f)
статистика(f)
10/19
Описание задачи Описание применяемого метода Заключение
Статистика №1
fragmentlength - длина фрагмента из которого было
получено парное чтение.
Короткий повтор ∼ fragmentlength
Длинный повтор ≫ длина парного чтения(fragmentlength)
<fragmentlength<fragmentlength
>fragmentlength
Число чтений, таких, что левый конец слева от повтора,
правый справа
11/19
Описание задачи Описание применяемого метода Заключение
Статистика №2
покрытий чтениями
n
pos
короткий повтор
Минимальное покрытие
Отсортировать покрытия
Выделить 10% минимальных
Взять среднее
12/19
Описание задачи Описание применяемого метода Заключение
Тестирование статистик
5 статистик
Среднее покрытие
Минимальное покрытие
Отклонение нормального распределения
Минимальная длина фрагмента
Покрытие повтора
≥ 1 статистики срабатывает → отвергается нулевая
гипотеза
E.coli, 4 типа путей, 10000 каждого типа, 5000
нуклеотидов
Правильные пути
Короткие повторы
Длинные повторы
Ошибки
13/19
Описание задачи Описание применяемого метода Заключение
Тестирование статистик, продолжение
Правильные пути - 7% ошибок
Короткие повторы - 10% ошибок
Длинные повторы - 5% правильно
Ошибки - 10% правильно
14/19
Описание задачи Описание применяемого метода Заключение
Запутанность
V1, V2− наборы простых
путей, E набор путей
соединяющих V1 и V2
Набор путей вида v1ieiv2i,
где
v1i ∈ V1; ei ∈ E; v2i ∈ V2
Поиск запутанностей:
bfs от концов простых
путей
V2
E
V1
15/19
Описание задачи Описание применяемого метода Заключение
Общая схема решения
Поиск запутанностей
Картирование чтений на пути образующие запутанности
Проведение статистических тестов
Расспутывание запутанности
16/19
Описание задачи Описание применяемого метода Заключение
Результаты
Эксперименты по тестированию путей образующих
запутанности
E.coli 500К квазиконтигов
30 запутанностей, 113 путей, 28 ошибочных
Результат: 90% ошибок найдено
17/19
Описание задачи Описание применяемого метода Заключение
Результаты, продолжение
ITMO Genome
Assembler
ITMO Genome Assembler
c оценкой правдоподобия
ребер
ITMO Genome Assembler с
применением методики
N50 13534 13614 15592
Суммарная длина
контигов
4530812 4557888 4558125
Число контигов 572 579 561
Число ошибочных
контигов
9 4 4
18/19
Описание задачи Описание применяемого метода Заключение
Заключение
Разработана методика проведения статистических
тестов
Предложен набор статистик основанных на модели
получения данных
Предложенный подход улучшает качество сборки
Дальше:
Разработка новых статистик
Использование информации о повторах при генерации
наборов чтений
Оптимизация производительности
19/19

More Related Content

More from Университет ИТМО

Фабрика мысли НИУ ИТМО. Игра «Робототехника»
Фабрика мысли НИУ ИТМО.Игра «Робототехника»Фабрика мысли НИУ ИТМО.Игра «Робототехника»
Фабрика мысли НИУ ИТМО. Игра «Робототехника»Университет ИТМО
 
Интеллектуальные робототехнические системы
Интеллектуальные робототехнические системыИнтеллектуальные робототехнические системы
Интеллектуальные робототехнические системыУниверситет ИТМО
 
Влияние инноваций в информационных технологиях на систему образования как ф...
Влияние инноваций в информационных технологиях  на систему образования  как ф...Влияние инноваций в информационных технологиях  на систему образования  как ф...
Влияние инноваций в информационных технологиях на систему образования как ф...Университет ИТМО
 
Система для визуального контроля загруженности высокопроизводительных многояд...
Система для визуального контроля загруженности высокопроизводительных многояд...Система для визуального контроля загруженности высокопроизводительных многояд...
Система для визуального контроля загруженности высокопроизводительных многояд...Университет ИТМО
 

More from Университет ИТМО (8)

Фабрика мысли НИУ ИТМО. Игра «Робототехника»
Фабрика мысли НИУ ИТМО.Игра «Робототехника»Фабрика мысли НИУ ИТМО.Игра «Робототехника»
Фабрика мысли НИУ ИТМО. Игра «Робототехника»
 
Состояние по ПКС в НИУ ИТМО
Состояние по ПКС в НИУ ИТМОСостояние по ПКС в НИУ ИТМО
Состояние по ПКС в НИУ ИТМО
 
Интеллектуальные робототехнические системы
Интеллектуальные робототехнические системыИнтеллектуальные робототехнические системы
Интеллектуальные робототехнические системы
 
Влияние инноваций в информационных технологиях на систему образования как ф...
Влияние инноваций в информационных технологиях  на систему образования  как ф...Влияние инноваций в информационных технологиях  на систему образования  как ф...
Влияние инноваций в информационных технологиях на систему образования как ф...
 
Программа ЭВРИКА-II
Программа ЭВРИКА-II Программа ЭВРИКА-II
Программа ЭВРИКА-II
 
Роль IT в развитии города
Роль IT в развитии городаРоль IT в развитии города
Роль IT в развитии города
 
Urban Transformation
Urban TransformationUrban Transformation
Urban Transformation
 
Система для визуального контроля загруженности высокопроизводительных многояд...
Система для визуального контроля загруженности высокопроизводительных многояд...Система для визуального контроля загруженности высокопроизводительных многояд...
Система для визуального контроля загруженности высокопроизводительных многояд...
 

Сборка контигов геномной последовательности на основе метода максимального правдоподобия

  • 1. Описание задачи Описание применяемого метода Заключение Сборка контигов геномной последовательности на основе метода максимального правдоподобия Шагал А. А. Научный руководитель к.т.н., доцент каф. КТ Царев Ф. Н. Университет ИТМО 16 июня 2014 г. 1/19
  • 2. Описание задачи Описание применяемого метода Заключение Геном Наследственная информация организма ДНК для большинства организмов, РНК для вирусов Двойная спираль A - аденин С - цитозин T - тимин G - гуанин Исследование генома Чтение данных Сборка генома Анализ генома 2/19
  • 3. Описание задачи Описание применяемого метода Заключение Сборка генома Исправление ошибок Парные чтения - префикс и суффикс фрагмента генома Квазиконтиги - фрагменты генома Контиги - более длинные фрагменты генома Скэффолды 3/19
  • 4. Описание задачи Описание применяемого метода Заключение Overlap-Layout-Consensus ATGCCATCAGGACT CCATCAGGACTAAC center shift C1 C2 CATCAGGACT CCATCAGGACTAAC center shift C1 C2 Поиск перекрытий Удаление транзитивных перекрытий Построение графа перекрытий и его упрощение Вывод первого приближения контигов Микросборка 4/19
  • 5. Описание задачи Описание применяемого метода Заключение Граф перекрытий Вершины - квазиконтиги Ребра - перекрытия Размер перекрытия ∼ вес ребра Цель: несколько простых путей Проблема: развилки AGCT GCTTT GCTA TGC 31 3 1 1 2 5/19
  • 6. Описание задачи Описание применяемого метода Заключение Упрощение графа перекрытий Объединение схожих путей Удаление отростков Удаление не максимальных по весу ребер Влияние ошибочных ребер ошибочный путь уменьшение средней длины 6/19
  • 7. Описание задачи Описание применяемого метода Заключение Упрощение графа перекрытий, продолжение Оценка правдоподобия ребер P(e) = 1 − Pw(e) e - ребро P(e) правдоподобие ребра Pw(e) оценочная вероятность ребра оказаться ошибочным A B D C AC, AD, BC, BD 7/19
  • 8. Описание задачи Описание применяемого метода Заключение Постановка задачи Разработать метод тестирования путей на основе статистических тестов Разработать статистики для статистических тестов Примененить методику тестированию путей для распутывания графа перекрытий 8/19
  • 9. Описание задачи Описание применяемого метода Заключение Статистические тесты Модель получения чтений Равномерно выбирается позиция Исходя из нормального распределения выбирается длина фрагмента Тестирование пути Нулевая гипотеза(H0) - путь существует в геноме Статистика(f) - числовая функция от набора чтений и информации о пути. Покрытие генома Нормальность распределения длин парных чтений Информация о позиции "сомнительного"фрагмента Пример: f(набор чтений + информация о пути) = длина самого правого чтения. 9/19
  • 10. Описание задачи Описание применяемого метода Заключение Статистические тесты путь + информация о нем набор чтений, скартировавшихся на путь генератор + модель получения чтений + нулевая гипотеза 1000 * набор чтений 1000 * f(набор чтений) value value p-value статистика(f) статистика(f) 10/19
  • 11. Описание задачи Описание применяемого метода Заключение Статистика №1 fragmentlength - длина фрагмента из которого было получено парное чтение. Короткий повтор ∼ fragmentlength Длинный повтор ≫ длина парного чтения(fragmentlength) <fragmentlength<fragmentlength >fragmentlength Число чтений, таких, что левый конец слева от повтора, правый справа 11/19
  • 12. Описание задачи Описание применяемого метода Заключение Статистика №2 покрытий чтениями n pos короткий повтор Минимальное покрытие Отсортировать покрытия Выделить 10% минимальных Взять среднее 12/19
  • 13. Описание задачи Описание применяемого метода Заключение Тестирование статистик 5 статистик Среднее покрытие Минимальное покрытие Отклонение нормального распределения Минимальная длина фрагмента Покрытие повтора ≥ 1 статистики срабатывает → отвергается нулевая гипотеза E.coli, 4 типа путей, 10000 каждого типа, 5000 нуклеотидов Правильные пути Короткие повторы Длинные повторы Ошибки 13/19
  • 14. Описание задачи Описание применяемого метода Заключение Тестирование статистик, продолжение Правильные пути - 7% ошибок Короткие повторы - 10% ошибок Длинные повторы - 5% правильно Ошибки - 10% правильно 14/19
  • 15. Описание задачи Описание применяемого метода Заключение Запутанность V1, V2− наборы простых путей, E набор путей соединяющих V1 и V2 Набор путей вида v1ieiv2i, где v1i ∈ V1; ei ∈ E; v2i ∈ V2 Поиск запутанностей: bfs от концов простых путей V2 E V1 15/19
  • 16. Описание задачи Описание применяемого метода Заключение Общая схема решения Поиск запутанностей Картирование чтений на пути образующие запутанности Проведение статистических тестов Расспутывание запутанности 16/19
  • 17. Описание задачи Описание применяемого метода Заключение Результаты Эксперименты по тестированию путей образующих запутанности E.coli 500К квазиконтигов 30 запутанностей, 113 путей, 28 ошибочных Результат: 90% ошибок найдено 17/19
  • 18. Описание задачи Описание применяемого метода Заключение Результаты, продолжение ITMO Genome Assembler ITMO Genome Assembler c оценкой правдоподобия ребер ITMO Genome Assembler с применением методики N50 13534 13614 15592 Суммарная длина контигов 4530812 4557888 4558125 Число контигов 572 579 561 Число ошибочных контигов 9 4 4 18/19
  • 19. Описание задачи Описание применяемого метода Заключение Заключение Разработана методика проведения статистических тестов Предложен набор статистик основанных на модели получения данных Предложенный подход улучшает качество сборки Дальше: Разработка новых статистик Использование информации о повторах при генерации наборов чтений Оптимизация производительности 19/19