SlideShare a Scribd company logo
1 of 19
Download to read offline
Описание задачи Описание применяемого метода Заключение
Сборка контигов геномной
последовательности на основе метода
максимального правдоподобия
Шагал А. А.
Научный руководитель к.т.н., доцент каф. КТ
Царев Ф. Н.
Университет ИТМО
16 июня 2014 г.
1/19
Описание задачи Описание применяемого метода Заключение
Геном
Наследственная информация организма
ДНК для большинства организмов, РНК для вирусов
Двойная спираль
A - аденин
С - цитозин
T - тимин
G - гуанин
Исследование генома
Чтение данных
Сборка генома
Анализ генома
2/19
Описание задачи Описание применяемого метода Заключение
Сборка генома
Исправление ошибок
Парные чтения - префикс и суффикс фрагмента генома
Квазиконтиги - фрагменты генома
Контиги - более длинные фрагменты генома
Скэффолды
3/19
Описание задачи Описание применяемого метода Заключение
Overlap-Layout-Consensus
ATGCCATCAGGACT
CCATCAGGACTAAC
center
shift
C1
C2
CATCAGGACT
CCATCAGGACTAAC
center
shift
C1
C2
Поиск перекрытий
Удаление транзитивных перекрытий
Построение графа перекрытий и его упрощение
Вывод первого приближения контигов
Микросборка
4/19
Описание задачи Описание применяемого метода Заключение
Граф перекрытий
Вершины - квазиконтиги
Ребра - перекрытия
Размер перекрытия ∼ вес
ребра
Цель: несколько простых
путей
Проблема: развилки
AGCT
GCTTT
GCTA
TGC
31
3
1
1
2
5/19
Описание задачи Описание применяемого метода Заключение
Упрощение графа перекрытий
Объединение схожих путей
Удаление отростков
Удаление не максимальных по весу ребер
Влияние ошибочных ребер
ошибочный путь
уменьшение средней длины
6/19
Описание задачи Описание применяемого метода Заключение
Упрощение графа перекрытий, продолжение
Оценка правдоподобия ребер
P(e) = 1 − Pw(e)
e - ребро
P(e) правдоподобие ребра
Pw(e) оценочная вероятность ребра оказаться ошибочным
A
B D
C
AC, AD, BC, BD
7/19
Описание задачи Описание применяемого метода Заключение
Постановка задачи
Разработать метод тестирования путей на основе
статистических тестов
Разработать статистики для статистических тестов
Примененить методику тестированию путей для
распутывания графа перекрытий
8/19
Описание задачи Описание применяемого метода Заключение
Статистические тесты
Модель получения чтений
Равномерно выбирается позиция
Исходя из нормального распределения выбирается
длина фрагмента
Тестирование пути
Нулевая гипотеза(H0) - путь существует в геноме
Статистика(f) - числовая функция от набора чтений и
информации о пути.
Покрытие генома
Нормальность распределения длин парных чтений
Информация о позиции "сомнительного"фрагмента
Пример: f(набор чтений + информация о пути) = длина
самого правого чтения.
9/19
Описание задачи Описание применяемого метода Заключение
Статистические тесты
путь
+
информация о нем
набор чтений,
скартировавшихся на путь
генератор
+
модель получения чтений
+
нулевая гипотеза
1000 * набор чтений
1000 * f(набор чтений)
value
value
p-value
статистика(f)
статистика(f)
10/19
Описание задачи Описание применяемого метода Заключение
Статистика №1
fragmentlength - длина фрагмента из которого было
получено парное чтение.
Короткий повтор ∼ fragmentlength
Длинный повтор ≫ длина парного чтения(fragmentlength)
<fragmentlength<fragmentlength
>fragmentlength
Число чтений, таких, что левый конец слева от повтора,
правый справа
11/19
Описание задачи Описание применяемого метода Заключение
Статистика №2
покрытий чтениями
n
pos
короткий повтор
Минимальное покрытие
Отсортировать покрытия
Выделить 10% минимальных
Взять среднее
12/19
Описание задачи Описание применяемого метода Заключение
Тестирование статистик
5 статистик
Среднее покрытие
Минимальное покрытие
Отклонение нормального распределения
Минимальная длина фрагмента
Покрытие повтора
≥ 1 статистики срабатывает → отвергается нулевая
гипотеза
E.coli, 4 типа путей, 10000 каждого типа, 5000
нуклеотидов
Правильные пути
Короткие повторы
Длинные повторы
Ошибки
13/19
Описание задачи Описание применяемого метода Заключение
Тестирование статистик, продолжение
Правильные пути - 7% ошибок
Короткие повторы - 10% ошибок
Длинные повторы - 5% правильно
Ошибки - 10% правильно
14/19
Описание задачи Описание применяемого метода Заключение
Запутанность
V1, V2− наборы простых
путей, E набор путей
соединяющих V1 и V2
Набор путей вида v1ieiv2i,
где
v1i ∈ V1; ei ∈ E; v2i ∈ V2
Поиск запутанностей:
bfs от концов простых
путей
V2
E
V1
15/19
Описание задачи Описание применяемого метода Заключение
Общая схема решения
Поиск запутанностей
Картирование чтений на пути образующие запутанности
Проведение статистических тестов
Расспутывание запутанности
16/19
Описание задачи Описание применяемого метода Заключение
Результаты
Эксперименты по тестированию путей образующих
запутанности
E.coli 500К квазиконтигов
30 запутанностей, 113 путей, 28 ошибочных
Результат: 90% ошибок найдено
17/19
Описание задачи Описание применяемого метода Заключение
Результаты, продолжение
ITMO Genome
Assembler
ITMO Genome Assembler
c оценкой правдоподобия
ребер
ITMO Genome Assembler с
применением методики
N50 13534 13614 15592
Суммарная длина
контигов
4530812 4557888 4558125
Число контигов 572 579 561
Число ошибочных
контигов
9 4 4
18/19
Описание задачи Описание применяемого метода Заключение
Заключение
Разработана методика проведения статистических
тестов
Предложен набор статистик основанных на модели
получения данных
Предложенный подход улучшает качество сборки
Дальше:
Разработка новых статистик
Использование информации о повторах при генерации
наборов чтений
Оптимизация производительности
19/19

More Related Content

Featured

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

Presentation

  • 1. Описание задачи Описание применяемого метода Заключение Сборка контигов геномной последовательности на основе метода максимального правдоподобия Шагал А. А. Научный руководитель к.т.н., доцент каф. КТ Царев Ф. Н. Университет ИТМО 16 июня 2014 г. 1/19
  • 2. Описание задачи Описание применяемого метода Заключение Геном Наследственная информация организма ДНК для большинства организмов, РНК для вирусов Двойная спираль A - аденин С - цитозин T - тимин G - гуанин Исследование генома Чтение данных Сборка генома Анализ генома 2/19
  • 3. Описание задачи Описание применяемого метода Заключение Сборка генома Исправление ошибок Парные чтения - префикс и суффикс фрагмента генома Квазиконтиги - фрагменты генома Контиги - более длинные фрагменты генома Скэффолды 3/19
  • 4. Описание задачи Описание применяемого метода Заключение Overlap-Layout-Consensus ATGCCATCAGGACT CCATCAGGACTAAC center shift C1 C2 CATCAGGACT CCATCAGGACTAAC center shift C1 C2 Поиск перекрытий Удаление транзитивных перекрытий Построение графа перекрытий и его упрощение Вывод первого приближения контигов Микросборка 4/19
  • 5. Описание задачи Описание применяемого метода Заключение Граф перекрытий Вершины - квазиконтиги Ребра - перекрытия Размер перекрытия ∼ вес ребра Цель: несколько простых путей Проблема: развилки AGCT GCTTT GCTA TGC 31 3 1 1 2 5/19
  • 6. Описание задачи Описание применяемого метода Заключение Упрощение графа перекрытий Объединение схожих путей Удаление отростков Удаление не максимальных по весу ребер Влияние ошибочных ребер ошибочный путь уменьшение средней длины 6/19
  • 7. Описание задачи Описание применяемого метода Заключение Упрощение графа перекрытий, продолжение Оценка правдоподобия ребер P(e) = 1 − Pw(e) e - ребро P(e) правдоподобие ребра Pw(e) оценочная вероятность ребра оказаться ошибочным A B D C AC, AD, BC, BD 7/19
  • 8. Описание задачи Описание применяемого метода Заключение Постановка задачи Разработать метод тестирования путей на основе статистических тестов Разработать статистики для статистических тестов Примененить методику тестированию путей для распутывания графа перекрытий 8/19
  • 9. Описание задачи Описание применяемого метода Заключение Статистические тесты Модель получения чтений Равномерно выбирается позиция Исходя из нормального распределения выбирается длина фрагмента Тестирование пути Нулевая гипотеза(H0) - путь существует в геноме Статистика(f) - числовая функция от набора чтений и информации о пути. Покрытие генома Нормальность распределения длин парных чтений Информация о позиции "сомнительного"фрагмента Пример: f(набор чтений + информация о пути) = длина самого правого чтения. 9/19
  • 10. Описание задачи Описание применяемого метода Заключение Статистические тесты путь + информация о нем набор чтений, скартировавшихся на путь генератор + модель получения чтений + нулевая гипотеза 1000 * набор чтений 1000 * f(набор чтений) value value p-value статистика(f) статистика(f) 10/19
  • 11. Описание задачи Описание применяемого метода Заключение Статистика №1 fragmentlength - длина фрагмента из которого было получено парное чтение. Короткий повтор ∼ fragmentlength Длинный повтор ≫ длина парного чтения(fragmentlength) <fragmentlength<fragmentlength >fragmentlength Число чтений, таких, что левый конец слева от повтора, правый справа 11/19
  • 12. Описание задачи Описание применяемого метода Заключение Статистика №2 покрытий чтениями n pos короткий повтор Минимальное покрытие Отсортировать покрытия Выделить 10% минимальных Взять среднее 12/19
  • 13. Описание задачи Описание применяемого метода Заключение Тестирование статистик 5 статистик Среднее покрытие Минимальное покрытие Отклонение нормального распределения Минимальная длина фрагмента Покрытие повтора ≥ 1 статистики срабатывает → отвергается нулевая гипотеза E.coli, 4 типа путей, 10000 каждого типа, 5000 нуклеотидов Правильные пути Короткие повторы Длинные повторы Ошибки 13/19
  • 14. Описание задачи Описание применяемого метода Заключение Тестирование статистик, продолжение Правильные пути - 7% ошибок Короткие повторы - 10% ошибок Длинные повторы - 5% правильно Ошибки - 10% правильно 14/19
  • 15. Описание задачи Описание применяемого метода Заключение Запутанность V1, V2− наборы простых путей, E набор путей соединяющих V1 и V2 Набор путей вида v1ieiv2i, где v1i ∈ V1; ei ∈ E; v2i ∈ V2 Поиск запутанностей: bfs от концов простых путей V2 E V1 15/19
  • 16. Описание задачи Описание применяемого метода Заключение Общая схема решения Поиск запутанностей Картирование чтений на пути образующие запутанности Проведение статистических тестов Расспутывание запутанности 16/19
  • 17. Описание задачи Описание применяемого метода Заключение Результаты Эксперименты по тестированию путей образующих запутанности E.coli 500К квазиконтигов 30 запутанностей, 113 путей, 28 ошибочных Результат: 90% ошибок найдено 17/19
  • 18. Описание задачи Описание применяемого метода Заключение Результаты, продолжение ITMO Genome Assembler ITMO Genome Assembler c оценкой правдоподобия ребер ITMO Genome Assembler с применением методики N50 13534 13614 15592 Суммарная длина контигов 4530812 4557888 4558125 Число контигов 572 579 561 Число ошибочных контигов 9 4 4 18/19
  • 19. Описание задачи Описание применяемого метода Заключение Заключение Разработана методика проведения статистических тестов Предложен набор статистик основанных на модели получения данных Предложенный подход улучшает качество сборки Дальше: Разработка новых статистик Использование информации о повторах при генерации наборов чтений Оптимизация производительности 19/19