SlideShare a Scribd company logo
1 of 19
Download to read offline
Описание задачи Описание применяемого метода Заключение
Сборка контигов геномной
последовательности на основе метода
максимального правдоподобия
Шагал А. А.
Научный руководитель к.т.н., доцент каф. КТ
Царев Ф. Н.
Университет ИТМО
16 июня 2014 г.
1/19
Описание задачи Описание применяемого метода Заключение
Геном
Наследственная информация организма
ДНК для большинства организмов, РНК для вирусов
Двойная спираль
A - аденин
С - цитозин
T - тимин
G - гуанин
Исследование генома
Чтение данных
Сборка генома
Анализ генома
2/19
Описание задачи Описание применяемого метода Заключение
Сборка генома
Исправление ошибок
Парные чтения - префикс и суффикс фрагмента генома
Квазиконтиги - фрагменты генома
Контиги - более длинные фрагменты генома
Скэффолды
3/19
Описание задачи Описание применяемого метода Заключение
Overlap-Layout-Consensus
ATGCCATCAGGACT
CCATCAGGACTAAC
center
shift
C1
C2
CATCAGGACT
CCATCAGGACTAAC
center
shift
C1
C2
Поиск перекрытий
Удаление транзитивных перекрытий
Построение графа перекрытий и его упрощение
Вывод первого приближения контигов
Микросборка
4/19
Описание задачи Описание применяемого метода Заключение
Граф перекрытий
Вершины - квазиконтиги
Ребра - перекрытия
Размер перекрытия ∼ вес
ребра
Цель: несколько простых
путей
Проблема: развилки
AGCT
GCTTT
GCTA
TGC
31
3
1
1
2
5/19
Описание задачи Описание применяемого метода Заключение
Упрощение графа перекрытий
Объединение схожих путей
Удаление отростков
Удаление не максимальных по весу ребер
Влияние ошибочных ребер
ошибочный путь
уменьшение средней длины
6/19
Описание задачи Описание применяемого метода Заключение
Упрощение графа перекрытий, продолжение
Оценка правдоподобия ребер
P(e) = 1 − Pw(e)
e - ребро
P(e) правдоподобие ребра
Pw(e) оценочная вероятность ребра оказаться ошибочным
A
B D
C
AC, AD, BC, BD
7/19
Описание задачи Описание применяемого метода Заключение
Постановка задачи
Разработать метод тестирования путей на основе
статистических тестов
Разработать статистики для статистических тестов
Примененить методику тестированию путей для
распутывания графа перекрытий
8/19
Описание задачи Описание применяемого метода Заключение
Статистические тесты
Модель получения чтений
Равномерно выбирается позиция
Исходя из нормального распределения выбирается
длина фрагмента
Тестирование пути
Нулевая гипотеза(H0) - путь существует в геноме
Статистика(f) - числовая функция от набора чтений и
информации о пути.
Покрытие генома
Нормальность распределения длин парных чтений
Информация о позиции "сомнительного"фрагмента
Пример: f(набор чтений + информация о пути) = длина
самого правого чтения.
9/19
Описание задачи Описание применяемого метода Заключение
Статистические тесты
путь
+
информация о нем
набор чтений,
скартировавшихся на путь
генератор
+
модель получения чтений
+
нулевая гипотеза
1000 * набор чтений
1000 * f(набор чтений)
value
value
p-value
статистика(f)
статистика(f)
10/19
Описание задачи Описание применяемого метода Заключение
Статистика №1
fragmentlength - длина фрагмента из которого было
получено парное чтение.
Короткий повтор ∼ fragmentlength
Длинный повтор ≫ длина парного чтения(fragmentlength)
<fragmentlength<fragmentlength
>fragmentlength
Число чтений, таких, что левый конец слева от повтора,
правый справа
11/19
Описание задачи Описание применяемого метода Заключение
Статистика №2
покрытий чтениями
n
pos
короткий повтор
Минимальное покрытие
Отсортировать покрытия
Выделить 10% минимальных
Взять среднее
12/19
Описание задачи Описание применяемого метода Заключение
Тестирование статистик
5 статистик
Среднее покрытие
Минимальное покрытие
Отклонение нормального распределения
Минимальная длина фрагмента
Покрытие повтора
≥ 1 статистики срабатывает → отвергается нулевая
гипотеза
E.coli, 4 типа путей, 10000 каждого типа, 5000
нуклеотидов
Правильные пути
Короткие повторы
Длинные повторы
Ошибки
13/19
Описание задачи Описание применяемого метода Заключение
Тестирование статистик, продолжение
Правильные пути - 7% ошибок
Короткие повторы - 10% ошибок
Длинные повторы - 5% правильно
Ошибки - 10% правильно
14/19
Описание задачи Описание применяемого метода Заключение
Запутанность
V1, V2− наборы простых
путей, E набор путей
соединяющих V1 и V2
Набор путей вида v1ieiv2i,
где
v1i ∈ V1; ei ∈ E; v2i ∈ V2
Поиск запутанностей:
bfs от концов простых
путей
V2
E
V1
15/19
Описание задачи Описание применяемого метода Заключение
Общая схема решения
Поиск запутанностей
Картирование чтений на пути образующие запутанности
Проведение статистических тестов
Расспутывание запутанности
16/19
Описание задачи Описание применяемого метода Заключение
Результаты
Эксперименты по тестированию путей образующих
запутанности
E.coli 500К квазиконтигов
30 запутанностей, 113 путей, 28 ошибочных
Результат: 90% ошибок найдено
17/19
Описание задачи Описание применяемого метода Заключение
Результаты, продолжение
ITMO Genome
Assembler
ITMO Genome Assembler
c оценкой правдоподобия
ребер
ITMO Genome Assembler с
применением методики
N50 13534 13614 15592
Суммарная длина
контигов
4530812 4557888 4558125
Число контигов 572 579 561
Число ошибочных
контигов
9 4 4
18/19
Описание задачи Описание применяемого метода Заключение
Заключение
Разработана методика проведения статистических
тестов
Предложен набор статистик основанных на модели
получения данных
Предложенный подход улучшает качество сборки
Дальше:
Разработка новых статистик
Использование информации о повторах при генерации
наборов чтений
Оптимизация производительности
19/19

More Related Content

Viewers also liked

Viewers also liked (11)

Jula
JulaJula
Jula
 
Quiz
QuizQuiz
Quiz
 
La información es poder
La información es poderLa información es poder
La información es poder
 
MINI6S-5000mA
MINI6S-5000mAMINI6S-5000mA
MINI6S-5000mA
 
certificates
certificatescertificates
certificates
 
3-Al Alfiyah Center Certificate
3-Al Alfiyah Center Certificate3-Al Alfiyah Center Certificate
3-Al Alfiyah Center Certificate
 
Leon Quote
Leon QuoteLeon Quote
Leon Quote
 
Reference Letter DL
Reference Letter DLReference Letter DL
Reference Letter DL
 
certificate
certificatecertificate
certificate
 
Thomazcosta1
Thomazcosta1Thomazcosta1
Thomazcosta1
 
Direito das Obrigações - aula 1
Direito das Obrigações - aula 1Direito das Obrigações - aula 1
Direito das Obrigações - aula 1
 

More from ITMO University

МЕТОД ПОВЫШЕНИЯ ЧУВСТВИТЕЛЬНОСТИ ВОЛОКОННО-ОПТИЧЕСКОГО ГИДРОФОНА
МЕТОД ПОВЫШЕНИЯ ЧУВСТВИТЕЛЬНОСТИ  ВОЛОКОННО-ОПТИЧЕСКОГО ГИДРОФОНАМЕТОД ПОВЫШЕНИЯ ЧУВСТВИТЕЛЬНОСТИ  ВОЛОКОННО-ОПТИЧЕСКОГО ГИДРОФОНА
МЕТОД ПОВЫШЕНИЯ ЧУВСТВИТЕЛЬНОСТИ ВОЛОКОННО-ОПТИЧЕСКОГО ГИДРОФОНАITMO University
 
МЕТОДЫ ПОЛУЧЕНИЯ И СВОЙСТВА СЛОЕВ НА ОСНОВЕ АМОРФНОГО УГЛЕРОДА, ОРИЕНТИРУЮЩИ...
МЕТОДЫ ПОЛУЧЕНИЯ И СВОЙСТВА СЛОЕВ НА ОСНОВЕ  АМОРФНОГО УГЛЕРОДА, ОРИЕНТИРУЮЩИ...МЕТОДЫ ПОЛУЧЕНИЯ И СВОЙСТВА СЛОЕВ НА ОСНОВЕ  АМОРФНОГО УГЛЕРОДА, ОРИЕНТИРУЮЩИ...
МЕТОДЫ ПОЛУЧЕНИЯ И СВОЙСТВА СЛОЕВ НА ОСНОВЕ АМОРФНОГО УГЛЕРОДА, ОРИЕНТИРУЮЩИ...ITMO University
 
ПРИМЕНЕНИЕ ДИСКРЕТНОГО КОСИНУСНОГО ПРЕОБРАЗОВАНИЯ ДЛЯ ПОСТРОЕНИЯ ГОЛОГРАММЫ ...
ПРИМЕНЕНИЕ ДИСКРЕТНОГО КОСИНУСНОГО ПРЕОБРАЗОВАНИЯ  ДЛЯ ПОСТРОЕНИЯ ГОЛОГРАММЫ ...ПРИМЕНЕНИЕ ДИСКРЕТНОГО КОСИНУСНОГО ПРЕОБРАЗОВАНИЯ  ДЛЯ ПОСТРОЕНИЯ ГОЛОГРАММЫ ...
ПРИМЕНЕНИЕ ДИСКРЕТНОГО КОСИНУСНОГО ПРЕОБРАЗОВАНИЯ ДЛЯ ПОСТРОЕНИЯ ГОЛОГРАММЫ ...ITMO University
 
ПОГРЕШНОСТИ ИЗГОТОВЛЕНИЯ И УСТАНОВКИ ОТРАЖАТЕЛЬНЫХ ПРИЗМ
ПОГРЕШНОСТИ ИЗГОТОВЛЕНИЯ И УСТАНОВКИ ОТРАЖАТЕЛЬНЫХ ПРИЗМПОГРЕШНОСТИ ИЗГОТОВЛЕНИЯ И УСТАНОВКИ ОТРАЖАТЕЛЬНЫХ ПРИЗМ
ПОГРЕШНОСТИ ИЗГОТОВЛЕНИЯ И УСТАНОВКИ ОТРАЖАТЕЛЬНЫХ ПРИЗМITMO University
 
СПЕКТРОСКОПИЧЕСКОЕ И ТЕРМОДИНАМИЧЕСКОЕ ИССЛЕДОВАНИЕ ТЯЖЕЛОЙ ВОДЫ
СПЕКТРОСКОПИЧЕСКОЕ И ТЕРМОДИНАМИЧЕСКОЕ ИССЛЕДОВАНИЕ  ТЯЖЕЛОЙ ВОДЫСПЕКТРОСКОПИЧЕСКОЕ И ТЕРМОДИНАМИЧЕСКОЕ ИССЛЕДОВАНИЕ  ТЯЖЕЛОЙ ВОДЫ
СПЕКТРОСКОПИЧЕСКОЕ И ТЕРМОДИНАМИЧЕСКОЕ ИССЛЕДОВАНИЕ ТЯЖЕЛОЙ ВОДЫITMO University
 
МЕТРОЛОГИЧЕСКИЙ АНАЛИЗ В СОЦИАЛЬНЫХ СЕТЯХ
МЕТРОЛОГИЧЕСКИЙ АНАЛИЗ В СОЦИАЛЬНЫХ СЕТЯХМЕТРОЛОГИЧЕСКИЙ АНАЛИЗ В СОЦИАЛЬНЫХ СЕТЯХ
МЕТРОЛОГИЧЕСКИЙ АНАЛИЗ В СОЦИАЛЬНЫХ СЕТЯХITMO University
 
ПЕРСПЕКТИВЫ РАЗВИТИЯ ОПТИКИ ТОНКИХ ПЛЕНОК
ПЕРСПЕКТИВЫ РАЗВИТИЯ ОПТИКИ ТОНКИХ ПЛЕНОКПЕРСПЕКТИВЫ РАЗВИТИЯ ОПТИКИ ТОНКИХ ПЛЕНОК
ПЕРСПЕКТИВЫ РАЗВИТИЯ ОПТИКИ ТОНКИХ ПЛЕНОКITMO University
 
ИССЛЕДОВАНИЕ ПРОЦЕССОВ ФОРМИРОВАНИЯ ПОЛИМЕРНОГО МИКРОЭЛЕМЕНТА НА ТОРЦЕ ОПТИЧЕ...
ИССЛЕДОВАНИЕ ПРОЦЕССОВ ФОРМИРОВАНИЯ ПОЛИМЕРНОГО МИКРОЭЛЕМЕНТА НА ТОРЦЕ ОПТИЧЕ...ИССЛЕДОВАНИЕ ПРОЦЕССОВ ФОРМИРОВАНИЯ ПОЛИМЕРНОГО МИКРОЭЛЕМЕНТА НА ТОРЦЕ ОПТИЧЕ...
ИССЛЕДОВАНИЕ ПРОЦЕССОВ ФОРМИРОВАНИЯ ПОЛИМЕРНОГО МИКРОЭЛЕМЕНТА НА ТОРЦЕ ОПТИЧЕ...ITMO University
 
МЕТОД ДИАГНОСТИКИ ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ ТКАНЕЙ И ОРГАНОВ БИООБЪЕКТОВ
МЕТОД ДИАГНОСТИКИ ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ ТКАНЕЙ И ОРГАНОВ БИООБЪЕКТОВМЕТОД ДИАГНОСТИКИ ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ ТКАНЕЙ И ОРГАНОВ БИООБЪЕКТОВ
МЕТОД ДИАГНОСТИКИ ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ ТКАНЕЙ И ОРГАНОВ БИООБЪЕКТОВITMO University
 
КОЛИЧЕСТВЕННАЯ ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ НЕЧЕТКОЙ ...
КОЛИЧЕСТВЕННАЯ ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ НЕЧЕТКОЙ ...КОЛИЧЕСТВЕННАЯ ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ НЕЧЕТКОЙ ...
КОЛИЧЕСТВЕННАЯ ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ НЕЧЕТКОЙ ...ITMO University
 
АЛГЕБРАИЧЕСКИЙ МЕТОД ОПРЕДЕЛЕНИЯ ПОЛНОГО МНОЖЕСТВА ПРОСТЫХ РАЗРЕЗОВ В ДВУХПОЛ...
АЛГЕБРАИЧЕСКИЙ МЕТОД ОПРЕДЕЛЕНИЯ ПОЛНОГО МНОЖЕСТВА ПРОСТЫХ РАЗРЕЗОВ В ДВУХПОЛ...АЛГЕБРАИЧЕСКИЙ МЕТОД ОПРЕДЕЛЕНИЯ ПОЛНОГО МНОЖЕСТВА ПРОСТЫХ РАЗРЕЗОВ В ДВУХПОЛ...
АЛГЕБРАИЧЕСКИЙ МЕТОД ОПРЕДЕЛЕНИЯ ПОЛНОГО МНОЖЕСТВА ПРОСТЫХ РАЗРЕЗОВ В ДВУХПОЛ...ITMO University
 
РЕКУРРЕНТНОЕ СИСТЕМАТИЧЕСКОЕ ПОМЕХОЗАЩИТНОЕ ПРЕОБРАЗОВАНИЕ КОДОВ: ВОЗМОЖНОСТИ...
РЕКУРРЕНТНОЕ СИСТЕМАТИЧЕСКОЕ ПОМЕХОЗАЩИТНОЕ ПРЕОБРАЗОВАНИЕ КОДОВ: ВОЗМОЖНОСТИ...РЕКУРРЕНТНОЕ СИСТЕМАТИЧЕСКОЕ ПОМЕХОЗАЩИТНОЕ ПРЕОБРАЗОВАНИЕ КОДОВ: ВОЗМОЖНОСТИ...
РЕКУРРЕНТНОЕ СИСТЕМАТИЧЕСКОЕ ПОМЕХОЗАЩИТНОЕ ПРЕОБРАЗОВАНИЕ КОДОВ: ВОЗМОЖНОСТИ...ITMO University
 
Информационная система «Забота о каждом»
Информационная система  «Забота о каждом» Информационная система  «Забота о каждом»
Информационная система «Забота о каждом» ITMO University
 
Проект "Я рядом"
Проект "Я рядом"Проект "Я рядом"
Проект "Я рядом"ITMO University
 
Проект «Театральный мост»
Проект «Театральный мост»Проект «Театральный мост»
Проект «Театральный мост»ITMO University
 
Студенческие инициативы в развитии ИКТ для старшего поколения
Студенческие инициативы в  развитии ИКТ для старшего  поколения Студенческие инициативы в  развитии ИКТ для старшего  поколения
Студенческие инициативы в развитии ИКТ для старшего поколения ITMO University
 
СОХРАНЁННОЕ РАДИО
СОХРАНЁННОЕ  РАДИОСОХРАНЁННОЕ  РАДИО
СОХРАНЁННОЕ РАДИОITMO University
 
Проект: «Разработка Системы Оценки и учёта Добровольческой Деятельности «СО...
Проект: «Разработка Системы Оценки и учёта  Добровольческой Деятельности  «СО...Проект: «Разработка Системы Оценки и учёта  Добровольческой Деятельности  «СО...
Проект: «Разработка Системы Оценки и учёта Добровольческой Деятельности «СО...ITMO University
 
«Нет преграды патриотам!»
«Нет преграды патриотам!»«Нет преграды патриотам!»
«Нет преграды патриотам!»ITMO University
 
Проект «Наш любимый детский сад»
Проект «Наш любимый детский сад»Проект «Наш любимый детский сад»
Проект «Наш любимый детский сад»ITMO University
 

More from ITMO University (20)

МЕТОД ПОВЫШЕНИЯ ЧУВСТВИТЕЛЬНОСТИ ВОЛОКОННО-ОПТИЧЕСКОГО ГИДРОФОНА
МЕТОД ПОВЫШЕНИЯ ЧУВСТВИТЕЛЬНОСТИ  ВОЛОКОННО-ОПТИЧЕСКОГО ГИДРОФОНАМЕТОД ПОВЫШЕНИЯ ЧУВСТВИТЕЛЬНОСТИ  ВОЛОКОННО-ОПТИЧЕСКОГО ГИДРОФОНА
МЕТОД ПОВЫШЕНИЯ ЧУВСТВИТЕЛЬНОСТИ ВОЛОКОННО-ОПТИЧЕСКОГО ГИДРОФОНА
 
МЕТОДЫ ПОЛУЧЕНИЯ И СВОЙСТВА СЛОЕВ НА ОСНОВЕ АМОРФНОГО УГЛЕРОДА, ОРИЕНТИРУЮЩИ...
МЕТОДЫ ПОЛУЧЕНИЯ И СВОЙСТВА СЛОЕВ НА ОСНОВЕ  АМОРФНОГО УГЛЕРОДА, ОРИЕНТИРУЮЩИ...МЕТОДЫ ПОЛУЧЕНИЯ И СВОЙСТВА СЛОЕВ НА ОСНОВЕ  АМОРФНОГО УГЛЕРОДА, ОРИЕНТИРУЮЩИ...
МЕТОДЫ ПОЛУЧЕНИЯ И СВОЙСТВА СЛОЕВ НА ОСНОВЕ АМОРФНОГО УГЛЕРОДА, ОРИЕНТИРУЮЩИ...
 
ПРИМЕНЕНИЕ ДИСКРЕТНОГО КОСИНУСНОГО ПРЕОБРАЗОВАНИЯ ДЛЯ ПОСТРОЕНИЯ ГОЛОГРАММЫ ...
ПРИМЕНЕНИЕ ДИСКРЕТНОГО КОСИНУСНОГО ПРЕОБРАЗОВАНИЯ  ДЛЯ ПОСТРОЕНИЯ ГОЛОГРАММЫ ...ПРИМЕНЕНИЕ ДИСКРЕТНОГО КОСИНУСНОГО ПРЕОБРАЗОВАНИЯ  ДЛЯ ПОСТРОЕНИЯ ГОЛОГРАММЫ ...
ПРИМЕНЕНИЕ ДИСКРЕТНОГО КОСИНУСНОГО ПРЕОБРАЗОВАНИЯ ДЛЯ ПОСТРОЕНИЯ ГОЛОГРАММЫ ...
 
ПОГРЕШНОСТИ ИЗГОТОВЛЕНИЯ И УСТАНОВКИ ОТРАЖАТЕЛЬНЫХ ПРИЗМ
ПОГРЕШНОСТИ ИЗГОТОВЛЕНИЯ И УСТАНОВКИ ОТРАЖАТЕЛЬНЫХ ПРИЗМПОГРЕШНОСТИ ИЗГОТОВЛЕНИЯ И УСТАНОВКИ ОТРАЖАТЕЛЬНЫХ ПРИЗМ
ПОГРЕШНОСТИ ИЗГОТОВЛЕНИЯ И УСТАНОВКИ ОТРАЖАТЕЛЬНЫХ ПРИЗМ
 
СПЕКТРОСКОПИЧЕСКОЕ И ТЕРМОДИНАМИЧЕСКОЕ ИССЛЕДОВАНИЕ ТЯЖЕЛОЙ ВОДЫ
СПЕКТРОСКОПИЧЕСКОЕ И ТЕРМОДИНАМИЧЕСКОЕ ИССЛЕДОВАНИЕ  ТЯЖЕЛОЙ ВОДЫСПЕКТРОСКОПИЧЕСКОЕ И ТЕРМОДИНАМИЧЕСКОЕ ИССЛЕДОВАНИЕ  ТЯЖЕЛОЙ ВОДЫ
СПЕКТРОСКОПИЧЕСКОЕ И ТЕРМОДИНАМИЧЕСКОЕ ИССЛЕДОВАНИЕ ТЯЖЕЛОЙ ВОДЫ
 
МЕТРОЛОГИЧЕСКИЙ АНАЛИЗ В СОЦИАЛЬНЫХ СЕТЯХ
МЕТРОЛОГИЧЕСКИЙ АНАЛИЗ В СОЦИАЛЬНЫХ СЕТЯХМЕТРОЛОГИЧЕСКИЙ АНАЛИЗ В СОЦИАЛЬНЫХ СЕТЯХ
МЕТРОЛОГИЧЕСКИЙ АНАЛИЗ В СОЦИАЛЬНЫХ СЕТЯХ
 
ПЕРСПЕКТИВЫ РАЗВИТИЯ ОПТИКИ ТОНКИХ ПЛЕНОК
ПЕРСПЕКТИВЫ РАЗВИТИЯ ОПТИКИ ТОНКИХ ПЛЕНОКПЕРСПЕКТИВЫ РАЗВИТИЯ ОПТИКИ ТОНКИХ ПЛЕНОК
ПЕРСПЕКТИВЫ РАЗВИТИЯ ОПТИКИ ТОНКИХ ПЛЕНОК
 
ИССЛЕДОВАНИЕ ПРОЦЕССОВ ФОРМИРОВАНИЯ ПОЛИМЕРНОГО МИКРОЭЛЕМЕНТА НА ТОРЦЕ ОПТИЧЕ...
ИССЛЕДОВАНИЕ ПРОЦЕССОВ ФОРМИРОВАНИЯ ПОЛИМЕРНОГО МИКРОЭЛЕМЕНТА НА ТОРЦЕ ОПТИЧЕ...ИССЛЕДОВАНИЕ ПРОЦЕССОВ ФОРМИРОВАНИЯ ПОЛИМЕРНОГО МИКРОЭЛЕМЕНТА НА ТОРЦЕ ОПТИЧЕ...
ИССЛЕДОВАНИЕ ПРОЦЕССОВ ФОРМИРОВАНИЯ ПОЛИМЕРНОГО МИКРОЭЛЕМЕНТА НА ТОРЦЕ ОПТИЧЕ...
 
МЕТОД ДИАГНОСТИКИ ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ ТКАНЕЙ И ОРГАНОВ БИООБЪЕКТОВ
МЕТОД ДИАГНОСТИКИ ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ ТКАНЕЙ И ОРГАНОВ БИООБЪЕКТОВМЕТОД ДИАГНОСТИКИ ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ ТКАНЕЙ И ОРГАНОВ БИООБЪЕКТОВ
МЕТОД ДИАГНОСТИКИ ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ ТКАНЕЙ И ОРГАНОВ БИООБЪЕКТОВ
 
КОЛИЧЕСТВЕННАЯ ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ НЕЧЕТКОЙ ...
КОЛИЧЕСТВЕННАЯ ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ НЕЧЕТКОЙ ...КОЛИЧЕСТВЕННАЯ ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ НЕЧЕТКОЙ ...
КОЛИЧЕСТВЕННАЯ ОЦЕНКА КАЧЕСТВА ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ НЕЧЕТКОЙ ...
 
АЛГЕБРАИЧЕСКИЙ МЕТОД ОПРЕДЕЛЕНИЯ ПОЛНОГО МНОЖЕСТВА ПРОСТЫХ РАЗРЕЗОВ В ДВУХПОЛ...
АЛГЕБРАИЧЕСКИЙ МЕТОД ОПРЕДЕЛЕНИЯ ПОЛНОГО МНОЖЕСТВА ПРОСТЫХ РАЗРЕЗОВ В ДВУХПОЛ...АЛГЕБРАИЧЕСКИЙ МЕТОД ОПРЕДЕЛЕНИЯ ПОЛНОГО МНОЖЕСТВА ПРОСТЫХ РАЗРЕЗОВ В ДВУХПОЛ...
АЛГЕБРАИЧЕСКИЙ МЕТОД ОПРЕДЕЛЕНИЯ ПОЛНОГО МНОЖЕСТВА ПРОСТЫХ РАЗРЕЗОВ В ДВУХПОЛ...
 
РЕКУРРЕНТНОЕ СИСТЕМАТИЧЕСКОЕ ПОМЕХОЗАЩИТНОЕ ПРЕОБРАЗОВАНИЕ КОДОВ: ВОЗМОЖНОСТИ...
РЕКУРРЕНТНОЕ СИСТЕМАТИЧЕСКОЕ ПОМЕХОЗАЩИТНОЕ ПРЕОБРАЗОВАНИЕ КОДОВ: ВОЗМОЖНОСТИ...РЕКУРРЕНТНОЕ СИСТЕМАТИЧЕСКОЕ ПОМЕХОЗАЩИТНОЕ ПРЕОБРАЗОВАНИЕ КОДОВ: ВОЗМОЖНОСТИ...
РЕКУРРЕНТНОЕ СИСТЕМАТИЧЕСКОЕ ПОМЕХОЗАЩИТНОЕ ПРЕОБРАЗОВАНИЕ КОДОВ: ВОЗМОЖНОСТИ...
 
Информационная система «Забота о каждом»
Информационная система  «Забота о каждом» Информационная система  «Забота о каждом»
Информационная система «Забота о каждом»
 
Проект "Я рядом"
Проект "Я рядом"Проект "Я рядом"
Проект "Я рядом"
 
Проект «Театральный мост»
Проект «Театральный мост»Проект «Театральный мост»
Проект «Театральный мост»
 
Студенческие инициативы в развитии ИКТ для старшего поколения
Студенческие инициативы в  развитии ИКТ для старшего  поколения Студенческие инициативы в  развитии ИКТ для старшего  поколения
Студенческие инициативы в развитии ИКТ для старшего поколения
 
СОХРАНЁННОЕ РАДИО
СОХРАНЁННОЕ  РАДИОСОХРАНЁННОЕ  РАДИО
СОХРАНЁННОЕ РАДИО
 
Проект: «Разработка Системы Оценки и учёта Добровольческой Деятельности «СО...
Проект: «Разработка Системы Оценки и учёта  Добровольческой Деятельности  «СО...Проект: «Разработка Системы Оценки и учёта  Добровольческой Деятельности  «СО...
Проект: «Разработка Системы Оценки и учёта Добровольческой Деятельности «СО...
 
«Нет преграды патриотам!»
«Нет преграды патриотам!»«Нет преграды патриотам!»
«Нет преграды патриотам!»
 
Проект «Наш любимый детский сад»
Проект «Наш любимый детский сад»Проект «Наш любимый детский сад»
Проект «Наш любимый детский сад»
 

Сборка контигов геномной последовательности на основе метода максимального правдоподобия

  • 1. Описание задачи Описание применяемого метода Заключение Сборка контигов геномной последовательности на основе метода максимального правдоподобия Шагал А. А. Научный руководитель к.т.н., доцент каф. КТ Царев Ф. Н. Университет ИТМО 16 июня 2014 г. 1/19
  • 2. Описание задачи Описание применяемого метода Заключение Геном Наследственная информация организма ДНК для большинства организмов, РНК для вирусов Двойная спираль A - аденин С - цитозин T - тимин G - гуанин Исследование генома Чтение данных Сборка генома Анализ генома 2/19
  • 3. Описание задачи Описание применяемого метода Заключение Сборка генома Исправление ошибок Парные чтения - префикс и суффикс фрагмента генома Квазиконтиги - фрагменты генома Контиги - более длинные фрагменты генома Скэффолды 3/19
  • 4. Описание задачи Описание применяемого метода Заключение Overlap-Layout-Consensus ATGCCATCAGGACT CCATCAGGACTAAC center shift C1 C2 CATCAGGACT CCATCAGGACTAAC center shift C1 C2 Поиск перекрытий Удаление транзитивных перекрытий Построение графа перекрытий и его упрощение Вывод первого приближения контигов Микросборка 4/19
  • 5. Описание задачи Описание применяемого метода Заключение Граф перекрытий Вершины - квазиконтиги Ребра - перекрытия Размер перекрытия ∼ вес ребра Цель: несколько простых путей Проблема: развилки AGCT GCTTT GCTA TGC 31 3 1 1 2 5/19
  • 6. Описание задачи Описание применяемого метода Заключение Упрощение графа перекрытий Объединение схожих путей Удаление отростков Удаление не максимальных по весу ребер Влияние ошибочных ребер ошибочный путь уменьшение средней длины 6/19
  • 7. Описание задачи Описание применяемого метода Заключение Упрощение графа перекрытий, продолжение Оценка правдоподобия ребер P(e) = 1 − Pw(e) e - ребро P(e) правдоподобие ребра Pw(e) оценочная вероятность ребра оказаться ошибочным A B D C AC, AD, BC, BD 7/19
  • 8. Описание задачи Описание применяемого метода Заключение Постановка задачи Разработать метод тестирования путей на основе статистических тестов Разработать статистики для статистических тестов Примененить методику тестированию путей для распутывания графа перекрытий 8/19
  • 9. Описание задачи Описание применяемого метода Заключение Статистические тесты Модель получения чтений Равномерно выбирается позиция Исходя из нормального распределения выбирается длина фрагмента Тестирование пути Нулевая гипотеза(H0) - путь существует в геноме Статистика(f) - числовая функция от набора чтений и информации о пути. Покрытие генома Нормальность распределения длин парных чтений Информация о позиции "сомнительного"фрагмента Пример: f(набор чтений + информация о пути) = длина самого правого чтения. 9/19
  • 10. Описание задачи Описание применяемого метода Заключение Статистические тесты путь + информация о нем набор чтений, скартировавшихся на путь генератор + модель получения чтений + нулевая гипотеза 1000 * набор чтений 1000 * f(набор чтений) value value p-value статистика(f) статистика(f) 10/19
  • 11. Описание задачи Описание применяемого метода Заключение Статистика №1 fragmentlength - длина фрагмента из которого было получено парное чтение. Короткий повтор ∼ fragmentlength Длинный повтор ≫ длина парного чтения(fragmentlength) <fragmentlength<fragmentlength >fragmentlength Число чтений, таких, что левый конец слева от повтора, правый справа 11/19
  • 12. Описание задачи Описание применяемого метода Заключение Статистика №2 покрытий чтениями n pos короткий повтор Минимальное покрытие Отсортировать покрытия Выделить 10% минимальных Взять среднее 12/19
  • 13. Описание задачи Описание применяемого метода Заключение Тестирование статистик 5 статистик Среднее покрытие Минимальное покрытие Отклонение нормального распределения Минимальная длина фрагмента Покрытие повтора ≥ 1 статистики срабатывает → отвергается нулевая гипотеза E.coli, 4 типа путей, 10000 каждого типа, 5000 нуклеотидов Правильные пути Короткие повторы Длинные повторы Ошибки 13/19
  • 14. Описание задачи Описание применяемого метода Заключение Тестирование статистик, продолжение Правильные пути - 7% ошибок Короткие повторы - 10% ошибок Длинные повторы - 5% правильно Ошибки - 10% правильно 14/19
  • 15. Описание задачи Описание применяемого метода Заключение Запутанность V1, V2− наборы простых путей, E набор путей соединяющих V1 и V2 Набор путей вида v1ieiv2i, где v1i ∈ V1; ei ∈ E; v2i ∈ V2 Поиск запутанностей: bfs от концов простых путей V2 E V1 15/19
  • 16. Описание задачи Описание применяемого метода Заключение Общая схема решения Поиск запутанностей Картирование чтений на пути образующие запутанности Проведение статистических тестов Расспутывание запутанности 16/19
  • 17. Описание задачи Описание применяемого метода Заключение Результаты Эксперименты по тестированию путей образующих запутанности E.coli 500К квазиконтигов 30 запутанностей, 113 путей, 28 ошибочных Результат: 90% ошибок найдено 17/19
  • 18. Описание задачи Описание применяемого метода Заключение Результаты, продолжение ITMO Genome Assembler ITMO Genome Assembler c оценкой правдоподобия ребер ITMO Genome Assembler с применением методики N50 13534 13614 15592 Суммарная длина контигов 4530812 4557888 4558125 Число контигов 572 579 561 Число ошибочных контигов 9 4 4 18/19
  • 19. Описание задачи Описание применяемого метода Заключение Заключение Разработана методика проведения статистических тестов Предложен набор статистик основанных на модели получения данных Предложенный подход улучшает качество сборки Дальше: Разработка новых статистик Использование информации о повторах при генерации наборов чтений Оптимизация производительности 19/19