SlideShare a Scribd company logo
1 of 19
Обработка данных
секвенирования следующего
поколения в один клик
Афанасьев Андрей,
Генеральный директор iBinom
Проблемы текущих решений
• Сложная установка
• Сложная настройка
• Медленная работа
• Плохая воспроизводимость результатов
• Плохая визуализация результатов
Задача
Сделать продукт по анализу данных NGS для
диагностики наследственных заболеваний
для врачей:
– Простой интерфейс
– Минимум настроек
– Высокая скорость работы и воспроизводимость
результатов
– Высокая точность
Технические сложности
• Алгоритмическая сложность и
ресурсоемкость (до 1000 CPU*h на анализ)
• Большой объем входных данных (1-500 Гб)
• Разные форматы данных FastQ (длины
ридов, качество в phred33/phred64)
• Обеспечение безопасности передачи и
хранения данных
Подход
• Фильтрация ридов по качеству
• Картирование
• Фильтрация по таргетным регионам
• Поиск SNP и коротких indel
• Аннотация
• Сортировка по патогенности и
формирование отчета
Реализация
• Распределенные вычисление в облаке Amazon
в рамках парадигмы MapReduce
(неограниченная масштабируемость)
• Хранение данных в S3
• Картирование BWA-MEM
• Референс hg19 GRCh37.p13 assembly, ver. 73.37
• Коллинг SamTools
• Аннотация SnpEff
• Собственная оценка патогенности –
ibinom score
Выравнивание
(симулированные данные)
Total Correct Reads (%) Incorrectly Mapped
Reads (%)
Unmapped Reads (%)
iBinom 7863529 101527 7
98.73% 1.27% 0.00%
Bowtie2 7670364 251234 41901
96.32% 3.15% 0.53%
Bwa 7363467 81561 518471
92.47% 1.02% 6.51%
Коллинг
Коллинг
iBinom Score
• Машинное обучение с помощью алгоритма
градиентного бустинга
• Обучающая выборка:
– Патогенные: записи из dbsnp c clinvar clinical
significance = pathogenic
– Непатогенные: записи из dbsnp c частотой
самого редкого аллеля >5% во всех популяциях
iBinom Score
Точность: 93.44%
Полнота: 90.96%
F-measure: 92.18%
Обучение по базам и скорам:
1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl
Project, EntrezGene, Exome Variant Server,
GeneReviews, GERP++, GO, MutationAssessor,
MutationTaster, Orpha Date, Reactome, RefSeq,
SeattleSeq, SiPhy, snpEff, UniProt и др.
Использование iBinom
1. Поддерживается любой FASTQ файл, включая
архивы .gz, кроме colorspace
2. Встроенный тримминг адаптеров
3. Можно объединять несколько файлов в один
образец
4. Можно скачать vcf-файл (в формате v.4.1)
5. Для передачи используется шифрованное
соединение https
Планы
1. Система подбора болезней
(по симптомам, по списку генов, по списку
болезней)
2. Ветвление пайплайна
(например, выравнивание TMAP для
IonTorrent)
3. Продолжение исследований предиктивной
аннотации
Приглашаем к
сотрудничеству!
a@ibinom.com

More Related Content

Viewers also liked

282 инструмента и сервиса мониторинга социальных медиа
282 инструмента и сервиса мониторинга социальных медиа282 инструмента и сервиса мониторинга социальных медиа
282 инструмента и сервиса мониторинга социальных медиаBuzzware
 
Интернет-проект. Откуда берутся и куда деваются деньги.
Интернет-проект. Откуда берутся и куда деваются деньги.Интернет-проект. Откуда берутся и куда деваются деньги.
Интернет-проект. Откуда берутся и куда деваются деньги.Yury Shilyaev
 
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...bigdatabm
 
Ключ к венчурному финансированию
Ключ к венчурному финансированиюКлюч к венчурному финансированию
Ключ к венчурному финансированиюPwC Russia
 
It meet up 2015 biology bioinformatics
It meet up 2015   biology bioinformaticsIt meet up 2015   biology bioinformatics
It meet up 2015 biology bioinformaticsVictoria Astapenko
 
Prote on moscow
Prote on moscowProte on moscow
Prote on moscowBiorad Pro
 
Coursera 2015 - Введение в биоинформатику
Coursera 2015 - Введение в биоинформатикуCoursera 2015 - Введение в биоинформатику
Coursera 2015 - Введение в биоинформатикуAndrey Zhelankin
 
Will the Russian Bear Fall: How Protests and Rising Middle Class Affect Corru...
Will the Russian Bear Fall: How Protests and Rising Middle Class Affect Corru...Will the Russian Bear Fall: How Protests and Rising Middle Class Affect Corru...
Will the Russian Bear Fall: How Protests and Rising Middle Class Affect Corru...Alexander Abolmasov
 
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...bigdatabm
 
Фокин А. Анализ и визуализация генных сетей
Фокин А. Анализ и визуализация генных сетейФокин А. Анализ и визуализация генных сетей
Фокин А. Анализ и визуализация генных сетейbigdatabm
 
Эффективность рекламных кампаний. Контроль работы сотрудников. Ефимова Дарья
Эффективность рекламных кампаний. Контроль работы сотрудников. Ефимова ДарьяЭффективность рекламных кампаний. Контроль работы сотрудников. Ефимова Дарья
Эффективность рекламных кампаний. Контроль работы сотрудников. Ефимова Дарьяmetrosphera
 
2015 голограмма коллектива
2015 голограмма коллектива 2015 голограмма коллектива
2015 голограмма коллектива Evgeniy Pavlovskiy
 
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...bigdatabm
 
Яков Сироткин - Автобус не придет | Happydev'12
Яков Сироткин - Автобус не придет | Happydev'12Яков Сироткин - Автобус не придет | Happydev'12
Яков Сироткин - Автобус не придет | Happydev'12HappyDev
 
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...bigdatabm
 
Лукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетяхЛукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетяхLiloSEA
 

Viewers also liked (20)

282 инструмента и сервиса мониторинга социальных медиа
282 инструмента и сервиса мониторинга социальных медиа282 инструмента и сервиса мониторинга социальных медиа
282 инструмента и сервиса мониторинга социальных медиа
 
Интернет-проект. Откуда берутся и куда деваются деньги.
Интернет-проект. Откуда берутся и куда деваются деньги.Интернет-проект. Откуда берутся и куда деваются деньги.
Интернет-проект. Откуда берутся и куда деваются деньги.
 
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
Бухановский А.В. Big Data и экстренные вычисления: поддержка принятия решений...
 
Ключ к венчурному финансированию
Ключ к венчурному финансированиюКлюч к венчурному финансированию
Ключ к венчурному финансированию
 
presentation01_internet
presentation01_internetpresentation01_internet
presentation01_internet
 
It meet up 2015 biology bioinformatics
It meet up 2015   biology bioinformaticsIt meet up 2015   biology bioinformatics
It meet up 2015 biology bioinformatics
 
Prote on moscow
Prote on moscowProte on moscow
Prote on moscow
 
Coursera 2015 - Введение в биоинформатику
Coursera 2015 - Введение в биоинформатикуCoursera 2015 - Введение в биоинформатику
Coursera 2015 - Введение в биоинформатику
 
Will the Russian Bear Fall: How Protests and Rising Middle Class Affect Corru...
Will the Russian Bear Fall: How Protests and Rising Middle Class Affect Corru...Will the Russian Bear Fall: How Protests and Rising Middle Class Affect Corru...
Will the Russian Bear Fall: How Protests and Rising Middle Class Affect Corru...
 
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
Пьяных О.С., Баданин Ю.Ю. Сегментация медицинских изображений с помощью геоде...
 
Фокин А. Анализ и визуализация генных сетей
Фокин А. Анализ и визуализация генных сетейФокин А. Анализ и визуализация генных сетей
Фокин А. Анализ и визуализация генных сетей
 
Roadshow results it cluster 15 11 2011
Roadshow results it cluster 15 11 2011Roadshow results it cluster 15 11 2011
Roadshow results it cluster 15 11 2011
 
Эффективность рекламных кампаний. Контроль работы сотрудников. Ефимова Дарья
Эффективность рекламных кампаний. Контроль работы сотрудников. Ефимова ДарьяЭффективность рекламных кампаний. Контроль работы сотрудников. Ефимова Дарья
Эффективность рекламных кампаний. Контроль работы сотрудников. Ефимова Дарья
 
«Как автоматизировать аналитику рекламных кампаний». Вебинар WebPromoExperts ...
«Как автоматизировать аналитику рекламных кампаний». Вебинар WebPromoExperts ...«Как автоматизировать аналитику рекламных кампаний». Вебинар WebPromoExperts ...
«Как автоматизировать аналитику рекламных кампаний». Вебинар WebPromoExperts ...
 
2015 голограмма коллектива
2015 голограмма коллектива 2015 голограмма коллектива
2015 голограмма коллектива
 
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
Карачунский А.И., Старичкова Ю.В. Развитие медицинских информационных техноло...
 
Яков Сироткин - Автобус не придет | Happydev'12
Яков Сироткин - Автобус не придет | Happydev'12Яков Сироткин - Автобус не придет | Happydev'12
Яков Сироткин - Автобус не придет | Happydev'12
 
Fish.pptx
Fish.pptxFish.pptx
Fish.pptx
 
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
Иванова М.Е. Организация молекулярной диагностики наследственных глазных забо...
 
Лукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетяхЛукина Ольга. Безопасность в соц. сетях
Лукина Ольга. Безопасность в соц. сетях
 

Similar to Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

голосова 17 niaid
голосова 17 niaidголосова 17 niaid
голосова 17 niaidMarina_creautor
 
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)Ontico
 
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиАндрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиIBS
 
Высокопроизводительные вычисления на платформе Dell
Высокопроизводительные вычисления на платформе DellВысокопроизводительные вычисления на платформе Dell
Высокопроизводительные вычисления на платформе DellDell_Russia
 
Перспективные исследования и технологии
Перспективные исследования и технологииПерспективные исследования и технологии
Перспективные исследования и технологииAncud Ltd.
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsolegshpynov
 
Вебинар С-Терра Шлюз 10G, 01.02.2017
Вебинар С-Терра Шлюз 10G, 01.02.2017Вебинар С-Терра Шлюз 10G, 01.02.2017
Вебинар С-Терра Шлюз 10G, 01.02.2017S-Terra CSP
 
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...Ontico
 
Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Ontico
 
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...Cisco Russia
 
Netapp prezz
Netapp prezzNetapp prezz
Netapp prezzardaradan
 
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктуройОбзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктуройCisco Russia
 
GRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network InitiativeGRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network InitiativeARCCN
 
Система сетевой аналитики для ЦОД Cisco Tetration Analytics
Система сетевой аналитики для ЦОД Cisco Tetration AnalyticsСистема сетевой аналитики для ЦОД Cisco Tetration Analytics
Система сетевой аналитики для ЦОД Cisco Tetration AnalyticsCisco Russia
 
Белнетэксперт - СХД
Белнетэксперт - СХДБелнетэксперт - СХД
Белнетэксперт - СХДSergey Polazhenko
 
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)Andrey Klyuchka
 
Виртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
Виртуализация баз данных с КРОК и Delphix. Кейс ИнгосстрахВиртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
Виртуализация баз данных с КРОК и Delphix. Кейс ИнгосстрахКРОК
 

Similar to Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных (20)

голосова 17 niaid
голосова 17 niaidголосова 17 niaid
голосова 17 niaid
 
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)
 
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиАндрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими руками
 
Высокопроизводительные вычисления на платформе Dell
Высокопроизводительные вычисления на платформе DellВысокопроизводительные вычисления на платформе Dell
Высокопроизводительные вычисления на платформе Dell
 
Перспективные исследования и технологии
Перспективные исследования и технологииПерспективные исследования и технологии
Перспективные исследования и технологии
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformatics
 
Вебинар С-Терра Шлюз 10G, 01.02.2017
Вебинар С-Терра Шлюз 10G, 01.02.2017Вебинар С-Терра Шлюз 10G, 01.02.2017
Вебинар С-Терра Шлюз 10G, 01.02.2017
 
Ngs 2014 troshin
Ngs 2014 troshinNgs 2014 troshin
Ngs 2014 troshin
 
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
 
Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)
 
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
 
Distributed systems
Distributed systemsDistributed systems
Distributed systems
 
Netapp prezz
Netapp prezzNetapp prezz
Netapp prezz
 
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктуройОбзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
 
GRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network InitiativeGRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network Initiative
 
Градус эффективности цод
Градус эффективности цодГрадус эффективности цод
Градус эффективности цод
 
Система сетевой аналитики для ЦОД Cisco Tetration Analytics
Система сетевой аналитики для ЦОД Cisco Tetration AnalyticsСистема сетевой аналитики для ЦОД Cisco Tetration Analytics
Система сетевой аналитики для ЦОД Cisco Tetration Analytics
 
Белнетэксперт - СХД
Белнетэксперт - СХДБелнетэксперт - СХД
Белнетэксперт - СХД
 
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
 
Виртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
Виртуализация баз данных с КРОК и Delphix. Кейс ИнгосстрахВиртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
Виртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
 

More from bigdatabm

Лисица А.В. Обработка данных об использовании научных публикаций в области би...
Лисица А.В. Обработка данных об использовании научных публикаций в области би...Лисица А.В. Обработка данных об использовании научных публикаций в области би...
Лисица А.В. Обработка данных об использовании научных публикаций в области би...bigdatabm
 
Вяххи Н. Обучение биоинформатике. Форматы и опыт
Вяххи Н. Обучение биоинформатике. Форматы и опытВяххи Н. Обучение биоинформатике. Форматы и опыт
Вяххи Н. Обучение биоинформатике. Форматы и опытbigdatabm
 
Баранова А. Облачные биомаркеры патологических состояний и процессов
Баранова А. Облачные биомаркеры патологических состояний и процессовБаранова А. Облачные биомаркеры патологических состояний и процессов
Баранова А. Облачные биомаркеры патологических состояний и процессовbigdatabm
 
Песков К. Разработка лекарственных средств: Клинические испытания и математич...
Песков К. Разработка лекарственных средств: Клинические испытания и математич...Песков К. Разработка лекарственных средств: Клинические испытания и математич...
Песков К. Разработка лекарственных средств: Клинические испытания и математич...bigdatabm
 
Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения э...
Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения э...Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения э...
Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения э...bigdatabm
 
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...bigdatabm
 
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...bigdatabm
 
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Database
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression DatabaseКолкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Database
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Databasebigdatabm
 

More from bigdatabm (8)

Лисица А.В. Обработка данных об использовании научных публикаций в области би...
Лисица А.В. Обработка данных об использовании научных публикаций в области би...Лисица А.В. Обработка данных об использовании научных публикаций в области би...
Лисица А.В. Обработка данных об использовании научных публикаций в области би...
 
Вяххи Н. Обучение биоинформатике. Форматы и опыт
Вяххи Н. Обучение биоинформатике. Форматы и опытВяххи Н. Обучение биоинформатике. Форматы и опыт
Вяххи Н. Обучение биоинформатике. Форматы и опыт
 
Баранова А. Облачные биомаркеры патологических состояний и процессов
Баранова А. Облачные биомаркеры патологических состояний и процессовБаранова А. Облачные биомаркеры патологических состояний и процессов
Баранова А. Облачные биомаркеры патологических состояний и процессов
 
Песков К. Разработка лекарственных средств: Клинические испытания и математич...
Песков К. Разработка лекарственных средств: Клинические испытания и математич...Песков К. Разработка лекарственных средств: Клинические испытания и математич...
Песков К. Разработка лекарственных средств: Клинические испытания и математич...
 
Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения э...
Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения э...Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения э...
Кузнецов С.О., Корепанова Н.В. Методы обнаружения знаний в задаче сравнения э...
 
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
Осадчий А.Е. Анализ многомерных магнито- и электроэнцефалографических данных ...
 
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
Левкович-Маслюк Л.И. Задачи и проекты центра исследований и разработок ЕМС Ск...
 
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Database
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression DatabaseКолкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Database
Колкер Е. An introduction to MOPED: Multi-Omics Profiling Expression Database
 

Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

  • 1. Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей, Генеральный директор iBinom
  • 2. Проблемы текущих решений • Сложная установка • Сложная настройка • Медленная работа • Плохая воспроизводимость результатов • Плохая визуализация результатов
  • 3. Задача Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей: – Простой интерфейс – Минимум настроек – Высокая скорость работы и воспроизводимость результатов – Высокая точность
  • 4. Технические сложности • Алгоритмическая сложность и ресурсоемкость (до 1000 CPU*h на анализ) • Большой объем входных данных (1-500 Гб) • Разные форматы данных FastQ (длины ридов, качество в phred33/phred64) • Обеспечение безопасности передачи и хранения данных
  • 5. Подход • Фильтрация ридов по качеству • Картирование • Фильтрация по таргетным регионам • Поиск SNP и коротких indel • Аннотация • Сортировка по патогенности и формирование отчета
  • 6. Реализация • Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость) • Хранение данных в S3 • Картирование BWA-MEM • Референс hg19 GRCh37.p13 assembly, ver. 73.37 • Коллинг SamTools • Аннотация SnpEff • Собственная оценка патогенности – ibinom score
  • 7. Выравнивание (симулированные данные) Total Correct Reads (%) Incorrectly Mapped Reads (%) Unmapped Reads (%) iBinom 7863529 101527 7 98.73% 1.27% 0.00% Bowtie2 7670364 251234 41901 96.32% 3.15% 0.53% Bwa 7363467 81561 518471 92.47% 1.02% 6.51%
  • 10. iBinom Score • Машинное обучение с помощью алгоритма градиентного бустинга • Обучающая выборка: – Патогенные: записи из dbsnp c clinvar clinical significance = pathogenic – Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях
  • 11. iBinom Score Точность: 93.44% Полнота: 90.96% F-measure: 92.18% Обучение по базам и скорам: 1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.
  • 12.
  • 13. Использование iBinom 1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace 2. Встроенный тримминг адаптеров 3. Можно объединять несколько файлов в один образец 4. Можно скачать vcf-файл (в формате v.4.1) 5. Для передачи используется шифрованное соединение https
  • 14.
  • 15.
  • 16.
  • 17.
  • 18. Планы 1. Система подбора болезней (по симптомам, по списку генов, по списку болезней) 2. Ветвление пайплайна (например, выравнивание TMAP для IonTorrent) 3. Продолжение исследований предиктивной аннотации