SlideShare a Scribd company logo
1 of 19
Download to read offline
Обработка данных
секвенирования следующего
поколения в один клик
Афанасьев Андрей,
Генеральный директор iBinom
Проблемы текущих решений
• Сложная установка
• Сложная настройка
• Медленная работа
• Плохая воспроизводимость результатов
• Плохая визуализация результатов
Задача
Сделать продукт по анализу данных NGS для
диагностики наследственных заболеваний
для врачей:
– Простой интерфейс
– Минимум настроек
– Высокая скорость работы и воспроизводимость
результатов
– Высокая точность
Технические сложности
• Алгоритмическая сложность и
ресурсоемкость (до 1000 CPU*h на анализ)
• Большой объем входных данных (1-500 Гб)
• Разные форматы данных FastQ (длины
ридов, качество в phred33/phred64)
• Обеспечение безопасности передачи и
хранения данных
Подход
• Фильтрация ридов по качеству
• Картирование
• Фильтрация по таргетным регионам
• Поиск SNP и коротких indel
• Аннотация
• Сортировка по патогенности и
формирование отчета
Реализация
• Распределенные вычисление в облаке Amazon
в рамках парадигмы MapReduce
(неограниченная масштабируемость)
• Хранение данных в S3
• Картирование BWA-MEM
• Референс hg19 GRCh37.p13 assembly, ver. 73.37
• Коллинг SamTools
• Аннотация SnpEff
• Собственная оценка патогенности –
ibinom score
Выравнивание
(симулированные данные)
Total Correct Reads (%) Incorrectly Mapped
Reads (%)
Unmapped Reads (%)
iBinom 7863529 101527 7
98.73% 1.27% 0.00%
Bowtie2 7670364 251234 41901
96.32% 3.15% 0.53%
Bwa 7363467 81561 518471
92.47% 1.02% 6.51%
Коллинг
Коллинг
iBinom Score
• Машинное обучение с помощью алгоритма
градиентного бустинга
• Обучающая выборка:
– Патогенные: записи из dbsnp c clinvar clinical
significance = pathogenic
– Непатогенные: записи из dbsnp c частотой
самого редкого аллеля >5% во всех популяциях
iBinom Score
Точность: 93.44%
Полнота: 90.96%
F-measure: 92.18%
Обучение по базам и скорам:
1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl
Project, EntrezGene, Exome Variant Server,
GeneReviews, GERP++, GO, MutationAssessor,
MutationTaster, Orpha Date, Reactome, RefSeq,
SeattleSeq, SiPhy, snpEff, UniProt и др.
Использование iBinom
1. Поддерживается любой FASTQ файл, включая
архивы .gz, кроме colorspace
2. Встроенный тримминг адаптеров
3. Можно объединять несколько файлов в один
образец
4. Можно скачать vcf-файл (в формате v.4.1)
5. Для передачи используется шифрованное
соединение https
Планы
1. Система подбора болезней
(по симптомам, по списку генов, по списку
болезней)
2. Ветвление пайплайна
(например, выравнивание TMAP для
IonTorrent)
3. Переделка и упрощение интерфейса
программы
Приглашаем к
сотрудничеству!
a@ibinom.com

More Related Content

Similar to Семинар ДНК 16/05/2014 iBinom

JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsolegshpynov
 
Вебинар С-Терра Шлюз 10G, 01.02.2017
Вебинар С-Терра Шлюз 10G, 01.02.2017Вебинар С-Терра Шлюз 10G, 01.02.2017
Вебинар С-Терра Шлюз 10G, 01.02.2017S-Terra CSP
 
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...Ontico
 
Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Ontico
 
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...Cisco Russia
 
Netapp prezz
Netapp prezzNetapp prezz
Netapp prezzardaradan
 
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктуройОбзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктуройCisco Russia
 
GRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network InitiativeGRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network InitiativeARCCN
 
Система сетевой аналитики для ЦОД Cisco Tetration Analytics
Система сетевой аналитики для ЦОД Cisco Tetration AnalyticsСистема сетевой аналитики для ЦОД Cisco Tetration Analytics
Система сетевой аналитики для ЦОД Cisco Tetration AnalyticsCisco Russia
 
Белнетэксперт - СХД
Белнетэксперт - СХДБелнетэксперт - СХД
Белнетэксперт - СХДSergey Polazhenko
 
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)Andrey Klyuchka
 
Виртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
Виртуализация баз данных с КРОК и Delphix. Кейс ИнгосстрахВиртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
Виртуализация баз данных с КРОК и Delphix. Кейс ИнгосстрахКРОК
 
Информационная безопасность без компромиссов
Информационная безопасность без компромиссовИнформационная безопасность без компромиссов
Информационная безопасность без компромиссовКРОК
 
HPC file systems (160761)
HPC file systems (160761)HPC file systems (160761)
HPC file systems (160761)Vsevolod Shabad
 
20111002 information retrieval raskovalov_lecture3
20111002 information retrieval raskovalov_lecture320111002 information retrieval raskovalov_lecture3
20111002 information retrieval raskovalov_lecture3Computer Science Club
 
Новые возможности распределенной обработки данных в памяти (Coherence)
Новые возможности распределенной обработки данных в памяти (Coherence)Новые возможности распределенной обработки данных в памяти (Coherence)
Новые возможности распределенной обработки данных в памяти (Coherence)Andrey Akulov
 
Introduction to MongoDB
Introduction to MongoDBIntroduction to MongoDB
Introduction to MongoDBIurii Ogiienko
 

Similar to Семинар ДНК 16/05/2014 iBinom (20)

JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformatics
 
Вебинар С-Терра Шлюз 10G, 01.02.2017
Вебинар С-Терра Шлюз 10G, 01.02.2017Вебинар С-Терра Шлюз 10G, 01.02.2017
Вебинар С-Терра Шлюз 10G, 01.02.2017
 
Ngs 2014 troshin
Ngs 2014 troshinNgs 2014 troshin
Ngs 2014 troshin
 
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
Доменно специфичные базы данных и рассылка Aviasales, Борис Каплуновский (Avi...
 
Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)Виталий Гаврилов (Ленвендо)
Виталий Гаврилов (Ленвендо)
 
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
Маршрутизаторы Cisco - от чего зависит производительность или как получить ма...
 
Distributed systems
Distributed systemsDistributed systems
Distributed systems
 
Netapp prezz
Netapp prezzNetapp prezz
Netapp prezz
 
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктуройОбзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
Обзор возможностей Prime Infrastructure по управлению ИТ инфраструктурой
 
GRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network InitiativeGRANIT — Global Russian Advanced Network Initiative
GRANIT — Global Russian Advanced Network Initiative
 
Градус эффективности цод
Градус эффективности цодГрадус эффективности цод
Градус эффективности цод
 
Система сетевой аналитики для ЦОД Cisco Tetration Analytics
Система сетевой аналитики для ЦОД Cisco Tetration AnalyticsСистема сетевой аналитики для ЦОД Cisco Tetration Analytics
Система сетевой аналитики для ЦОД Cisco Tetration Analytics
 
Белнетэксперт - СХД
Белнетэксперт - СХДБелнетэксперт - СХД
Белнетэксперт - СХД
 
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
Cisco Connect Almaty 2014 - Security Solutions for Data Centers (russian)
 
Виртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
Виртуализация баз данных с КРОК и Delphix. Кейс ИнгосстрахВиртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
Виртуализация баз данных с КРОК и Delphix. Кейс Ингосстрах
 
Информационная безопасность без компромиссов
Информационная безопасность без компромиссовИнформационная безопасность без компромиссов
Информационная безопасность без компромиссов
 
HPC file systems (160761)
HPC file systems (160761)HPC file systems (160761)
HPC file systems (160761)
 
20111002 information retrieval raskovalov_lecture3
20111002 information retrieval raskovalov_lecture320111002 information retrieval raskovalov_lecture3
20111002 information retrieval raskovalov_lecture3
 
Новые возможности распределенной обработки данных в памяти (Coherence)
Новые возможности распределенной обработки данных в памяти (Coherence)Новые возможности распределенной обработки данных в памяти (Coherence)
Новые возможности распределенной обработки данных в памяти (Coherence)
 
Introduction to MongoDB
Introduction to MongoDBIntroduction to MongoDB
Introduction to MongoDB
 

Семинар ДНК 16/05/2014 iBinom

  • 1. Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей, Генеральный директор iBinom
  • 2. Проблемы текущих решений • Сложная установка • Сложная настройка • Медленная работа • Плохая воспроизводимость результатов • Плохая визуализация результатов
  • 3. Задача Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей: – Простой интерфейс – Минимум настроек – Высокая скорость работы и воспроизводимость результатов – Высокая точность
  • 4. Технические сложности • Алгоритмическая сложность и ресурсоемкость (до 1000 CPU*h на анализ) • Большой объем входных данных (1-500 Гб) • Разные форматы данных FastQ (длины ридов, качество в phred33/phred64) • Обеспечение безопасности передачи и хранения данных
  • 5. Подход • Фильтрация ридов по качеству • Картирование • Фильтрация по таргетным регионам • Поиск SNP и коротких indel • Аннотация • Сортировка по патогенности и формирование отчета
  • 6. Реализация • Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость) • Хранение данных в S3 • Картирование BWA-MEM • Референс hg19 GRCh37.p13 assembly, ver. 73.37 • Коллинг SamTools • Аннотация SnpEff • Собственная оценка патогенности – ibinom score
  • 7. Выравнивание (симулированные данные) Total Correct Reads (%) Incorrectly Mapped Reads (%) Unmapped Reads (%) iBinom 7863529 101527 7 98.73% 1.27% 0.00% Bowtie2 7670364 251234 41901 96.32% 3.15% 0.53% Bwa 7363467 81561 518471 92.47% 1.02% 6.51%
  • 10. iBinom Score • Машинное обучение с помощью алгоритма градиентного бустинга • Обучающая выборка: – Патогенные: записи из dbsnp c clinvar clinical significance = pathogenic – Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях
  • 11. iBinom Score Точность: 93.44% Полнота: 90.96% F-measure: 92.18% Обучение по базам и скорам: 1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.
  • 12.
  • 13. Использование iBinom 1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace 2. Встроенный тримминг адаптеров 3. Можно объединять несколько файлов в один образец 4. Можно скачать vcf-файл (в формате v.4.1) 5. Для передачи используется шифрованное соединение https
  • 14.
  • 15.
  • 16.
  • 17.
  • 18. Планы 1. Система подбора болезней (по симптомам, по списку генов, по списку болезней) 2. Ветвление пайплайна (например, выравнивание TMAP для IonTorrent) 3. Переделка и упрощение интерфейса программы