Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиIBS
Андрей Николаенко, системный архитектор в IBS, выступил на конференции HighLoad++ 2016.
Тезисы
В выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)Ontico
В выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
Высокопроизводительные вычисления на платформе DellDell_Russia
Высокопроизводительные вычисления на платформе Dell
Марсель ван Друнен, старший эксперт направления высокопроизводительных вычислений Dell в регионе EMEA.
Форум решений Dell — 2014 (Dell Solutions Forum 2014).
Москва, 14 ноября 2014 г.
Андрей Николаенко, IBS. NVMf: 5 млн IOPS по сети своими рукамиIBS
Андрей Николаенко, системный архитектор в IBS, выступил на конференции HighLoad++ 2016.
Тезисы
В выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
NVMf: 5 млн IOPS по сети своими руками / Андрей Николаенко (IBS)Ontico
В выпуске 4.8 ядра Linux появилась поддержка NVMf (NVM Express over Fabrics) — стандартизованной возможности присоединять по сети как блочные устройства твердотельные накопители, установленные в разъёмы PCI Express. NVMf лишён многих недостатков iSCSI, повторяющего по сети SCSI-команды со всеми их издержками времён дисковых накопителей, и главное — позволяет по полной использовать возможности сетей с прямым доступом к оперативной памяти (RDMA). Таким образом, можно под управлением одного узла собрать сверхбыстрый и сверхотзывчивый пул блочных устройств, не прибегая к покупке дорогого флэш-массива. Но как воспользоваться этим пулом, не загубив теоретические показатели программными обёртками?
В докладе будут рассмотрены варианты применения NVMf для различных конфигураций PostgreSQL, Oracle Database, Hadoop, файловых хранилищ, о разработках в направлении «программно-определяемой памяти» с применением NVMe-устройств, доступных по сети, обсуждены текущие проблемы, ограничения и перспективы. Особое внимание будет уделено практическим способам измерения производительности ввода-вывода с учётом задачи, решаемой подсистемой хранения.
Высокопроизводительные вычисления на платформе DellDell_Russia
Высокопроизводительные вычисления на платформе Dell
Марсель ван Друнен, старший эксперт направления высокопроизводительных вычислений Dell в регионе EMEA.
Форум решений Dell — 2014 (Dell Solutions Forum 2014).
Москва, 14 ноября 2014 г.
Решение на базе MicroSoft Hyper-V приводит к сокращению физической инфраструктуры, упрощению администрирования ЛВС,
Подробнее о дата центрах на сайте www.DCNT.ru
Виртуализация баз данных с КРОК и Delphix. Кейс ИнгосстрахКРОК
25 августа 2016
Бизнес-ужин «Современный подход к хранению баз данных, или как сократить время на развертывание с 5 дней до 5 минут»
Подробнее http://www.croc.ru/action/detail/65761/
Решение на базе MicroSoft Hyper-V приводит к сокращению физической инфраструктуры, упрощению администрирования ЛВС,
Подробнее о дата центрах на сайте www.DCNT.ru
Виртуализация баз данных с КРОК и Delphix. Кейс ИнгосстрахКРОК
25 августа 2016
Бизнес-ужин «Современный подход к хранению баз данных, или как сократить время на развертывание с 5 дней до 5 минут»
Подробнее http://www.croc.ru/action/detail/65761/
2. Проблемы текущих решений
• Сложная установка
• Сложная настройка
• Медленная работа
• Плохая воспроизводимость результатов
• Плохая визуализация результатов
3. Задача
Сделать продукт по анализу данных NGS для
диагностики наследственных заболеваний
для врачей:
– Простой интерфейс
– Минимум настроек
– Высокая скорость работы и воспроизводимость
результатов
– Высокая точность
4. Технические сложности
• Алгоритмическая сложность и
ресурсоемкость (до 1000 CPU*h на анализ)
• Большой объем входных данных (1-500 Гб)
• Разные форматы данных FastQ (длины
ридов, качество в phred33/phred64)
• Обеспечение безопасности передачи и
хранения данных
5. Подход
• Фильтрация ридов по качеству
• Картирование
• Фильтрация по таргетным регионам
• Поиск SNP и коротких indel
• Аннотация
• Сортировка по патогенности и
формирование отчета
6. Реализация
• Распределенные вычисление в облаке Amazon
в рамках парадигмы MapReduce
(неограниченная масштабируемость)
• Хранение данных в S3
• Картирование BWA-MEM
• Референс hg19 GRCh37.p13 assembly, ver. 73.37
• Коллинг SamTools
• Аннотация SnpEff
• Собственная оценка патогенности –
ibinom score
10. iBinom Score
• Машинное обучение с помощью алгоритма
градиентного бустинга
• Обучающая выборка:
– Патогенные: записи из dbsnp c clinvar clinical
significance = pathogenic
– Непатогенные: записи из dbsnp c частотой
самого редкого аллеля >5% во всех популяциях
11. iBinom Score
Точность: 93.44%
Полнота: 90.96%
F-measure: 92.18%
Обучение по базам и скорам:
1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl
Project, EntrezGene, Exome Variant Server,
GeneReviews, GERP++, GO, MutationAssessor,
MutationTaster, Orpha Date, Reactome, RefSeq,
SeattleSeq, SiPhy, snpEff, UniProt и др.
12.
13. Использование iBinom
1. Поддерживается любой FASTQ файл, включая
архивы .gz, кроме colorspace
2. Встроенный тримминг адаптеров
3. Можно объединять несколько файлов в один
образец
4. Можно скачать vcf-файл (в формате v.4.1)
5. Для передачи используется шифрованное
соединение https
14.
15.
16.
17.
18. Планы
1. Система подбора болезней
(по симптомам, по списку генов, по списку
болезней)
2. Ветвление пайплайна
(например, выравнивание TMAP для
IonTorrent)
3. Переделка и упрощение интерфейса
программы