Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Ya.mi tcr.final
1. Первичный анализ
данных иммунома
человека
Дмитрий Болотин
Лаборатория геномики адаптивного иммунитета,
Институт биоорганической химии им. академиков М.М. Шемякина
и Ю.А. Овчинникова РАН
Яндекс, 2013
10. Ген рецептора
•
Клетки с одной специфичностью имеют одинаковый ген Т-клеточного
рецептора.
ДНК
GTAGCTCCCCCCAAGGCTCATGAAGTTCGCATTCAGATCATTGCTACCTC
11. Ген рецептора
•
Клетки с одной специфичностью имеют одинаковый ген Т-клеточного
рецептора.
Всегда постоянный
ДНК
GTAGCTCCCCCCAAGGCTCATGAAGTTCGCATTCAGATCATTGCTACCTC
12. Ген рецептора
•
Клетки с одной специфичностью имеют одинаковый ген Т-клеточного
рецептора.
Выбирается из набора
(~100 вариантов)
Выбирается из набора
(~40 вариантов)
Всегда постоянный
ДНК
GTAGCTCCCCCCAAGGCTCATGAAGTTCGCATTCAGATCATTGCTACCTC
13. Ген рецептора
•
Клетки с одной специфичностью имеют одинаковый ген Т-клеточного
рецептора.
Выбирается из набора
(~100 вариантов)
Выбирается из набора
(~40 вариантов)
Случайные буквы
Всегда постоянный
ДНК
GTAGCTCCCCCCAAGGCTCATGAAGTTCGCATTCAGATCATTGCTACCTC
14. Ген рецептора
•
Клетки с одной специфичностью имеют одинаковый ген Т-клеточного
рецептора.
Выбирается из набора
(~100 вариантов)
Выбирается из набора
(~40 вариантов)
Случайные буквы
CDR3
Всегда постоянный
15. Ген рецептора
•
Клетки с одной специфичностью имеют одинаковый ген Т-клеточного
рецептора.
Выбирается из набора
(~100 вариантов)
Выбирается из набора
(~40 вариантов)
Случайные буквы
Всегда постоянный
CDR3
Может служить идентификатором данного гена,
а следовательно и данной группы клеток (клона)
26. Один массив
•
от 1 - 100 млн. входных последовательностей
•
100 - 250 нуклеотидов каждая
•
~ 100 Гб входных данных
•
~1 млн. вариантов CDR3
•
отдельные клоны занимают от 20% до <0.0001%
образца
39. Результаты
•
Извлекает CDR3 из 98% входных
последовательностей
•
Корректирует более 95% ошибок
(искусственного разнообразия) при этом
сокращая естественное разнообразее менее чем
на 2%
41. Производительность
•
Обрабатывает 50 000 последовательностей в секунду
(AMD Phenom II X4 955 @ 3.2 GHz)
•
Потребляет ~ 5 кбайт на хранение одного клонотипа
•
Этого достаточно, чтобы за 20 минут обработать
самый сложный (разнообразный) массив из нашего
опыта на машине с 16 Гб ОЗУ
44. Мотивация
1. Возможна диагностика заболеваний по иммуномным данным
2. Для диагностики будут нужны паттерны иммунного ответа
3. Для вычисления этих паттернов необходимы большие
выборки образцов здоровых доноров и пациентов
4. Объединение в одном месте данных из многих источников
позволит набрать необходимые выборки образцов с
известными заболеваниями
5. База как таковая сможет служить хорошим источником
контрольных данных
45. Задачи
•
Хранение данных иммуномов человека с
сопутствующей мета-информацией об истории
болезни
•
Обеспечение разграничения прав доступа к
различным массивам (публичные и приватные
массивы)
•
Поиск новых паттернов и уточнение старых
•
Распознавание паттернов в поступающих данных
46. Мотивация пользователя
•
Простой интерфейс для обработки данных
(MiTCR или его преемник будут осуществлять
обработку на серверной стороне)
•
Интерфейс (Web и API) для простого анализа и
сравнения образцов, к которым имеется доступ
•
Share your immunome
49. Характерные запросы на
низком уровне
•
Найти все массивы, в которых встречается
определенный клон
•
Найти все клоны, встречающиеся в группе
массивов
•
Различные нечеткие поиски и группировки
52. Заключение
•
Аккумуляция большого количества данных
необходима для извлечения паттернов имунного
ответа для реальной диагностики
•
База сразу будет полезна для текущей работы
исследователей, что должно помочь ее
наполнению
•
Реализация такой базы существенно упрощается
за счет существующих облачных сервисов