Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Diploma Work
1. «Анализ мотивов в больших
массивах данных»
Дипломная работа
Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов
Научные руководители:
Елена Михайловна Смекалова, к.х.н., ХПС
Пётр Владимирович Сергиев, д.х.н., доцент, ХПС
Научный куратор:
Головин Андрей Викторович, к.х.н., ФББ
1
2. Задача поиска и анализа мотивов
Мотив — характерное
сочетание остатков в цепях
биополимеров.
Паттерн — поисковый
шаблон для мотивов.
актуальна для
В данной работе:
● Поиска генов в ● Применён поиск по
геномах в т.ч. для паттернам для
нкРНК нахождения
● Идентификации цис- низкогомологичных
регуляторных генов нкРНК — TER
элементов генов ● Анализ распределений
● Анализа, в т.ч. последовательностей
статистического, как Шайн-Дальгарно и их
наборов генов, так и регуляторных
генома в целом элементов
● ....... 2
4. Существующие инструменты ?
fragrep2, web MEME, HMMer Web BLAST:
● Высокая сложность редактированя ● Нет поддержки паттернов
● Невозможность построения ● Нет набора выборки
шаблонов de novo ● Длина запроса не менее 7 нт
● Ошибки авто-построения ● Только для близких генов
● Преимущественно для белков ● Низкая скорость и стабильность
● Зависимость от гомологов
● Низкая скорость
Позиционные
весовые Построенные на
матрицы гомологах
математические
Скрытые модели усреднённой
модели последовательности.
Маркова
4
5. Задачи:
Создать универсальный инструмент для
поиска генов с произвольно задаваемыми
паттернами и возможностью формирования
выборок с адаптацией под некодирующие РНК
Выполнить поиск теломеразных РНК (TER) в
организмах с известными геномами, где эти
гены неизвестны
5
6. Теломеразные РНК
Сложности поиска:
● Крайне низкая Критерии поиска:
гомология ● Матричный участок
● Значительная теломерного повтора
вариабельность
длины ● Общие элементы
вторичной структуры
● Общие элементы в
пределах группы
Общая
● Нет длинных рамок
топология TER
считывания для
консервативных
белков
6
7. Схема работы инструмента mfilter
Выборка
● По короткой последовательности формируется выборка кандидатов
● Фильтрация по произвольно заданным паттернам с диапазонами
● Отбор кандидатов, содержащих известные белки - pfilter
● Сравнение каждого кандидата с пробной последовательностью
7
http://93.180.63.163/mfilter/man_rus.html
8. Проверка работоспособности mfilter
Поиски TER в модельных организмах
Sm сайт
граничные Est1
организм матрица псевдоузел или итого
условия консенсус
псевдоузел
Положительный контроль
.{100,600}
AAATCCGTACACCACATACCTAA
<псевдоузел>
K. lactis 240 1 1 1
.{100,300} .{100,600} .{100,1500}
CATCCGTAC
gaatg <псевдоузел> at{3,6}g
C. albicans 58 45 3 3 3 3
.{20,40}TGT{4} .{10,50}
CTAACCCTAA
.{5,15}CT{3} AAAAA
Danio rerio 9005 8987 8 1 1
Отрицательный контроль
.{20,40}TGT{4}
CAATCCCA
.{5,15}CT{3}
D.
5987 5965 0 0
melanogaster
.{100,300} .{100,600}
TGACTAACCC
gaatg <псевдоузел>
E. coli 5 5 0 0 0
8
http://93.180.63.163/mfilter/
12. Алгоритм поиска гена ylTER
● Получение выборки со всеми вариантами минимальной матрицы
● Отбор по паттерну псевдоузла
● Удаление дубликатов кандидатов
● Разметка паттернов
● Исключение кандидатов с известными генами (базы CDD, Rfam и NR/NT)
● Выравнивание псевдоузла с псевдоузлами рода Candida
● Картирование начала, конца и консервативных доменов TER рода Candida
● Детекция структур Смыкания трёх спиралей и Est1-шпильки
● Ручное сворачивание псевдоузла
12
http://93.180.63.163/mfilter/
13. 16 кандидатов гена ylTER с
ранжировкой (диапазоны,
паттерны, дополнительные
ylTER
нуклеотиды) :
6 плохих
6 средник
2 хороших
2 отличных
Кандидат 071: картировано начало и 2 Кандидат 033:картировано начало и конец,
консервативных домена, 7+3 доп.нт. псевдоузел выравнивается, консенсус Est1
Матрицы, длина около 1600, псевдоузел есть (но не найдено структуры),
выравнивается, найдены структуры, детектирован кандидат TWJ, матрица
близкие к Est1 и TWJ. Консенсуса Est1 не имеет 4 близких доп. нт. Длина кандидата -
найдено. 2870нт.
13
http://93.180.63.163/mfilter/
14. Heterocephalus glaber
голый землекоп
(Тестирование и калибровка mfilter)
● Выполнены выравнивание и анализ последовательности
гена с ближайшими родственниками и человеком
● Проведён анализ промотерной области
● Определены полиморфизмы
CR2 -p3
CR7 -p8b 14
http://93.180.63.163/mfilter/
15. Промотерная область hgTER
Матрица
Сбой Sp1.2 Делеция
Характерен для характерна для
родственных видов: всех грызунов Начало транскрипта
морской свинки и
шиншиллы
Не выявлено отличий структурной и промотерной
области гена TER у организма Heterocephalus glaber
между ближайшими родственными видами.
Выявлены 2 полиморфизма:
A->G в CR2-p3 (111 нт в hTER) — в первой петле псевдоузла, характерный для некоторых
грызунов.
G->A в CR7-p8b (422 нт в hTER) — в стебеле шпильки между H и ACA боксами,
характерный для некоторых амфибий.
15
http://93.180.63.163/mfilter/
16. Часть 2
Статистический анализ
последовательностей Шайн-Дальгарно
16
17. Последовательности
Шайн-Дальгарно
● Консервативные
последовательности в
бактериальных генах
для эффективного
связывания мРНК с
рибосомой при
инициации
трансляции.
● Могут иметь [AU]
богатые энхансеры в
5' стороне.
17
18. Задача: Построение распределений
числа генов по:
● Размеру блока ШД
Объект: E. coli
Acc: U00096.2 ● Расстоянию до старта
● Размеру [AU] блока
4,6 Млн. нт. ● Расстоянию до [AU] блока
> 4500 аннотаций генов ● Расстоянию до пред. гена
и стр. транскриптома ● Доле [AU] перед геном
+Учёт данных транскриптома
[AU] - состав
18
19. Результаты
1) Независимость
распределения длин ШД от
длин стартовых спейсеров.
2) Повышение доли AU в
областях перед ШД для
первых в оперонах и
одиночных генах
относительно всего генома.
19
21. Выводы:
1) Создан веб-сервис для универсального поиска генов по
паттернам, кодирующим областям и пробным
последовательностям — mfilter (http://93.180.63.163/mfilter/) и
адаптация его для поиска теломеразных РНК
(http://93.180.63.163/cgi-bin/tab_tr.pl).
2) Найдены биоинформатическими методами кандидаты на роль
гена теломеразной РНК в организме Yarrowia lipolytica и оценён
массив кандидатов аналогичного гена в организме
Caenorhabditis elegans.
3) Найдены и проанализированы in silico последовательности
структурной и промотерной части гена теломеразной РНК
организма Heterocephalus glaber.
4) Выполнены анализы распределений последовательностей
Шайн-Дальгарно для генома E. coli по их размерам, AU-составу
энхансерных участков, случаям реинициации и расположения в
оперонах при учёте данных секвенирования транскриптома. 21
26. Паттерновый шаблон и грамматика ввода
Цепи из паттернов —
нуклеотидных консенсусов
в грамматике регулярных
выражений с диапазонами
расстояний друг между
другом.
На основе первичного
паттерна BLAST
формирует пул первичных
кандидатов, далее они
проверяются на
совпадение с шаблоном
aatccc.{100,200}tgac(g|t)tgat
26
31. del
AA, MD,
leukem.
Общий тип: большинство организмов
Quoll-тип: Quoll, H. glaber
Суслики, Полёвки - с полиморфизмом по
31
этой букве, но структурный тип как у
человека
32. C→G
Человек Шиншилла Мышь
DC
32
Морская свинка H. glaber Жаба