Diploma Work

1,646 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,646
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Diploma Work

  1. 1. «Анализ мотивов в больших массивах данных» Дипломная работаЕвфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов Научные руководители: Елена Михайловна Смекалова, к.х.н., ХПС Пётр Владимирович Сергиев, д.х.н., доцент, ХПС Научный куратор: Головин Андрей Викторович, к.х.н., ФББ 1
  2. 2. Задача поиска и анализа мотивов Мотив — характерное сочетание остатков в цепях биополимеров. Паттерн — поисковый шаблон для мотивов. актуальна для В данной работе:● Поиска генов в ● Применён поиск по геномах в т.ч. для паттернам для нкРНК нахождения● Идентификации цис- низкогомологичных регуляторных генов нкРНК — TER элементов генов ● Анализ распределений● Анализа, в т.ч. последовательностей статистического, как Шайн-Дальгарно и их наборов генов, так и регуляторных генома в целом элементов● ....... 2
  3. 3. Часть 1Универсальный поиск по паттернам, поиск теломеразных РНК 3
  4. 4. Существующие инструменты ? fragrep2, web MEME, HMMer Web BLAST: ● Высокая сложность редактированя ● Нет поддержки паттернов ● Невозможность построения ● Нет набора выборки шаблонов de novo ● Длина запроса не менее 7 нт ● Ошибки авто-построения ● Только для близких генов ● Преимущественно для белков ● Низкая скорость и стабильность ● Зависимость от гомологов ● Низкая скорость Позиционные весовые Построенные на матрицы гомологах математические Скрытые модели усреднённой модели последовательности. Маркова 4
  5. 5. Задачи: Создать универсальный инструмент для поиска генов с произвольно задаваемыми паттернами и возможностью формирования выборок с адаптацией под некодирующие РНК Выполнить поиск теломеразных РНК (TER) в организмах с известными геномами, где эти гены неизвестны 5
  6. 6. Теломеразные РНК Сложности поиска:● Крайне низкая Критерии поиска: гомология ● Матричный участок● Значительная теломерного повтора вариабельность длины ● Общие элементы вторичной структуры ● Общие элементы в пределах группы Общая ● Нет длинных рамок топология TER считывания для консервативных белков 6
  7. 7. Схема работы инструмента mfilter Выборка● По короткой последовательности формируется выборка кандидатов● Фильтрация по произвольно заданным паттернам с диапазонами● Отбор кандидатов, содержащих известные белки - pfilter● Сравнение каждого кандидата с пробной последовательностью 7 http://93.180.63.163/mfilter/man_rus.html
  8. 8. Проверка работоспособности mfilter Поиски TER в модельных организмах Sm сайт граничные Est1 организм матрица псевдоузел или итого условия консенсус псевдоузел Положительный контроль .{100,600} AAATCCGTACACCACATACCTAA <псевдоузел> K. lactis 240 1 1 1 .{100,300} .{100,600} .{100,1500} CATCCGTAC gaatg <псевдоузел> at{3,6}g C. albicans 58 45 3 3 3 3 .{20,40}TGT{4} .{10,50} CTAACCCTAA .{5,15}CT{3} AAAAA Danio rerio 9005 8987 8 1 1 Отрицательный контроль .{20,40}TGT{4} CAATCCCA .{5,15}CT{3} D. 5987 5965 0 0 melanogaster .{100,300} .{100,600} TGACTAACCC gaatg <псевдоузел> E. coli 5 5 0 0 0 8 http://93.180.63.163/mfilter/
  9. 9. Danio rerio Проверка BLAST PWM 9http://93.180.63.163/mfilter/
  10. 10. Выбор организмов:Дрожжи: Yarowia lipolytica основной объект 10 http://93.180.63.163/mfilter/
  11. 11. Конструирование паттернов● Теломерный повтор: GGGTTAGTCA ● Sm сайт: at{3,6}g Матричный участок: ● Est1 связывающая шпилька: gaatg TGACTAACCC ? TGACTAACCC ● Псевдоузел GACTAACCCT ACTAACCCTG CTAACCCTGA TAACCCTGAC AACCCTGACT ACCCTGACTA CCCTGACTAA CCTGACTAAC CTGACTAACC 11 http://93.180.63.163/mfilter/
  12. 12. Алгоритм поиска гена ylTER● Получение выборки со всеми вариантами минимальной матрицы● Отбор по паттерну псевдоузла● Удаление дубликатов кандидатов● Разметка паттернов● Исключение кандидатов с известными генами (базы CDD, Rfam и NR/NT)● Выравнивание псевдоузла с псевдоузлами рода Candida● Картирование начала, конца и консервативных доменов TER рода Candida● Детекция структур Смыкания трёх спиралей и Est1-шпильки● Ручное сворачивание псевдоузла 12 http://93.180.63.163/mfilter/
  13. 13. 16 кандидатов гена ylTER сранжировкой (диапазоны,паттерны, дополнительные ylTERнуклеотиды) : 6 плохих 6 средник 2 хороших 2 отличныхКандидат 071: картировано начало и 2 Кандидат 033:картировано начало и конец,консервативных домена, 7+3 доп.нт. псевдоузел выравнивается, консенсус Est1Матрицы, длина около 1600, псевдоузел есть (но не найдено структуры),выравнивается, найдены структуры, детектирован кандидат TWJ, матрицаблизкие к Est1 и TWJ. Консенсуса Est1 не имеет 4 близких доп. нт. Длина кандидата -найдено. 2870нт. 13 http://93.180.63.163/mfilter/
  14. 14. Heterocephalus glaber голый землекоп(Тестирование и калибровка mfilter) ● Выполнены выравнивание и анализ последовательности гена с ближайшими родственниками и человеком ● Проведён анализ промотерной области ● Определены полиморфизмы CR2 -p3 CR7 -p8b 14 http://93.180.63.163/mfilter/
  15. 15. Промотерная область hgTER Матрица Сбой Sp1.2 Делеция Характерен для характерна для родственных видов: всех грызунов Начало транскрипта морской свинки и шиншиллы Не выявлено отличий структурной и промотерной области гена TER у организма Heterocephalus glaber между ближайшими родственными видами.Выявлены 2 полиморфизма:A->G в CR2-p3 (111 нт в hTER) — в первой петле псевдоузла, характерный для некоторыхгрызунов.G->A в CR7-p8b (422 нт в hTER) — в стебеле шпильки между H и ACA боксами,характерный для некоторых амфибий. 15 http://93.180.63.163/mfilter/
  16. 16. Часть 2 Статистический анализпоследовательностей Шайн-Дальгарно 16
  17. 17. ПоследовательностиШайн-Дальгарно ● Консервативные  последовательности в  бактериальных генах  для эффективного  связывания мРНК с  рибосомой при  инициации  трансляции. ● Могут иметь [AU]  богатые энхансеры в  5 стороне. 17
  18. 18. Задача: Построение распределений числа генов по: ● Размеру блока ШДОбъект: E. coliAcc: U00096.2 ● Расстоянию до старта ● Размеру [AU] блока4,6 Млн. нт. ● Расстоянию до [AU] блока> 4500 аннотаций генов ● Расстоянию до пред. генаи стр. транскриптома ● Доле [AU] перед геном +Учёт данных транскриптома [AU] - состав 18
  19. 19. Результаты1) Независимостьраспределения длин ШД отдлин стартовых спейсеров.2) Повышение доли AU вобластях перед ШД дляпервых в оперонах иодиночных генахотносительно всего генома. 19
  20. 20. http://93.180.63.163/mfilter/ 20
  21. 21. Выводы:1) Создан веб-сервис для универсального поиска генов по паттернам, кодирующим областям и пробным последовательностям — mfilter (http://93.180.63.163/mfilter/) и адаптация его для поиска теломеразных РНК (http://93.180.63.163/cgi-bin/tab_tr.pl).2) Найдены биоинформатическими методами кандидаты на роль гена теломеразной РНК в организме Yarrowia lipolytica и оценён массив кандидатов аналогичного гена в организме Caenorhabditis elegans.3) Найдены и проанализированы in silico последовательности структурной и промотерной части гена теломеразной РНК организма Heterocephalus glaber.4) Выполнены анализы распределений последовательностей Шайн-Дальгарно для генома E. coli по их размерам, AU-составу энхансерных участков, случаям реинициации и расположения в оперонах при учёте данных секвенирования транскриптома. 21
  22. 22. 2222
  23. 23. 23
  24. 24. Текущий интерфейс 24
  25. 25. Выводимыеданные 25
  26. 26. Паттерновый шаблон и грамматика ввода Цепи из паттернов — нуклеотидных консенсусов в грамматике регулярных выражений с диапазонами расстояний друг между другом. На основе первичного паттерна BLAST формирует пул первичных кандидатов, далее они проверяются на совпадение с шаблоном aatccc.{100,200}tgac(g|t)tgat 26
  27. 27. 071033 27
  28. 28. t{0,6}([agc].?)?[agc]?t{2,4}[agc]?t{1,4} .{0,9}a[tg]t.{0,3}gat.{0,7} t{1,5}[agc]{0,2}t{1,4}[agc]{0,4}t{2,4} 28a{0,5}([tgc].?)?[tgc]?a{2,4}[tgc]?a{2,5}
  29. 29. 29
  30. 30. 30
  31. 31. del AA, MD, leukem.Общий тип: большинство организмов Quoll-тип: Quoll, H. glaber Суслики, Полёвки - с полиморфизмом по 31 этой букве, но структурный тип как у человека
  32. 32. C→G Человек Шиншилла Мышь DC 32 Морская свинка H. glaber Жаба
  33. 33. Nucleic Acids Res. 2008,36(Database issue):D339-43.Epub 2007 Dec 11. 33
  34. 34. Транскриптом 3434

×