SlideShare a Scribd company logo
1 of 34
Download to read offline
«Анализ мотивов в больших
      массивах данных»
                     Дипломная работа
Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов

                                        Научные руководители:

                    Елена Михайловна Смекалова, к.х.н., ХПС
              Пётр Владимирович Сергиев, д.х.н., доцент, ХПС

                                             Научный куратор:

                       Головин Андрей Викторович, к.х.н., ФББ
                                                           1
Задача поиска и анализа мотивов
                                     Мотив — характерное
                                     сочетание остатков в цепях
                                     биополимеров.
                                     Паттерн — поисковый
                                     шаблон для мотивов.

    актуальна для
                            В данной работе:
●   Поиска генов в         ● Применён поиск по

    геномах в т.ч. для       паттернам для
    нкРНК                    нахождения
●   Идентификации цис-       низкогомологичных
    регуляторных             генов нкРНК — TER
    элементов генов        ● Анализ распределений

●   Анализа, в т.ч.          последовательностей
    статистического, как     Шайн-Дальгарно и их
    наборов генов, так и     регуляторных
    генома в целом           элементов
●   .......                                             2
Часть 1

Универсальный поиск по паттернам,
     поиск теломеразных РНК



                                3
Существующие инструменты ?

     fragrep2, web MEME, HMMer               Web BLAST:
 ●   Высокая сложность редактированя     ●   Нет поддержки паттернов
 ●   Невозможность построения            ●   Нет набора выборки
     шаблонов de novo                    ●   Длина запроса не менее 7 нт
 ●   Ошибки авто-построения              ●   Только для близких генов
 ●   Преимущественно для белков          ●   Низкая скорость и стабильность
 ●   Зависимость от гомологов
 ●   Низкая скорость
                                   Позиционные
                                     весовые   Построенные на
                                     матрицы   гомологах
                                                    математические
                                       Скрытые      модели усреднённой
                                       модели       последовательности.
                                       Маркова
                                                                          4
Задачи:


   Создать универсальный инструмент для
    поиска генов с произвольно задаваемыми
    паттернами и возможностью формирования
    выборок с адаптацией под некодирующие РНК

   Выполнить поиск теломеразных РНК (TER) в
    организмах с известными геномами, где эти
    гены неизвестны



                                                5
Теломеразные РНК
    Сложности поиска:
●   Крайне низкая             Критерии поиска:
    гомология           ●   Матричный участок
●   Значительная            теломерного повтора
    вариабельность
    длины               ●   Общие элементы
                            вторичной структуры
                        ●   Общие элементы в
                            пределах группы
           Общая
                        ●   Нет длинных рамок
       топология TER
                            считывания для
                            консервативных
                            белков
                                                 6
Схема работы инструмента mfilter
                         Выборка




●   По короткой последовательности формируется выборка кандидатов
●   Фильтрация по произвольно заданным паттернам с диапазонами
●   Отбор кандидатов, содержащих известные белки - pfilter
●   Сравнение каждого кандидата с пробной последовательностью
                                                                7
               http://93.180.63.163/mfilter/man_rus.html
Проверка работоспособности mfilter
                 Поиски TER в модельных организмах
                                                                           Sm сайт
                                      граничные   Est1
   организм            матрица                           псевдоузел          или     итого
                                       условия консенсус
                                                                          псевдоузел
                               Положительный контроль
                                                           .{100,600}
               AAATCCGTACACCACATACCTAA
                                                         <псевдоузел>
    K. lactis            240              1                    1                       1



                                                .{100,300} .{100,600} .{100,1500}
                     CATCCGTAC
                                                   gaatg <псевдоузел> at{3,6}g
   C. albicans           58              45        3           3              3        3



                                                         .{20,40}TGT{4}    .{10,50}
                     CTAACCCTAA
                                                           .{5,15}CT{3}    AAAAA
   Danio rerio          9005             8987                  8              1        1
                               Отрицательный контроль
                                                         .{20,40}TGT{4}
                      CAATCCCA
                                                           .{5,15}CT{3}
       D.
                        5987             5965                  0                       0
  melanogaster
                                                .{100,300} .{100,600}
                     TGACTAACCC
                                                   gaatg <псевдоузел>
     E. coli              5               5        0           0                       0
                                                                                             8
                      http://93.180.63.163/mfilter/
Danio rerio




       Проверка


                                BLAST

                                PWM
                                        9
http://93.180.63.163/mfilter/
Выбор организмов:
Дрожжи: Yarowia lipolytica   основной объект




                                               10
         http://93.180.63.163/mfilter/
Конструирование паттернов
●   Теломерный повтор: GGGTTAGTCA

     ●   Sm сайт: at{3,6}g                          Матричный участок:

     ●   Est1 связывающая шпилька: gaatg             TGACTAACCC ?
                                                     TGACTAACCC
     ●   Псевдоузел                                  GACTAACCCT
                                                     ACTAACCCTG
                                                     CTAACCCTGA
                                                     TAACCCTGAC
                                                     AACCCTGACT
                                                     ACCCTGACTA
                                                     CCCTGACTAA
                                                     CCTGACTAAC
                                                     CTGACTAACC

                                                                  11
                    http://93.180.63.163/mfilter/
Алгоритм поиска гена ylTER




●   Получение выборки со всеми вариантами минимальной матрицы
●   Отбор по паттерну псевдоузла
●   Удаление дубликатов кандидатов
●   Разметка паттернов
●   Исключение кандидатов с известными генами (базы CDD, Rfam и NR/NT)
●   Выравнивание псевдоузла с псевдоузлами рода Candida
●   Картирование начала, конца и консервативных доменов TER рода Candida
●   Детекция структур Смыкания трёх спиралей и Est1-шпильки
●   Ручное сворачивание псевдоузла
                                                                   12

                      http://93.180.63.163/mfilter/
16 кандидатов гена ylTER с
ранжировкой (диапазоны,
паттерны, дополнительные
                                           ylTER
нуклеотиды) :




  6 плохих
  6 средник
 2 хороших
 2 отличных


Кандидат 071: картировано начало и 2       Кандидат 033:картировано начало и конец,
консервативных домена, 7+3 доп.нт.         псевдоузел выравнивается, консенсус Est1
Матрицы, длина около 1600, псевдоузел      есть (но не найдено структуры),
выравнивается, найдены структуры,          детектирован кандидат TWJ, матрица
близкие к Est1 и TWJ. Консенсуса Est1 не   имеет 4 близких доп. нт. Длина кандидата -
найдено.                                   2870нт.
                                                                                  13
                        http://93.180.63.163/mfilter/
Heterocephalus glaber
                                                    голый землекоп
(Тестирование и калибровка mfilter)
       ●   Выполнены выравнивание и анализ последовательности
           гена с ближайшими родственниками и человеком
       ●   Проведён анализ промотерной области
       ●   Определены полиморфизмы
                                                CR2 -p3




                                                      CR7 -p8b   14
                    http://93.180.63.163/mfilter/
Промотерная область hgTER


                                                                                Матрица
 Сбой Sp1.2                                    Делеция
 Характерен для                         характерна для
 родственных видов:                      всех грызунов            Начало транскрипта
 морской свинки и
 шиншиллы


          Не выявлено отличий структурной и промотерной
          области гена TER у организма Heterocephalus glaber
          между ближайшими родственными видами.

Выявлены 2 полиморфизма:
A->G в CR2-p3 (111 нт в hTER) — в первой петле псевдоузла, характерный для некоторых
грызунов.
G->A в CR7-p8b (422 нт в hTER) — в стебеле шпильки между H и ACA боксами,
характерный для некоторых амфибий.
                                                                                15
                        http://93.180.63.163/mfilter/
Часть 2

       Статистический анализ
последовательностей Шайн-Дальгарно



                                16
Последовательности
Шайн-Дальгарно
             ●   Консервативные 
                  последовательности в 
                  бактериальных генах 
                  для эффективного 
                  связывания мРНК с 
                  рибосомой при 
                  инициации 
                  трансляции.
             ●   Могут иметь [AU] 
                  богатые энхансеры в 
                  5' стороне.
                                  17
Задача:             Построение распределений
                         числа генов по:
                       ● Размеру блока ШД
Объект: E. coli
Acc: U00096.2          ● Расстоянию до старта

                       ● Размеру [AU] блока


4,6 Млн. нт.           ● Расстоянию до [AU] блока


> 4500 аннотаций генов ● Расстоянию до пред. гена
и стр. транскриптома   ● Доле [AU] перед геном


                        +Учёт данных транскриптома




           [AU] - состав
                                               18
Результаты




1) Независимость
распределения длин ШД от
длин стартовых спейсеров.

2) Повышение доли AU в
областях перед ШД для
первых в оперонах и
одиночных генах
относительно всего генома.
                                      19
http://93.180.63.163/mfilter/




                                20
Выводы:
1) Создан веб-сервис для универсального поиска генов по
   паттернам, кодирующим областям и пробным
   последовательностям — mfilter (http://93.180.63.163/mfilter/) и
   адаптация его для поиска теломеразных РНК
   (http://93.180.63.163/cgi-bin/tab_tr.pl).
2) Найдены биоинформатическими методами кандидаты на роль
   гена теломеразной РНК в организме Yarrowia lipolytica и оценён
   массив кандидатов аналогичного гена в организме
   Caenorhabditis elegans.
3) Найдены и проанализированы in silico последовательности
   структурной и промотерной части гена теломеразной РНК
   организма Heterocephalus glaber.
4) Выполнены анализы распределений последовательностей
   Шайн-Дальгарно для генома E. coli по их размерам, AU-составу
   энхансерных участков, случаям реинициации и расположения в
   оперонах при учёте данных секвенирования транскриптома. 21
22

22
23
Текущий интерфейс




                    24
Выводимые
данные




            25
Паттерновый шаблон и грамматика ввода
                                 Цепи из паттернов —
                                 нуклеотидных консенсусов
                                 в грамматике регулярных
                                 выражений с диапазонами
                                 расстояний друг между
                                 другом.

                                 На основе первичного
                                 паттерна BLAST
                                 формирует пул первичных
                                 кандидатов, далее они
                                 проверяются на
                                 совпадение с шаблоном



               aatccc.{100,200}tgac(g|t)tgat
                                                      26
071




033



      27
t{0,6}([agc].?)?[agc]?t{2,4}[agc]?t{1,4}
        .{0,9}a[tg]t.{0,3}gat.{0,7}
 t{1,5}[agc]{0,2}t{1,4}[agc]{0,4}t{2,4}
                                           28
a{0,5}([tgc].?)?[tgc]?a{2,4}[tgc]?a{2,5}
29
30
del
                          AA, MD,
                          leukem.

Общий тип: большинство организмов




  Quoll-тип: Quoll, H. glaber
   Суслики, Полёвки - с полиморфизмом по
                                            31
     этой букве, но структурный тип как у
                   человека
C→G
      Человек     Шиншилла      Мышь
 DC




                                       32
 Морская свинка     H. glaber   Жаба
Nucleic Acids Res. 2008,
36(Database issue):D339-43.
Epub 2007 Dec 11.




                              33
Транскриптом




               3434

More Related Content

Featured

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 

Featured (20)

Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 

Diploma Work

  • 1. «Анализ мотивов в больших массивах данных» Дипломная работа Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов Научные руководители: Елена Михайловна Смекалова, к.х.н., ХПС Пётр Владимирович Сергиев, д.х.н., доцент, ХПС Научный куратор: Головин Андрей Викторович, к.х.н., ФББ 1
  • 2. Задача поиска и анализа мотивов Мотив — характерное сочетание остатков в цепях биополимеров. Паттерн — поисковый шаблон для мотивов. актуальна для В данной работе: ● Поиска генов в ● Применён поиск по геномах в т.ч. для паттернам для нкРНК нахождения ● Идентификации цис- низкогомологичных регуляторных генов нкРНК — TER элементов генов ● Анализ распределений ● Анализа, в т.ч. последовательностей статистического, как Шайн-Дальгарно и их наборов генов, так и регуляторных генома в целом элементов ● ....... 2
  • 3. Часть 1 Универсальный поиск по паттернам, поиск теломеразных РНК 3
  • 4. Существующие инструменты ? fragrep2, web MEME, HMMer Web BLAST: ● Высокая сложность редактированя ● Нет поддержки паттернов ● Невозможность построения ● Нет набора выборки шаблонов de novo ● Длина запроса не менее 7 нт ● Ошибки авто-построения ● Только для близких генов ● Преимущественно для белков ● Низкая скорость и стабильность ● Зависимость от гомологов ● Низкая скорость Позиционные весовые Построенные на матрицы гомологах математические Скрытые модели усреднённой модели последовательности. Маркова 4
  • 5. Задачи:  Создать универсальный инструмент для поиска генов с произвольно задаваемыми паттернами и возможностью формирования выборок с адаптацией под некодирующие РНК  Выполнить поиск теломеразных РНК (TER) в организмах с известными геномами, где эти гены неизвестны 5
  • 6. Теломеразные РНК Сложности поиска: ● Крайне низкая Критерии поиска: гомология ● Матричный участок ● Значительная теломерного повтора вариабельность длины ● Общие элементы вторичной структуры ● Общие элементы в пределах группы Общая ● Нет длинных рамок топология TER считывания для консервативных белков 6
  • 7. Схема работы инструмента mfilter Выборка ● По короткой последовательности формируется выборка кандидатов ● Фильтрация по произвольно заданным паттернам с диапазонами ● Отбор кандидатов, содержащих известные белки - pfilter ● Сравнение каждого кандидата с пробной последовательностью 7 http://93.180.63.163/mfilter/man_rus.html
  • 8. Проверка работоспособности mfilter Поиски TER в модельных организмах Sm сайт граничные Est1 организм матрица псевдоузел или итого условия консенсус псевдоузел Положительный контроль .{100,600} AAATCCGTACACCACATACCTAA <псевдоузел> K. lactis 240 1 1 1 .{100,300} .{100,600} .{100,1500} CATCCGTAC gaatg <псевдоузел> at{3,6}g C. albicans 58 45 3 3 3 3 .{20,40}TGT{4} .{10,50} CTAACCCTAA .{5,15}CT{3} AAAAA Danio rerio 9005 8987 8 1 1 Отрицательный контроль .{20,40}TGT{4} CAATCCCA .{5,15}CT{3} D. 5987 5965 0 0 melanogaster .{100,300} .{100,600} TGACTAACCC gaatg <псевдоузел> E. coli 5 5 0 0 0 8 http://93.180.63.163/mfilter/
  • 9. Danio rerio Проверка BLAST PWM 9 http://93.180.63.163/mfilter/
  • 10. Выбор организмов: Дрожжи: Yarowia lipolytica основной объект 10 http://93.180.63.163/mfilter/
  • 11. Конструирование паттернов ● Теломерный повтор: GGGTTAGTCA ● Sm сайт: at{3,6}g Матричный участок: ● Est1 связывающая шпилька: gaatg TGACTAACCC ? TGACTAACCC ● Псевдоузел GACTAACCCT ACTAACCCTG CTAACCCTGA TAACCCTGAC AACCCTGACT ACCCTGACTA CCCTGACTAA CCTGACTAAC CTGACTAACC 11 http://93.180.63.163/mfilter/
  • 12. Алгоритм поиска гена ylTER ● Получение выборки со всеми вариантами минимальной матрицы ● Отбор по паттерну псевдоузла ● Удаление дубликатов кандидатов ● Разметка паттернов ● Исключение кандидатов с известными генами (базы CDD, Rfam и NR/NT) ● Выравнивание псевдоузла с псевдоузлами рода Candida ● Картирование начала, конца и консервативных доменов TER рода Candida ● Детекция структур Смыкания трёх спиралей и Est1-шпильки ● Ручное сворачивание псевдоузла 12 http://93.180.63.163/mfilter/
  • 13. 16 кандидатов гена ylTER с ранжировкой (диапазоны, паттерны, дополнительные ylTER нуклеотиды) : 6 плохих 6 средник 2 хороших 2 отличных Кандидат 071: картировано начало и 2 Кандидат 033:картировано начало и конец, консервативных домена, 7+3 доп.нт. псевдоузел выравнивается, консенсус Est1 Матрицы, длина около 1600, псевдоузел есть (но не найдено структуры), выравнивается, найдены структуры, детектирован кандидат TWJ, матрица близкие к Est1 и TWJ. Консенсуса Est1 не имеет 4 близких доп. нт. Длина кандидата - найдено. 2870нт. 13 http://93.180.63.163/mfilter/
  • 14. Heterocephalus glaber голый землекоп (Тестирование и калибровка mfilter) ● Выполнены выравнивание и анализ последовательности гена с ближайшими родственниками и человеком ● Проведён анализ промотерной области ● Определены полиморфизмы CR2 -p3 CR7 -p8b 14 http://93.180.63.163/mfilter/
  • 15. Промотерная область hgTER Матрица Сбой Sp1.2 Делеция Характерен для характерна для родственных видов: всех грызунов Начало транскрипта морской свинки и шиншиллы Не выявлено отличий структурной и промотерной области гена TER у организма Heterocephalus glaber между ближайшими родственными видами. Выявлены 2 полиморфизма: A->G в CR2-p3 (111 нт в hTER) — в первой петле псевдоузла, характерный для некоторых грызунов. G->A в CR7-p8b (422 нт в hTER) — в стебеле шпильки между H и ACA боксами, характерный для некоторых амфибий. 15 http://93.180.63.163/mfilter/
  • 16. Часть 2 Статистический анализ последовательностей Шайн-Дальгарно 16
  • 17. Последовательности Шайн-Дальгарно ● Консервативные  последовательности в  бактериальных генах  для эффективного  связывания мРНК с  рибосомой при  инициации  трансляции. ● Могут иметь [AU]  богатые энхансеры в  5' стороне. 17
  • 18. Задача: Построение распределений числа генов по: ● Размеру блока ШД Объект: E. coli Acc: U00096.2 ● Расстоянию до старта ● Размеру [AU] блока 4,6 Млн. нт. ● Расстоянию до [AU] блока > 4500 аннотаций генов ● Расстоянию до пред. гена и стр. транскриптома ● Доле [AU] перед геном +Учёт данных транскриптома [AU] - состав 18
  • 19. Результаты 1) Независимость распределения длин ШД от длин стартовых спейсеров. 2) Повышение доли AU в областях перед ШД для первых в оперонах и одиночных генах относительно всего генома. 19
  • 21. Выводы: 1) Создан веб-сервис для универсального поиска генов по паттернам, кодирующим областям и пробным последовательностям — mfilter (http://93.180.63.163/mfilter/) и адаптация его для поиска теломеразных РНК (http://93.180.63.163/cgi-bin/tab_tr.pl). 2) Найдены биоинформатическими методами кандидаты на роль гена теломеразной РНК в организме Yarrowia lipolytica и оценён массив кандидатов аналогичного гена в организме Caenorhabditis elegans. 3) Найдены и проанализированы in silico последовательности структурной и промотерной части гена теломеразной РНК организма Heterocephalus glaber. 4) Выполнены анализы распределений последовательностей Шайн-Дальгарно для генома E. coli по их размерам, AU-составу энхансерных участков, случаям реинициации и расположения в оперонах при учёте данных секвенирования транскриптома. 21
  • 22. 22 22
  • 23. 23
  • 26. Паттерновый шаблон и грамматика ввода Цепи из паттернов — нуклеотидных консенсусов в грамматике регулярных выражений с диапазонами расстояний друг между другом. На основе первичного паттерна BLAST формирует пул первичных кандидатов, далее они проверяются на совпадение с шаблоном aatccc.{100,200}tgac(g|t)tgat 26
  • 27. 071 033 27
  • 28. t{0,6}([agc].?)?[agc]?t{2,4}[agc]?t{1,4} .{0,9}a[tg]t.{0,3}gat.{0,7} t{1,5}[agc]{0,2}t{1,4}[agc]{0,4}t{2,4} 28 a{0,5}([tgc].?)?[tgc]?a{2,4}[tgc]?a{2,5}
  • 29. 29
  • 30. 30
  • 31. del AA, MD, leukem. Общий тип: большинство организмов Quoll-тип: Quoll, H. glaber Суслики, Полёвки - с полиморфизмом по 31 этой букве, но структурный тип как у человека
  • 32. C→G Человек Шиншилла Мышь DC 32 Морская свинка H. glaber Жаба
  • 33. Nucleic Acids Res. 2008, 36(Database issue):D339-43. Epub 2007 Dec 11. 33