SlideShare a Scribd company logo
Преддипломная практика
    Евфратова С.А., ХФ МГУ, каф. ХПС, лаб.
                    химии нуклеопротеидов

  Научный руководитель: Елена Михайловна
                         Смекалова , ХПС
         Научный куратор : Головин Андрей
                          Викторович, ФББ
На тему «Анализ мотивов в больших массивах
данных»
Часть 1

Универсальный поиск по паттернам
Существующие инструменты ?
    Недостатки web BLAST:
   Невозможность запроса                      Необходимы
    множественных паттернов
    (только 1 запрос и нет фильтров)            собственные средства
   Сильные ограничения в                       для сложных
    масштабах поиска (паттерн
    нельзя менее 7, урезание
                                                автоматизированных
    результатов, нет вырожденных)               поисков
   Низкая скорость и стабильность
    Недостатки инструментов работы с
    паттернами (fragrep2, DNA Pattern
                                               Решение -
    Find):                                      инструменты BioPerl
    ●Нет поддежки genome-size
    ●Нет поддержки множественных
                                                на локальных
    паттернов
    ●Низкая стабильность
                                                серверах ФББ,
                                                собственные web
                                                сервисы.
Теломеразная РНК
                           Критерии поиска
    Сложности поиска   ●   Матричный участок
●   Низкая гомология   ●   Характерные
                           элементы
●   Вариабельность         вторичной
    длины                  структуры
                       ●   Общие элементы в
                           родственных
                           организмах
                       ●   Нет длинных рамок
                           считывания для
                           консервативных
                           белков
Постановка задачи при
    биоинформатическом подходе
●Отбор кандидатов на роль теломеразной РНК в
выбранном организме. Критерии отбора:

●- наличие теломерного повтора (матричный участок
теломеразной РНК)
●- отсутствие ORF с высокой гомологией к

известным белкам
●-переменный        паттерн,     соответствующий
консервативным элементам первичной структуры
WORKFLOW MAP
Белковый фильтр
●   Задаётся
    минимальная длина
    транслята
●   Задаётся
    минимальная длина
    HSP
●   Задаётся доля
    гомологичных
    остатков
●Было сменено несколько концепций
принципа работы фильтра
●Фильтр — прототип, есть

нестабильности
●Параметры, программы, функции

сравнения и базы активно
дискутируются
Выполнено:
Запуск белкового            ●   Полный и
фильтра                         безошибочный
● База SwissProt — 330Мб        парсинг отчётов
● Вариабельные параметры
                                BLAST
сравнения:
  ● минимальная длина       ●   Поиск по легко
    пептида для проверки        задаваемому числу
  ● минимальная длина HSP

    для рассмотрения            паттернов
  ● критическое значение

    гомологии
                            ●   Вывод
                                промежуточных
                                данных
Планируется:

●   Обеспечить стабильность работы белкового фильтра
●   Автоматизировать ввод первичного паттерна —
    повтора
●   Доработать эффективное средство отсева
    гомологичных белков
●   Устанавливать прототип сервиса на компьютеры
    сотрудников
●   Приступить к написанию веб-сервиса
Организм-контроль —
Hansenula Polymorpha
 ●   Простой организм -
     дрожжи
 ●   Есть полный геном
     WGS
 ●   Известна TR
 ●   Известны общие
     для дрожжей
     паттерны в TR
Объекты:
                                     Control
●   Candida Yarrowia
    Lypolitica                                     Working..
                                Working...
●   Hansenula                   No patterns
    Polymorpha                                          Found.
                                                     Broken gene
●   Tribolium Castaneum
                                   Discuss...
●   Caenorhabditis                No patterns

    elegans
                                       Известны паттерны
●   Heterocephalus
    Glaber                               Нет паттернов,
                                         использование
                                         белковой базы
●   ???...
                                       Высокая гомология
                                           аналогов
                 List will be
                 continued
Текущие результаты
      Дрожжевые паттерны:
  ●   Теломерный повтор                          Основной целевой объект:
                                                 Yarrowia Lypolytica
  ●   Sm сайт: at{3,6}g                         Pattern: caatcgtcc
                                                Number seq's for processing ORF Filter: 113
  ●   Est1 hairpin: gaatg                       Number candidats: 86
                                                Pattern: caatcgtcc.{100,300}gaatg
  ●   Pseudo-knot:                              Number seq's for processing ORF Filter: 15
                                 Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat
                                                Number seq's for processing ORF Filter: 3
      tt(t|c)a(t|g).{0,3}gat
                                              Pattern: caatcgtcc.{100,500}tt(t|c)a(t|g).{0,3}gat
                                              Number seq's for processing ORF Filter: 12
    Yarrowia Lypolitica                       Pattern: caatcgtcc.{100,900}at{3,6}g
Num. + 475 Num. - 470                         Number seq's for processing ORF Filter: 72
Number of search resuls = 945
Number of primary split seq. = 945
Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.{500,1200}at{3,6}g
Number seq's for processing ORF Filter: 2
Number candidats: 1
Текущие результаты
um. + 475 Num. - 470
Number of search resuls = 945
Number of primary split seq. = 945
Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.
{500,1200}at{3,6}g
Number seq's for processing ORF Filter: 2                                       Yarrowia Lypolitica
        Processing candidat # 1
Processing ORF +1
No protein chains more that 100
Processing ORF +2
                                                  template               Est1    Pseudo-knot   Sm site
Processing protein chain +2 length = 103
matching value 0.472222222222222 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF +3
Processing protein chain +3 length = 164
matching value 0 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF -1
No protein chains more that 100
Processing ORF -2
Processing protein chain -2 length = 115
matching value 0 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF -3
No protein chains more that 100
Candidat #1 pass ORF filter
        Processing candidat # 2
Processing ORF +1
Processing protein chain +1 length = 105
matching value 0 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF +2
No protein chains more that 100
Processing ORF +3
Processing protein chain +3 length = 102
matching value 0 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF -1
No protein chains more that 100
Processing ORF -2
Processing protein chain -2 length = 318
No protein chains more that 100
Processing ORF -3
No protein chains more that 100
Candidat #2 removed
Number candidats: 1
Heterocephalus
Glaber




             template         CR2                 CR3



       CR3                                  CR5



      CR5               CR6     CR7   CR8
Часть 2

Статистические распределения
Последовательности
Шайн-Дальгарно
                ●   Консервативные 
                     последовательности 
                     в бактериальных 
                     генах для 
                     эффективного 
                     связывания мРНК с 
                     рибосомой при 
                     инициации 
                     трансляции


             
Задача
                       ●    Построение 
    Объект: E.coli           распределений по:
                       ●    Размеру блока ШД
    AccNum U00096.2
    GI 48994873        ●    Расстоянию до старта
                       ●    Размеру [AU] участка
    4639675 bp         ●    Расстоянию до [AU]
    > 4500 аннотаций
    генов
                       ●    Первой буквы старта
                       ●    Расстоянию до пред. гена
    Format: GeneBank   ●    Доле [AU] перед геном
                         
Условия
Работ с объектом
●   gene        complement(5683..6459)
●             /gene="yaaA"
●             /locus_tag="b0006"
●             /gene_synonym="ECK0006"
●             /gene_synonym="JW0005"
●             /db_xref="EcoGene:EG10011"
До пред. ОРС
                                 Распределения                    Стартовый нуклеотид




                                                                     Число ошибок ШД
                  Число                          Число                                           ?



                                    Длина ШД
                                                                                        Число
Длина ШД



                  Генов                          Генов                                  Генов
                  локус-                         локус-                                 локус-
                  тэги                           тэги                                   тэги

                                                   Доля АТ



    До пред. ОРС                    До пред. ОРС                   До пред. ОРС

                                                                                       Число




                                                                 Длина ШД
                    Число                         Число
       Длина ШД




                                      Длина ШД

                    Генов                         Генов                                Генов
                    локус-                        локус-                               локус-
                    тэги                          тэги                                 тэги


                     Размер АТ                   Спейсер до АТ         Спейсер до старта
Рабочие и отладочные данные
b0044 .aaggag.. mis. 3
GGGCTTCATCAATCTAATCAAGGATGGCATGAAAGGAGTGACCGTTTTATG
match seq:     AAAGGAGTGACCGTTTTATG      length agGg--Nug 12
b0045 .aa..agg. mis. 4
TGATACGTAACGCCGCACTGACTCTCATTGCAAAAAACAGGAATAACCATG
match seq:     AAAACAGGAATAACCATG length agGg--Nug 10
b0046 taa..a.g. mis. 4
ATGACTACACTTTGTGGGAAAACAAAGGCGTAATCACGCGGGCTACCTATG
match seq:     TAATCACGCGGGCTACCTATG length agGg--Nug 13
b0047 ..aggagg. mis. 3
AGGCGCGTCACTATAAGCAACGTCTGCTGGAATGGCAGGAGGCCCATCATG
match seq:     GCAGGAGGCCCATCATG length agGg--Nug 9
b0048 t..gga..t mis. 4
TTACGCTTTACGTATAGTGGCGACAATTTTTTTTATCGGGAAATCTCAATG
match seq:     TCGGGAAATCTCAATGlength agGg--Nug 8
b0049 t.a..a... mis. 6
ATTCCCGTATTCCGACTCGCCGTTCCCACACTCATTCATTAAAAGAATATG
match seq:     TCATTAAAAGAATATG length agGg--Nug 8
b0050 t..g.agg. mis. 4
GATGGCGAACTATCTGGCGGAGAACGCGCCTTTGCAGGAGAGTTAACGATG
match seq:     TTTGCAGGAGAGTTAACGATG length agGg--Nug 13
Рабочие таблицы
   Strand direct, shift value: + , >200               Strand direct, shift value: + , 21-200
   Continuous SD block types:                         Continuous SD block types:
   0| 0                                               0| 0
   1| 1                                               1| 2
   2| 35                                              2| 44
   3| 232                                             3| 156
   4| 290                                             4| 225
   5| 227                                             5| 153
   6| 91                                              6| 65
   7| 24                                              7| 19
   8| 5                                               8| 4
Num. SD cont block types 9, len. AT block 0-20, len. subseq 35
    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0|
1|                              1
2|           10 22 27 32 20 10 14 4 3 3                        1 1
3|           32 136 211 218 186 111 72 50 24 15 12 6 5 1 2                                 1
4|      2 36 201 316 322 234 160 85 56 32 26 10 6 4 5 4                                    1 1
                        1
5|           41 146 235 237 177 125 65 42 31 16 6 6 3 1 1                                  1
6|           16 61 92 94 76 36 29 19 8 7 1 1 2                                1 1            1
7|           8 37 31 27 19 21 7 5 2 5 1 2
8|                3 7 4 2 1                 2 1
9|                          1
Полученные распределения




       SD vs START spacer




                 SD vs AT block
0,14
                                                            RND
                               0,12
                                                            >20 0
                                0,1                         <20 0
                               0,08

                               0,06

                               0,04

                               0,02

                                 0
                                      0   20   40     60   80   100
                                               AT distr.
SD, prev ORF




               SD vs AT stat
SD vs AT stat ORF 0
SD vs AT stat ORF > 200




SD vs AT stat ORF 21-200   SD vs AT stat ORF -1




 SD vs AT stat ORF 9-20
                           SD vs AT stat ORF -4




 SD vs AT stat ORF 1-8     SD vs AT stat ORF < -4
SD vs AT block > 200    SD vs AT block 0




SD vs AT block 21-200   SD vs AT block -1




 SD vs AT block 9-20
                        SD vs AT block -4




 SD vs AT block 1-8
                        SD vs AT block < -4
Экспериментальная модель —
      репортёрная       конструкция
      измерения      относительной
      экспрессионной активности в
      зависимости от инициаторного
      участка
T5                                T5

UTR                               UTR
      Control reporter                  Measured
  SD len. AU rich
Ter +/- spacer start   Variable
 spacer AU 1st let.
Спасибо за внимание!

More Related Content

Similar to Pre - Diploma Work

«Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
 «Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль... «Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
«Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
MedicalGenomics
 
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...Fedor Tsarev
 
Опыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растенийОпыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растений
Ilya Klabukov
 
Pt2 nanopore
Pt2 nanoporePt2 nanopore
Pt2 nanopore
Alex Predeus
 
Nanopores sequencing
Nanopores sequencingNanopores sequencing
Nanopores sequencing
BioinformaticsInstitute
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...BioinformaticsInstitute
 
Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.
bifurcafe
 
васькин мнск13
васькин мнск13васькин мнск13
васькин мнск13vaskinyy
 
Доклад на семинаре в лаборатории алгоритмической биологии АУ
Доклад на семинаре в лаборатории алгоритмической биологии АУДоклад на семинаре в лаборатории алгоритмической биологии АУ
Доклад на семинаре в лаборатории алгоритмической биологии АУ
Fedor Tsarev
 
ПЦР без амплификатора?! Изотермическая амплификация как новое решение для ПЦР...
ПЦР без амплификатора?! Изотермическая амплификация как новое решение для ПЦР...ПЦР без амплификатора?! Изотермическая амплификация как новое решение для ПЦР...
ПЦР без амплификатора?! Изотермическая амплификация как новое решение для ПЦР...
SkyGen
 
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
Alexey Anikaev
 
Доклад NGS - Томск 05.01.13
Доклад NGS - Томск 05.01.13Доклад NGS - Томск 05.01.13
Доклад NGS - Томск 05.01.13aepavlov
 
Получение радионуклидов и РФП для ПЭТ. Радиолиганды. Лекция 7, Красикова Р.Н.
Получение радионуклидов и РФП для ПЭТ. Радиолиганды. Лекция 7, Красикова Р.Н.Получение радионуклидов и РФП для ПЭТ. Радиолиганды. Лекция 7, Красикова Р.Н.
Получение радионуклидов и РФП для ПЭТ. Радиолиганды. Лекция 7, Красикова Р.Н.Alex_Zadorin
 
Трансляция
ТрансляцияТрансляция
Трансляция
tophisopam
 
Сборка генома de novo: мифы и реальность
Сборка генома de novo: мифы и реальностьСборка генома de novo: мифы и реальность
Сборка генома de novo: мифы и реальностьFedor Tsarev
 

Similar to Pre - Diploma Work (20)

«Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
 «Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль... «Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
«Преимплантационная генетическая диагностика: результаты работы, ПГД-консуль...
 
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
Сборка генома: мифы и реальность. Доклад на пленарном заседании III Всероссий...
 
Ngs 1
Ngs 1Ngs 1
Ngs 1
 
Опыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растенийОпыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растений
 
Pt2 nanopore
Pt2 nanoporePt2 nanopore
Pt2 nanopore
 
Nanopores sequencing
Nanopores sequencingNanopores sequencing
Nanopores sequencing
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 
Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.Семинар по генным сетям. Mirob.
Семинар по генным сетям. Mirob.
 
васькин мнск13
васькин мнск13васькин мнск13
васькин мнск13
 
Доклад на семинаре в лаборатории алгоритмической биологии АУ
Доклад на семинаре в лаборатории алгоритмической биологии АУДоклад на семинаре в лаборатории алгоритмической биологии АУ
Доклад на семинаре в лаборатории алгоритмической биологии АУ
 
ПЦР без амплификатора?! Изотермическая амплификация как новое решение для ПЦР...
ПЦР без амплификатора?! Изотермическая амплификация как новое решение для ПЦР...ПЦР без амплификатора?! Изотермическая амплификация как новое решение для ПЦР...
ПЦР без амплификатора?! Изотермическая амплификация как новое решение для ПЦР...
 
Biotechnology 2012-03
Biotechnology 2012-03Biotechnology 2012-03
Biotechnology 2012-03
 
Biotechnology 2012-02
Biotechnology 2012-02Biotechnology 2012-02
Biotechnology 2012-02
 
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...
 
Доклад NGS - Томск 05.01.13
Доклад NGS - Томск 05.01.13Доклад NGS - Томск 05.01.13
Доклад NGS - Томск 05.01.13
 
Получение радионуклидов и РФП для ПЭТ. Радиолиганды. Лекция 7, Красикова Р.Н.
Получение радионуклидов и РФП для ПЭТ. Радиолиганды. Лекция 7, Красикова Р.Н.Получение радионуклидов и РФП для ПЭТ. Радиолиганды. Лекция 7, Красикова Р.Н.
Получение радионуклидов и РФП для ПЭТ. Радиолиганды. Лекция 7, Красикова Р.Н.
 
Трансляция
ТрансляцияТрансляция
Трансляция
 
Vvedenie v bioinformatiku_4
Vvedenie v bioinformatiku_4Vvedenie v bioinformatiku_4
Vvedenie v bioinformatiku_4
 
Сборка генома de novo: мифы и реальность
Сборка генома de novo: мифы и реальностьСборка генома de novo: мифы и реальность
Сборка генома de novo: мифы и реальность
 
Vvedenie v bioinformatiku_2
Vvedenie v bioinformatiku_2Vvedenie v bioinformatiku_2
Vvedenie v bioinformatiku_2
 

Pre - Diploma Work

  • 1. Преддипломная практика Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов Научный руководитель: Елена Михайловна Смекалова , ХПС Научный куратор : Головин Андрей Викторович, ФББ На тему «Анализ мотивов в больших массивах данных»
  • 3. Существующие инструменты ? Недостатки web BLAST:  Невозможность запроса  Необходимы множественных паттернов (только 1 запрос и нет фильтров) собственные средства  Сильные ограничения в для сложных масштабах поиска (паттерн нельзя менее 7, урезание автоматизированных результатов, нет вырожденных) поисков  Низкая скорость и стабильность Недостатки инструментов работы с паттернами (fragrep2, DNA Pattern  Решение - Find): инструменты BioPerl ●Нет поддежки genome-size ●Нет поддержки множественных на локальных паттернов ●Низкая стабильность серверах ФББ, собственные web сервисы.
  • 4. Теломеразная РНК Критерии поиска Сложности поиска ● Матричный участок ● Низкая гомология ● Характерные элементы ● Вариабельность вторичной длины структуры ● Общие элементы в родственных организмах ● Нет длинных рамок считывания для консервативных белков
  • 5. Постановка задачи при биоинформатическом подходе ●Отбор кандидатов на роль теломеразной РНК в выбранном организме. Критерии отбора: ●- наличие теломерного повтора (матричный участок теломеразной РНК) ●- отсутствие ORF с высокой гомологией к известным белкам ●-переменный паттерн, соответствующий консервативным элементам первичной структуры
  • 7. Белковый фильтр ● Задаётся минимальная длина транслята ● Задаётся минимальная длина HSP ● Задаётся доля гомологичных остатков ●Было сменено несколько концепций принципа работы фильтра ●Фильтр — прототип, есть нестабильности ●Параметры, программы, функции сравнения и базы активно дискутируются
  • 8. Выполнено: Запуск белкового ● Полный и фильтра безошибочный ● База SwissProt — 330Мб парсинг отчётов ● Вариабельные параметры BLAST сравнения: ● минимальная длина ● Поиск по легко пептида для проверки задаваемому числу ● минимальная длина HSP для рассмотрения паттернов ● критическое значение гомологии ● Вывод промежуточных данных
  • 9. Планируется: ● Обеспечить стабильность работы белкового фильтра ● Автоматизировать ввод первичного паттерна — повтора ● Доработать эффективное средство отсева гомологичных белков ● Устанавливать прототип сервиса на компьютеры сотрудников ● Приступить к написанию веб-сервиса
  • 10. Организм-контроль — Hansenula Polymorpha ● Простой организм - дрожжи ● Есть полный геном WGS ● Известна TR ● Известны общие для дрожжей паттерны в TR
  • 11. Объекты: Control ● Candida Yarrowia Lypolitica Working.. Working... ● Hansenula No patterns Polymorpha Found. Broken gene ● Tribolium Castaneum Discuss... ● Caenorhabditis No patterns elegans Известны паттерны ● Heterocephalus Glaber Нет паттернов, использование белковой базы ● ???... Высокая гомология аналогов List will be continued
  • 12. Текущие результаты Дрожжевые паттерны: ● Теломерный повтор Основной целевой объект: Yarrowia Lypolytica ● Sm сайт: at{3,6}g Pattern: caatcgtcc Number seq's for processing ORF Filter: 113 ● Est1 hairpin: gaatg Number candidats: 86 Pattern: caatcgtcc.{100,300}gaatg ● Pseudo-knot: Number seq's for processing ORF Filter: 15 Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat Number seq's for processing ORF Filter: 3 tt(t|c)a(t|g).{0,3}gat Pattern: caatcgtcc.{100,500}tt(t|c)a(t|g).{0,3}gat Number seq's for processing ORF Filter: 12 Yarrowia Lypolitica Pattern: caatcgtcc.{100,900}at{3,6}g Num. + 475 Num. - 470 Number seq's for processing ORF Filter: 72 Number of search resuls = 945 Number of primary split seq. = 945 Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.{500,1200}at{3,6}g Number seq's for processing ORF Filter: 2 Number candidats: 1
  • 13. Текущие результаты um. + 475 Num. - 470 Number of search resuls = 945 Number of primary split seq. = 945 Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat. {500,1200}at{3,6}g Number seq's for processing ORF Filter: 2 Yarrowia Lypolitica Processing candidat # 1 Processing ORF +1 No protein chains more that 100 Processing ORF +2 template Est1 Pseudo-knot Sm site Processing protein chain +2 length = 103 matching value 0.472222222222222 does not exceed critical matching 0.6 No protein chains more that 100 Processing ORF +3 Processing protein chain +3 length = 164 matching value 0 does not exceed critical matching 0.6 No protein chains more that 100 Processing ORF -1 No protein chains more that 100 Processing ORF -2 Processing protein chain -2 length = 115 matching value 0 does not exceed critical matching 0.6 No protein chains more that 100 Processing ORF -3 No protein chains more that 100 Candidat #1 pass ORF filter Processing candidat # 2 Processing ORF +1 Processing protein chain +1 length = 105 matching value 0 does not exceed critical matching 0.6 No protein chains more that 100 Processing ORF +2 No protein chains more that 100 Processing ORF +3 Processing protein chain +3 length = 102 matching value 0 does not exceed critical matching 0.6 No protein chains more that 100 Processing ORF -1 No protein chains more that 100 Processing ORF -2 Processing protein chain -2 length = 318 No protein chains more that 100 Processing ORF -3 No protein chains more that 100 Candidat #2 removed Number candidats: 1
  • 14. Heterocephalus Glaber template CR2 CR3 CR3 CR5 CR5 CR6 CR7 CR8
  • 16. Последовательности Шайн-Дальгарно ● Консервативные  последовательности  в бактериальных  генах для  эффективного  связывания мРНК с  рибосомой при  инициации  трансляции    
  • 17. Задача ● Построение  Объект: E.coli распределений по: ● Размеру блока ШД AccNum U00096.2 GI 48994873 ● Расстоянию до старта ● Размеру [AU] участка 4639675 bp ● Расстоянию до [AU] > 4500 аннотаций генов ● Первой буквы старта ● Расстоянию до пред. гена Format: GeneBank ● Доле [AU] перед геном    
  • 19. Работ с объектом ● gene complement(5683..6459) ● /gene="yaaA" ● /locus_tag="b0006" ● /gene_synonym="ECK0006" ● /gene_synonym="JW0005" ● /db_xref="EcoGene:EG10011"
  • 20. До пред. ОРС Распределения Стартовый нуклеотид Число ошибок ШД Число Число ? Длина ШД Число Длина ШД Генов Генов Генов локус- локус- локус- тэги тэги тэги Доля АТ До пред. ОРС До пред. ОРС До пред. ОРС Число Длина ШД Число Число Длина ШД Длина ШД Генов Генов Генов локус- локус- локус- тэги тэги тэги Размер АТ Спейсер до АТ Спейсер до старта
  • 21. Рабочие и отладочные данные b0044 .aaggag.. mis. 3 GGGCTTCATCAATCTAATCAAGGATGGCATGAAAGGAGTGACCGTTTTATG match seq: AAAGGAGTGACCGTTTTATG length agGg--Nug 12 b0045 .aa..agg. mis. 4 TGATACGTAACGCCGCACTGACTCTCATTGCAAAAAACAGGAATAACCATG match seq: AAAACAGGAATAACCATG length agGg--Nug 10 b0046 taa..a.g. mis. 4 ATGACTACACTTTGTGGGAAAACAAAGGCGTAATCACGCGGGCTACCTATG match seq: TAATCACGCGGGCTACCTATG length agGg--Nug 13 b0047 ..aggagg. mis. 3 AGGCGCGTCACTATAAGCAACGTCTGCTGGAATGGCAGGAGGCCCATCATG match seq: GCAGGAGGCCCATCATG length agGg--Nug 9 b0048 t..gga..t mis. 4 TTACGCTTTACGTATAGTGGCGACAATTTTTTTTATCGGGAAATCTCAATG match seq: TCGGGAAATCTCAATGlength agGg--Nug 8 b0049 t.a..a... mis. 6 ATTCCCGTATTCCGACTCGCCGTTCCCACACTCATTCATTAAAAGAATATG match seq: TCATTAAAAGAATATG length agGg--Nug 8 b0050 t..g.agg. mis. 4 GATGGCGAACTATCTGGCGGAGAACGCGCCTTTGCAGGAGAGTTAACGATG match seq: TTTGCAGGAGAGTTAACGATG length agGg--Nug 13
  • 22. Рабочие таблицы Strand direct, shift value: + , >200 Strand direct, shift value: + , 21-200 Continuous SD block types: Continuous SD block types: 0| 0 0| 0 1| 1 1| 2 2| 35 2| 44 3| 232 3| 156 4| 290 4| 225 5| 227 5| 153 6| 91 6| 65 7| 24 7| 19 8| 5 8| 4 Num. SD cont block types 9, len. AT block 0-20, len. subseq 35 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0| 1| 1 2| 10 22 27 32 20 10 14 4 3 3 1 1 3| 32 136 211 218 186 111 72 50 24 15 12 6 5 1 2 1 4| 2 36 201 316 322 234 160 85 56 32 26 10 6 4 5 4 1 1 1 5| 41 146 235 237 177 125 65 42 31 16 6 6 3 1 1 1 6| 16 61 92 94 76 36 29 19 8 7 1 1 2 1 1 1 7| 8 37 31 27 19 21 7 5 2 5 1 2 8| 3 7 4 2 1 2 1 9| 1
  • 23. Полученные распределения SD vs START spacer SD vs AT block
  • 24. 0,14 RND 0,12 >20 0 0,1 <20 0 0,08 0,06 0,04 0,02 0 0 20 40 60 80 100 AT distr. SD, prev ORF SD vs AT stat
  • 25. SD vs AT stat ORF 0 SD vs AT stat ORF > 200 SD vs AT stat ORF 21-200 SD vs AT stat ORF -1 SD vs AT stat ORF 9-20 SD vs AT stat ORF -4 SD vs AT stat ORF 1-8 SD vs AT stat ORF < -4
  • 26. SD vs AT block > 200 SD vs AT block 0 SD vs AT block 21-200 SD vs AT block -1 SD vs AT block 9-20 SD vs AT block -4 SD vs AT block 1-8 SD vs AT block < -4
  • 27. Экспериментальная модель — репортёрная конструкция измерения относительной экспрессионной активности в зависимости от инициаторного участка T5 T5 UTR UTR Control reporter Measured SD len. AU rich Ter +/- spacer start Variable spacer AU 1st let.