• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Pre - Diploma Work
 

Pre - Diploma Work

on

  • 201 views

 

Statistics

Views

Total Views
201
Views on SlideShare
201
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Pre - Diploma Work Pre - Diploma Work Presentation Transcript

    • Преддипломная практика Евфратова С.А., ХФ МГУ, каф. ХПС, лаб. химии нуклеопротеидов Научный руководитель: Елена Михайловна Смекалова , ХПС Научный куратор : Головин Андрей Викторович, ФББНа тему «Анализ мотивов в больших массивахданных»
    • Часть 1Универсальный поиск по паттернам
    • Существующие инструменты ? Недостатки web BLAST: Невозможность запроса  Необходимы множественных паттернов (только 1 запрос и нет фильтров) собственные средства Сильные ограничения в для сложных масштабах поиска (паттерн нельзя менее 7, урезание автоматизированных результатов, нет вырожденных) поисков Низкая скорость и стабильность Недостатки инструментов работы с паттернами (fragrep2, DNA Pattern  Решение - Find): инструменты BioPerl ●Нет поддежки genome-size ●Нет поддержки множественных на локальных паттернов ●Низкая стабильность серверах ФББ, собственные web сервисы.
    • Теломеразная РНК Критерии поиска Сложности поиска ● Матричный участок● Низкая гомология ● Характерные элементы● Вариабельность вторичной длины структуры ● Общие элементы в родственных организмах ● Нет длинных рамок считывания для консервативных белков
    • Постановка задачи при биоинформатическом подходе●Отбор кандидатов на роль теломеразной РНК ввыбранном организме. Критерии отбора:●- наличие теломерного повтора (матричный участоктеломеразной РНК)●- отсутствие ORF с высокой гомологией кизвестным белкам●-переменный паттерн, соответствующийконсервативным элементам первичной структуры
    • WORKFLOW MAP
    • Белковый фильтр● Задаётся минимальная длина транслята● Задаётся минимальная длина HSP● Задаётся доля гомологичных остатков●Было сменено несколько концепцийпринципа работы фильтра●Фильтр — прототип, естьнестабильности●Параметры, программы, функциисравнения и базы активнодискутируются
    • Выполнено:Запуск белкового ● Полный ифильтра безошибочный● База SwissProt — 330Мб парсинг отчётов● Вариабельные параметры BLASTсравнения: ● минимальная длина ● Поиск по легко пептида для проверки задаваемому числу ● минимальная длина HSP для рассмотрения паттернов ● критическое значение гомологии ● Вывод промежуточных данных
    • Планируется:● Обеспечить стабильность работы белкового фильтра● Автоматизировать ввод первичного паттерна — повтора● Доработать эффективное средство отсева гомологичных белков● Устанавливать прототип сервиса на компьютеры сотрудников● Приступить к написанию веб-сервиса
    • Организм-контроль —Hansenula Polymorpha ● Простой организм - дрожжи ● Есть полный геном WGS ● Известна TR ● Известны общие для дрожжей паттерны в TR
    • Объекты: Control● Candida Yarrowia Lypolitica Working.. Working...● Hansenula No patterns Polymorpha Found. Broken gene● Tribolium Castaneum Discuss...● Caenorhabditis No patterns elegans Известны паттерны● Heterocephalus Glaber Нет паттернов, использование белковой базы● ???... Высокая гомология аналогов List will be continued
    • Текущие результаты Дрожжевые паттерны: ● Теломерный повтор Основной целевой объект: Yarrowia Lypolytica ● Sm сайт: at{3,6}g Pattern: caatcgtcc Number seqs for processing ORF Filter: 113 ● Est1 hairpin: gaatg Number candidats: 86 Pattern: caatcgtcc.{100,300}gaatg ● Pseudo-knot: Number seqs for processing ORF Filter: 15 Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat Number seqs for processing ORF Filter: 3 tt(t|c)a(t|g).{0,3}gat Pattern: caatcgtcc.{100,500}tt(t|c)a(t|g).{0,3}gat Number seqs for processing ORF Filter: 12 Yarrowia Lypolitica Pattern: caatcgtcc.{100,900}at{3,6}gNum. + 475 Num. - 470 Number seqs for processing ORF Filter: 72Number of search resuls = 945Number of primary split seq. = 945Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.{500,1200}at{3,6}gNumber seqs for processing ORF Filter: 2Number candidats: 1
    • Текущие результатыum. + 475 Num. - 470Number of search resuls = 945Number of primary split seq. = 945Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.{500,1200}at{3,6}gNumber seqs for processing ORF Filter: 2 Yarrowia Lypolitica Processing candidat # 1Processing ORF +1No protein chains more that 100Processing ORF +2 template Est1 Pseudo-knot Sm siteProcessing protein chain +2 length = 103matching value 0.472222222222222 does not exceed critical matching 0.6No protein chains more that 100Processing ORF +3Processing protein chain +3 length = 164matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF -1No protein chains more that 100Processing ORF -2Processing protein chain -2 length = 115matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF -3No protein chains more that 100Candidat #1 pass ORF filter Processing candidat # 2Processing ORF +1Processing protein chain +1 length = 105matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF +2No protein chains more that 100Processing ORF +3Processing protein chain +3 length = 102matching value 0 does not exceed critical matching 0.6No protein chains more that 100Processing ORF -1No protein chains more that 100Processing ORF -2Processing protein chain -2 length = 318No protein chains more that 100Processing ORF -3No protein chains more that 100Candidat #2 removedNumber candidats: 1
    • HeterocephalusGlaber template CR2 CR3 CR3 CR5 CR5 CR6 CR7 CR8
    • Часть 2Статистические распределения
    • ПоследовательностиШайн-Дальгарно ● Консервативные  последовательности  в бактериальных  генах для  эффективного  связывания мРНК с  рибосомой при  инициации  трансляции   
    • Задача ● Построение  Объект: E.coli распределений по: ● Размеру блока ШД AccNum U00096.2 GI 48994873 ● Расстоянию до старта ● Размеру [AU] участка 4639675 bp ● Расстоянию до [AU] > 4500 аннотаций генов ● Первой буквы старта ● Расстоянию до пред. гена Format: GeneBank ● Доле [AU] перед геном   
    • Условия
    • Работ с объектом● gene complement(5683..6459)● /gene="yaaA"● /locus_tag="b0006"● /gene_synonym="ECK0006"● /gene_synonym="JW0005"● /db_xref="EcoGene:EG10011"
    • До пред. ОРС Распределения Стартовый нуклеотид Число ошибок ШД Число Число ? Длина ШД ЧислоДлина ШД Генов Генов Генов локус- локус- локус- тэги тэги тэги Доля АТ До пред. ОРС До пред. ОРС До пред. ОРС Число Длина ШД Число Число Длина ШД Длина ШД Генов Генов Генов локус- локус- локус- тэги тэги тэги Размер АТ Спейсер до АТ Спейсер до старта
    • Рабочие и отладочные данныеb0044 .aaggag.. mis. 3GGGCTTCATCAATCTAATCAAGGATGGCATGAAAGGAGTGACCGTTTTATGmatch seq: AAAGGAGTGACCGTTTTATG length agGg--Nug 12b0045 .aa..agg. mis. 4TGATACGTAACGCCGCACTGACTCTCATTGCAAAAAACAGGAATAACCATGmatch seq: AAAACAGGAATAACCATG length agGg--Nug 10b0046 taa..a.g. mis. 4ATGACTACACTTTGTGGGAAAACAAAGGCGTAATCACGCGGGCTACCTATGmatch seq: TAATCACGCGGGCTACCTATG length agGg--Nug 13b0047 ..aggagg. mis. 3AGGCGCGTCACTATAAGCAACGTCTGCTGGAATGGCAGGAGGCCCATCATGmatch seq: GCAGGAGGCCCATCATG length agGg--Nug 9b0048 t..gga..t mis. 4TTACGCTTTACGTATAGTGGCGACAATTTTTTTTATCGGGAAATCTCAATGmatch seq: TCGGGAAATCTCAATGlength agGg--Nug 8b0049 t.a..a... mis. 6ATTCCCGTATTCCGACTCGCCGTTCCCACACTCATTCATTAAAAGAATATGmatch seq: TCATTAAAAGAATATG length agGg--Nug 8b0050 t..g.agg. mis. 4GATGGCGAACTATCTGGCGGAGAACGCGCCTTTGCAGGAGAGTTAACGATGmatch seq: TTTGCAGGAGAGTTAACGATG length agGg--Nug 13
    • Рабочие таблицы Strand direct, shift value: + , >200 Strand direct, shift value: + , 21-200 Continuous SD block types: Continuous SD block types: 0| 0 0| 0 1| 1 1| 2 2| 35 2| 44 3| 232 3| 156 4| 290 4| 225 5| 227 5| 153 6| 91 6| 65 7| 24 7| 19 8| 5 8| 4Num. SD cont block types 9, len. AT block 0-20, len. subseq 35 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200|1| 12| 10 22 27 32 20 10 14 4 3 3 1 13| 32 136 211 218 186 111 72 50 24 15 12 6 5 1 2 14| 2 36 201 316 322 234 160 85 56 32 26 10 6 4 5 4 1 1 15| 41 146 235 237 177 125 65 42 31 16 6 6 3 1 1 16| 16 61 92 94 76 36 29 19 8 7 1 1 2 1 1 17| 8 37 31 27 19 21 7 5 2 5 1 28| 3 7 4 2 1 2 19| 1
    • Полученные распределения SD vs START spacer SD vs AT block
    • 0,14 RND 0,12 >20 0 0,1 <20 0 0,08 0,06 0,04 0,02 0 0 20 40 60 80 100 AT distr.SD, prev ORF SD vs AT stat
    • SD vs AT stat ORF 0SD vs AT stat ORF > 200SD vs AT stat ORF 21-200 SD vs AT stat ORF -1 SD vs AT stat ORF 9-20 SD vs AT stat ORF -4 SD vs AT stat ORF 1-8 SD vs AT stat ORF < -4
    • SD vs AT block > 200 SD vs AT block 0SD vs AT block 21-200 SD vs AT block -1 SD vs AT block 9-20 SD vs AT block -4 SD vs AT block 1-8 SD vs AT block < -4
    • Экспериментальная модель — репортёрная конструкция измерения относительной экспрессионной активности в зависимости от инициаторного участкаT5 T5UTR UTR Control reporter Measured SD len. AU richTer +/- spacer start Variable spacer AU 1st let.
    • Спасибо за внимание!