Слайды с пилотного семинара в высшей школе экономики.
Слайд варианта динамической сети можно посмотреть здесь: http://gyazo.com/22669956269833c6eb68582ffb8f9409
http://mirob.interactome.ru
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...Alexey Anikaev
Конференция "Опухолевые маркеры: фундаментальные и клинические аспекты",
27-29 июня 2018, Горно-Алтайск,
Алексей Аникаев, специалист по продукции QIAGEN, директор по продажам Медком,
"Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии: от образца к результату".
Слайды с пилотного семинара в высшей школе экономики.
Слайд варианта динамической сети можно посмотреть здесь: http://gyazo.com/22669956269833c6eb68582ffb8f9409
http://mirob.interactome.ru
Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии...Alexey Anikaev
Конференция "Опухолевые маркеры: фундаментальные и клинические аспекты",
27-29 июня 2018, Горно-Алтайск,
Алексей Аникаев, специалист по продукции QIAGEN, директор по продажам Медком,
"Новые разработки QIAGEN для молекулярно-генетических исследований в онкологии: от образца к результату".
1. Преддипломная практика
Евфратова С.А., ХФ МГУ, каф. ХПС, лаб.
химии нуклеопротеидов
Научный руководитель: Елена Михайловна
Смекалова , ХПС
Научный куратор : Головин Андрей
Викторович, ФББ
На тему «Анализ мотивов в больших массивах
данных»
3. Существующие инструменты ?
Недостатки web BLAST:
Невозможность запроса Необходимы
множественных паттернов
(только 1 запрос и нет фильтров) собственные средства
Сильные ограничения в для сложных
масштабах поиска (паттерн
нельзя менее 7, урезание
автоматизированных
результатов, нет вырожденных) поисков
Низкая скорость и стабильность
Недостатки инструментов работы с
паттернами (fragrep2, DNA Pattern
Решение -
Find): инструменты BioPerl
●Нет поддежки genome-size
●Нет поддержки множественных
на локальных
паттернов
●Низкая стабильность
серверах ФББ,
собственные web
сервисы.
4. Теломеразная РНК
Критерии поиска
Сложности поиска ● Матричный участок
● Низкая гомология ● Характерные
элементы
● Вариабельность вторичной
длины структуры
● Общие элементы в
родственных
организмах
● Нет длинных рамок
считывания для
консервативных
белков
5. Постановка задачи при
биоинформатическом подходе
●Отбор кандидатов на роль теломеразной РНК в
выбранном организме. Критерии отбора:
●- наличие теломерного повтора (матричный участок
теломеразной РНК)
●- отсутствие ORF с высокой гомологией к
известным белкам
●-переменный паттерн, соответствующий
консервативным элементам первичной структуры
7. Белковый фильтр
● Задаётся
минимальная длина
транслята
● Задаётся
минимальная длина
HSP
● Задаётся доля
гомологичных
остатков
●Было сменено несколько концепций
принципа работы фильтра
●Фильтр — прототип, есть
нестабильности
●Параметры, программы, функции
сравнения и базы активно
дискутируются
8. Выполнено:
Запуск белкового ● Полный и
фильтра безошибочный
● База SwissProt — 330Мб парсинг отчётов
● Вариабельные параметры
BLAST
сравнения:
● минимальная длина ● Поиск по легко
пептида для проверки задаваемому числу
● минимальная длина HSP
для рассмотрения паттернов
● критическое значение
гомологии
● Вывод
промежуточных
данных
9. Планируется:
● Обеспечить стабильность работы белкового фильтра
● Автоматизировать ввод первичного паттерна —
повтора
● Доработать эффективное средство отсева
гомологичных белков
● Устанавливать прототип сервиса на компьютеры
сотрудников
● Приступить к написанию веб-сервиса
11. Объекты:
Control
● Candida Yarrowia
Lypolitica Working..
Working...
● Hansenula No patterns
Polymorpha Found.
Broken gene
● Tribolium Castaneum
Discuss...
● Caenorhabditis No patterns
elegans
Известны паттерны
● Heterocephalus
Glaber Нет паттернов,
использование
белковой базы
● ???...
Высокая гомология
аналогов
List will be
continued
12. Текущие результаты
Дрожжевые паттерны:
● Теломерный повтор Основной целевой объект:
Yarrowia Lypolytica
● Sm сайт: at{3,6}g Pattern: caatcgtcc
Number seq's for processing ORF Filter: 113
● Est1 hairpin: gaatg Number candidats: 86
Pattern: caatcgtcc.{100,300}gaatg
● Pseudo-knot: Number seq's for processing ORF Filter: 15
Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat
Number seq's for processing ORF Filter: 3
tt(t|c)a(t|g).{0,3}gat
Pattern: caatcgtcc.{100,500}tt(t|c)a(t|g).{0,3}gat
Number seq's for processing ORF Filter: 12
Yarrowia Lypolitica Pattern: caatcgtcc.{100,900}at{3,6}g
Num. + 475 Num. - 470 Number seq's for processing ORF Filter: 72
Number of search resuls = 945
Number of primary split seq. = 945
Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.{500,1200}at{3,6}g
Number seq's for processing ORF Filter: 2
Number candidats: 1
13. Текущие результаты
um. + 475 Num. - 470
Number of search resuls = 945
Number of primary split seq. = 945
Pattern: caatcgtcc.{10,300}gaatg.{10,300}tt(t|c)a(t|g).{0,3}gat.
{500,1200}at{3,6}g
Number seq's for processing ORF Filter: 2 Yarrowia Lypolitica
Processing candidat # 1
Processing ORF +1
No protein chains more that 100
Processing ORF +2
template Est1 Pseudo-knot Sm site
Processing protein chain +2 length = 103
matching value 0.472222222222222 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF +3
Processing protein chain +3 length = 164
matching value 0 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF -1
No protein chains more that 100
Processing ORF -2
Processing protein chain -2 length = 115
matching value 0 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF -3
No protein chains more that 100
Candidat #1 pass ORF filter
Processing candidat # 2
Processing ORF +1
Processing protein chain +1 length = 105
matching value 0 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF +2
No protein chains more that 100
Processing ORF +3
Processing protein chain +3 length = 102
matching value 0 does not exceed critical matching 0.6
No protein chains more that 100
Processing ORF -1
No protein chains more that 100
Processing ORF -2
Processing protein chain -2 length = 318
No protein chains more that 100
Processing ORF -3
No protein chains more that 100
Candidat #2 removed
Number candidats: 1
16. Последовательности
Шайн-Дальгарно
● Консервативные
последовательности
в бактериальных
генах для
эффективного
связывания мРНК с
рибосомой при
инициации
трансляции
17. Задача
● Построение
Объект: E.coli распределений по:
● Размеру блока ШД
AccNum U00096.2
GI 48994873 ● Расстоянию до старта
● Размеру [AU] участка
4639675 bp ● Расстоянию до [AU]
> 4500 аннотаций
генов
● Первой буквы старта
● Расстоянию до пред. гена
Format: GeneBank ● Доле [AU] перед геном
19. Работ с объектом
● gene complement(5683..6459)
● /gene="yaaA"
● /locus_tag="b0006"
● /gene_synonym="ECK0006"
● /gene_synonym="JW0005"
● /db_xref="EcoGene:EG10011"
20. До пред. ОРС
Распределения Стартовый нуклеотид
Число ошибок ШД
Число Число ?
Длина ШД
Число
Длина ШД
Генов Генов Генов
локус- локус- локус-
тэги тэги тэги
Доля АТ
До пред. ОРС До пред. ОРС До пред. ОРС
Число
Длина ШД
Число Число
Длина ШД
Длина ШД
Генов Генов Генов
локус- локус- локус-
тэги тэги тэги
Размер АТ Спейсер до АТ Спейсер до старта
21. Рабочие и отладочные данные
b0044 .aaggag.. mis. 3
GGGCTTCATCAATCTAATCAAGGATGGCATGAAAGGAGTGACCGTTTTATG
match seq: AAAGGAGTGACCGTTTTATG length agGg--Nug 12
b0045 .aa..agg. mis. 4
TGATACGTAACGCCGCACTGACTCTCATTGCAAAAAACAGGAATAACCATG
match seq: AAAACAGGAATAACCATG length agGg--Nug 10
b0046 taa..a.g. mis. 4
ATGACTACACTTTGTGGGAAAACAAAGGCGTAATCACGCGGGCTACCTATG
match seq: TAATCACGCGGGCTACCTATG length agGg--Nug 13
b0047 ..aggagg. mis. 3
AGGCGCGTCACTATAAGCAACGTCTGCTGGAATGGCAGGAGGCCCATCATG
match seq: GCAGGAGGCCCATCATG length agGg--Nug 9
b0048 t..gga..t mis. 4
TTACGCTTTACGTATAGTGGCGACAATTTTTTTTATCGGGAAATCTCAATG
match seq: TCGGGAAATCTCAATGlength agGg--Nug 8
b0049 t.a..a... mis. 6
ATTCCCGTATTCCGACTCGCCGTTCCCACACTCATTCATTAAAAGAATATG
match seq: TCATTAAAAGAATATG length agGg--Nug 8
b0050 t..g.agg. mis. 4
GATGGCGAACTATCTGGCGGAGAACGCGCCTTTGCAGGAGAGTTAACGATG
match seq: TTTGCAGGAGAGTTAACGATG length agGg--Nug 13
24. 0,14
RND
0,12
>20 0
0,1 <20 0
0,08
0,06
0,04
0,02
0
0 20 40 60 80 100
AT distr.
SD, prev ORF
SD vs AT stat
25. SD vs AT stat ORF 0
SD vs AT stat ORF > 200
SD vs AT stat ORF 21-200 SD vs AT stat ORF -1
SD vs AT stat ORF 9-20
SD vs AT stat ORF -4
SD vs AT stat ORF 1-8 SD vs AT stat ORF < -4
26. SD vs AT block > 200 SD vs AT block 0
SD vs AT block 21-200 SD vs AT block -1
SD vs AT block 9-20
SD vs AT block -4
SD vs AT block 1-8
SD vs AT block < -4
27. Экспериментальная модель —
репортёрная конструкция
измерения относительной
экспрессионной активности в
зависимости от инициаторного
участка
T5 T5
UTR UTR
Control reporter Measured
SD len. AU rich
Ter +/- spacer start Variable
spacer AU 1st let.