SlideShare a Scribd company logo
1 of 93
Анализ белковой последовательности
Анализ только аминокислотной последовательность (первичную
структуру) белка без боковых цепей.
 Предсказание физико-химических параметров белка
 Предсказание продуктов расщепления протеазами
 Гидрофобные, гидрофильные участки: например,
трансмембранные сегменты
 Пост-трансляционные модификации
 Функциональные домены, принадлежность к функциональным
семействам
 Фолдинг
 Клеточная локализация
Анализ белковой последовательности
The ExPASy server – протеомика http://www.expasy.ch/tools/#primary
 The Swiss EMBnet – coiled-coil участки, выравнивания и др.
http://www.ch.embnet.org
 The CBS Prediction Servers – локализация,
пост-трансляционные модификации…
http://www.cbs.dtu.dk/services
ProtParam - предсказание физико-химических
параметров белка
ProtParam
Молекулярный вес
Аминокислотный состав
Extinction coefficient – коэффициент поглощения
(280 nm)
Instability (менее 40 – хорошо) – нестабильность в
эксперименте (test tube, статистика дипептидов)
Half-life (yeast in vivo, mammalian reticulocytes in
vitro, Escherichia coli in vivo)
Алифатический индекс
Grand average of hydropathicity (GRAVY)
гидрофильность – (-), гидрофобность – (+)
Compute pI/Mw
PeptideMass
PeptideMass - output
PeptideCutter
PeptideCutter - output
PeptideCutter - output
Метод скользящего окна
Анализируется последовательность в несколько
аминокислот, параметр усредняется по окну. Значение
приписывается средней аминокислоте. Output – график
Seq. LQAPVLPSDLLSWSCVGAVGILALVSFTCV
<---*---> Window 1
<---*---> Window 2
<---*---> Window 3
Размер окна должен соответствовать характерному размеру
анализируемого свойства (для ТМ – 19!)
Методы, основанные на технике скользящего окна, как правило,
не интерпретируют результаты. При интерпретации важно:
 Учитывать только очень четко выраженные сигналы
 Не зависящие от параметров программы – размера окна,
конкретного метода и т.п.
Предсказание трансмембранных
сегментов: ProtScale
56 аминокислотных шкал (с литературными ссылками),
скользящее окно -> выбор ширины окна
ProtScale - output
Более сложное предсказание
трансмембранных сегментов: TMHMM
Transmembrane beta barrel prediction: PROFtmb (http://rostlab.org/services/proftmb );
PRED-TMBB (http://biophysics.biol.uoa.gr/PRED-TMBB/);
TBBPred (http://www.imtech.res.in/raghava/tbbpred )
TMHMM - результаты
TMHMM предсказывает сегменты, а также
топологию межсегментных участков
Нашёл 7 TMs
Домены
• Домен – независимая глобулярная единица в
белке. Более функционально – часть белка,
обладающая активностью (если отрезать,
например). Как правило, каждый домен играет
свою роль в функции белка (связывает ион или
ДНК, содержит активный сайт и т.п.)
• Только небольшая часть известных доменов была
изучена экспериментально, остальные описаны
как сходные части гомологичных белков
• Очень сложно четко определить домен и его
границы => существует много подходов и
различных доменных коллекций. Какую выбрать?
История коллекций доменов
1980ые – PROSITE: ручная выборка паттернов в
белках, определяющих функцию
1987 – доменный профайл (Gribskov):
position specific scoring schema – это вероятность
для каждой аминокислоты находиться в данной
позиции домена
 начало 1990х – BLOCKs, PRINTs, Prodom…
 PfamA – коллекция профайлов, курированная
вручную (сейчас также использует HMM)
Cерверы для поиска доменов
InterProScan
http://www.ebi.ac.uk/InterProScan
CD (Conserved Domain) server (NCBI)
http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
Pfscan
http://hits.isb-sib.ch/cgi-bin/PFSCAN
Domac http://www.bioinfotool.org/domac.html
Scooby http://www.ibi.vu.nl/programs/scoobywww/
Dompro http://www.ics.uci.edu/~baldig/domain.html
InterPro Database
.
InterPro
InterPro is a database of protein families, domains
and functional sites in which identifiable
features found in known proteins can be applied
to unknown protein sequences.
Базируется на первичных классификациях
целого ряда баз данных функциональных
доменов и семейств, объединяет всю
доступную информацию
С 2001 года – Release 18.0: 75.6% UniProt
Как это происходит
Каждое InterPro семейство объединяет
первичные семейства других баз данных,
описывающие один и тот же домен;
включает все белки, принадлежащие хотя
бы одной из первичных баз. Документация
семейства подробно описывает функцию и
структуру соответствующей белковой
подписи.
Поиск доменов: InterProScan
InterProScan - результаты
Table View
CD server
Input - Accession number, gi или последовательность в FASTA формате
CD server – output
Красный – SMART, синий – Pfam, зеленый – COGs
Рваные концы указывают на неполные домены!!!!
Курсор в графической части – краткое описание функции домена
CDART – поиск белков с аналогичной
доменной структурой
Pfscan
Как правило, работает несколько минут
Pfscan - output Особенности вывода Pfscan
• Схема – легенда, как всегда под
рисунком
• За легендой следует таблица с
локализацией доменов
• Далее расшифровка каждого
хита – с оценкой вероятности
• Затем следует графическая
схема для каждого хита и
scores (высокий score =
хороший хит)
Structure Classification Databases
3D structural similarities (~70%):
• SCOP (MRC Cambridge)
• CATH (University College, London)
• Dali FSSP (EBI, Cambridge)
• 3 Dee (EBI, Cambridge)
FOLD recognition:
• 3D-pssm
• TOPITS (EMBL)
• UCLA-DOE Structre Prediction Server (UCLA)
• 123D
• UCSC HMM (UCSC)
• FAS (Burnham Institute)
• UCLA-DOE Fold-Recognition Benchmark Home Page
SCOP-Structural Classification of Proteins
• База данных содержит структурную и эволюционную информацию о
взаимосвязях белков с известными структурами.
• Классификация белков отражает структурные и эволюционные отношения.
• Многоуровневая иерархия – семейство, суперсемейство и фолд.
• Ручное инспектирование.
Superfamily: Probable common evolutionary origin
Белки, имеющие низкую идентичность последовательностей, но чьи
структурные и функциональные особенности позволяют предположить
наличие общего предка, могут быть объединены в суперсемейства.
Например, актин, the ATPase domain белков теплового шока и гексакиназы
образуют суперсемейство
Fold: Major structural similarity
Общий фолд – одинаковая организация вторичной струкруры, с похожим
пространственным расположением и с похожими соединениями.
Белки с одинаковым фолдом зачастую имеют концевые элементы вторичной
структуры , изгибы и повороты различных разметов и конформаций (до
половины всей структуры).
Белки, объединённые одним фолдом, могут не иметь общего предка (химия,
физика  упаковка и топология)
SCOP
SCOP
Family: Clear evolutionarily relationship
Белки, сгруппированные в семейство, тесно связаны эволюционно. Это
значит, что парное выравнивание показывает 30% и выше.
Иногда похожие функция и структура показывают наличие общего
предка и при отсутствии высокой идентичности последовательностей;
например, многие глобины образуют семейство, хотя некоторые из них
имеют идентичность 1D ~ 15%.
Archetype Structures of Domains
Поиск по SCOP
SCOP
CATH (Brookhaven protein databank )
• Class, Architecture, Topology, Homology database – иерархическая
классификация доменов структур белков
Формируется автоматически, но инспектируется вручную
CATH
Class, C-level
– Класс определяется в соответствии с набором и упаковкой
вторичной структуры. Он может быть присвоен как
автоматически (90% of the known structures), так и вручную.
– 3 главных класса:
преимущественно-alpha
преимущественно-beta
alpha-beta (alpha/beta and alpha+beta)
Четвертый класс – белки, содержащие домены без
выраженной структуры..
CATH
Architecture, A-level
• Описывает общий вид доменной структуры, определяемой как ориентация
элементов вторичной структуры, но без учета их соединений.
• Присваивается вручную (используя простое описание структуры).
• Разрабатываются способы автоматизации этого процесса.
Topology (fold family), T-level
• Структуры группируются в зависимости как от общего вида, так и от
соединений элементов вторичной структуры. Алгоритмы сравнения
структур.
CATH
Homologous superfamily, H-level
• Этот уровень объединяет белки, которые, по-видимому, имеют общего
предка (гомологи).
• Похожесть и идентичнсть – сначала по сравнению последовательностей,
затем – сравнение структур.
Sequence families, S-level
• Структуры в каждом H-level затем группируются по идентичности
последовательностей.
• Домены, объединенные в семейства последовательностей, имеют
идентичноcть 1D >35% , что показывает похожие структуру и функции.
SCOP / CATH
SCOP CATH
class class
architecture
fold topology
homologous superfamily
superfamily
family sequence family
domain domain
CATH - преимущественно структурная классификация,
SCOP - эволюционные взаимосвязи
CATH - один класс, представляющий смешанную α-β структуру
SCOP - 2 класса:
α/β: beta структуры параллельны, образуют βαβ мотивы
α+β: alpha и beta структуры присутствуют в различных частях протеина
SCOP / CATH -> DALI
SCOP & CATHSCOP & CATH
• Иерахические, базирующиеся на абстракциях
• Создаются (частично) и курируются вручную экспертами
Presentation of results of the classification, where the methods that
underlie the classification remain internal
Structure comparison
DALI
α/β β α anti parallel
β barrel
α β meand
er
More information about DALI
Touring protein fold space with Dali/FSSP: Liisa Holm and Chris Sander
Comparing protein structures in 3D
DALI
• The FSSP database (Fold classification based on Structure-Structure alignment of Proteins) базируется
на all-against-all сравнении 3D структур белков в Protein Data Bank (PDB).
Классификация и выравнивание структур автоматически поддерживается и
обновляется сервисом Dali search engine.
Dali Domain Dictionary
• Структурные домены выделяются автоматически. Каждый получает Domain
Classification number.
DALI
Fold types
• Типы фолдов – кластеры структур в
пространстве фолдов с средним парным
Z-scores (by Dali) выше 2.
Высокий Z-score соответствует
структурам с близкой архитектурой.
DALI
• Базируется на выравненных 2D матрицах внутримолекулярных дистанций
• Считает лучший subset соответствующих аминокислот в двух белках –
максимальная похожесть 2D матриц дистанций
• Поиск по всем возможным выравниваниям остатков – Monte-Carlo и branch-
and-bound algorithms
An intra-molecular distance plot for myoglobin
Pfam Database
Pfam – коллекция результатов множественного выравнивания
последовательностей и HMM, содержащая большое количество доменов и
семейств белков. Для каждого семейства в Pfam:
•Просмотреть результаты MSA
•Увидеть архитектуру доменов
•Распределение по видам
•Перекрестные ссылки
•Получить известные 3D структуры
•Pfam can be accessed directly or from the PDB description.
Homstrad Database
•HOMologous STRucture Alignment Database
•Предоставляет выровненные 3D структуры
гомологичных белков.
•Homstrad - структурный эквивалент Pfam. Вначале структуры белков
поступают из PDB, кандидаты семейств традиционно идентифицируются
поиском по Pfam. Используются определения доменов из SCOP и информация
о белках собирается из SwissProt, Pfam and Interpro.
• Аннотирование – в программе Joy, которая предоставляет следующую
информацию:
• Тип вторичной структуры
• Относительную доступность боковых цепей
• Наличие водородных связей между амидом и карбонилом
• Дисульфидные связи
•Положительные phi торзионные углы
PClass Database
Инструмент для классификации,
базирующийся на иерархии 600 белков-
представителей из PDB. Структурное
выравнивание 600 структур было
выполнено при помощи алгоритма 3dSearch.
3D Structure Validation
Теория: Белки – молекулы несложные:
- Линейная структура цепей.
- Только 20 различных аминокислот.
На практике: Мы не понимаем в деталях механизм сворачивания белковых
структур.
Единственные «силы», используемые для уточнения, «улучшения» новой
структуры – это данные измерений и некоторые факты, присущие для ВСЕХ
молекул
В общем случае используемая информация недостаточна для распознавания
уникальной структуры.
Значительная часть работы по уточнению структуры – взгляд эксперта и
ручные корректировки.
Белки содержат тысячи атомов и невозможно постоянно выполнять ручные
корректировки.
Это – источник неправильных структур и «слабых мест» в глобьально верных
структурах.
Оценка качества стереохимии
«Исходя исключительно из координат атомов, есть ли методы, дающие
оценку общему стереохимическому качеству структуры? Такие методы могут
оказаться полезными для идентификации неправильно построенных структур
во время циклов уточнения, или после завершения моделирования.
Большинство PDB файлов содержат некоторую авторскую информацию о
параметрах кристаллографии. В то же время эта информация обычно короткая,
количественная не готовая к machine-reading и не предоставляет качественных
оценок надёжности предоставленной структуры».
Morris et al (PROTEINS: Structure, Function, and Genetics 12:345-364, 1992)
Очень полезная информация для верификации посылаемой структуры белка
Introduction to structure verification
http://www.cmbi.kun.nl/gv/pdbreport/checkhelp/
Мы можем использовать эту PDB структуру?
Год публикации
Разрешение X-ray структуры
Проблемные остатки (отсутствующие
аминокислоты/атомы/боковые цепи)
Растворитель/вода
Какая цель?
Важные параметры
Judging the Quality of Macromolecular Models
http://www.cmbi.kun.nl/gv/pdbreport/checkhelp/
R-factor: величина, показывающая согласие между кристаллографической
моделью и полученными данными X-ray. Оценивая построенную модель
кристаллографер рассчитывает ожидаемую интенсивность рефлексов в образце
дифракции и затем сравнивает его с экспериментальными данными, содержащими
измеренные позиции и интенсивности.
-R-factor используется для проверки прогресса в уточнении структуры. Финальный
R-factor – единая мера качества модели. Чем меньше, тем лучше.
Разрешение: В X-ray кристаллографии "2-Å model" означает, что модель учитывает
дифракцию в группе одинаковых, параллельных плоскостей с атомами с промежутком
в 2 Å.
Точность атомных позиций: В кристаллографии, в отличии от световой микроскопии,
термин «разрешение» означает количество данных, в конечном счете используемое для
определения структуры. Напротив, точность атомной позиции частично зависит от
разрешения, но в большей степени зависит от качества данных – R-factor.
- Хорошие данные могут приносить атомные полиции с точностью 0.2–0.1 от
заявленного разрешения.
WHAT IF
WHAT IF – CMBI (Centre for Molecular and Biomolecular Informatics)
CHECK - качество структуры/модели белка
FULCHK – наиболее подробный отчёт о проверке.
Производимые проверки – от простых проверок длин связей, торзионных
углов и проверок поверхности до глубокого анализа контактов и сети
водородных связей.
Stand alone versions: Unix, Windows
Server: WHAT_CHECK http://www.cmbi.kun.nl/gv/whatcheck/
Может посчитать и некоторые свойства:
Атомарные дистанции, столкновения, окружения, контакты с водой,
«внутренняя» вода, водородные связи…..
WHAT_IF Validation Parameters
1. Доступность боковых цепей
2. Длины связей – данные экспериментов
3. Углы связей – данные экспериментов
4. Торзионные (трёхгранные) углы, Phi/Psi (ramachandran plot) – данные
экспериментов
5. Планарность боковых цепей у His, Phe, Tyr – данные экспериментов
6. Хиральность (D or L) – данные экспериментов
7. Ротамеры (χ-1 and χ-2 комбинации) - моделирование
8. Столкновения атомов – данные экспериментов
9. Абсолютное внутреннее/внешнее распределение аминокислот
10. Погруженные доноры водородов – данные экспериментов
11. Упаковка (сравнение с базами данных)
http://www.cmbi.kun.nl/~richardn/intromodelValidation.html
The PDBREPORT Database
The PDBREPORT Database http://www.cmbi.kun.nl/gv/pdbreport/
Index of all diagnostic messages
http://www.cmbi.kun.nl/gv/pdbreport/pdbreport/revindex.html
WHAT_CHECK Criteria
Peptide-Pl: RMS distance of the backbone oxygen from the oxygen in similar backbone
conformations found in the database, distances in the range [3..1] are mapped to [0..9]
Rotamer: Probability that the sidechain rotamer (chi-1 only) is correct, probabilities in the range
[0.1 .. 0.9] are mapped to [0..9]
Chi-1/Chi-2: Z-score for the sidechain chi-1/chi-2 combination,
Z-scores in the range probabilities in the range [-4..+4] are mapped to [0..9]
Bumps: Sum of bumps per residue, distances in the range [0.1 .. 0] are mapped to [0..9].
Packing 1: First packing quality Z-score, Z-scores in the range [-5..+5] are mapped to [0..9].
Packing 2: Second packing quality Z-score, Z-scores in the range [-3..+3] are mapped to [0..9].
In/Out: Absolute inside/outside distribution Z-score per residue, Z-scores in the range [4..2] are
mapped to [0..9].
H-Bonds: 9 minus number of unsatisfied hydrogen bonds, 2 is subtracted for buried backbone
nitrogen, 5 for buried sidechain.
Flips: Indicates flipped Asn/Gln/His sidechain, 9=OK, 0=needs flipping.
WHAT_CHECK Criteria
Access: Relative side chain accessibility, 0=buried, 9=exposed.
Quality: Several quality estimators from the PDBREPORTs.0=is oh no, 9=perfect.
B-Factors: Crystallographic B-factors, the range [10..60] is mapped to [9..0]
Bonds: Absolute Z-score of the largest bond deviation per residue, absolute Z-Scores in the
range [5..2] are mapped to [0..9].
Angles: Absolute Z-score of the largest angle deviation per residue, absolute Z-Scores in the
range [5..2] are mapped to [0..9].
Torsions: Average Z-score of the torsion angles per residue, Z-Scores in the range [-3..+3] are
mapped to [0..9].
Phi/Psi: Ramachandran Z-score per residue, Z-Scores in the range [-4..+4] are mapped to [0..9].
Planarity: Z-score for the planarity of the residue sidechain, Z-Scores in the range [6..2] are
mapped to [0..9].
Chirality: Average absolute Z-score of the chirality deviations per residue, average absolute Z-
Scores in the range [4..2] are mapped to [0..9].
Backbone: Number of similar backbone conformations found in the database, numbers in the
range [0..10] are mapped to [0..9]
Procheck
http://www.biochem.ucl.ac.uk/~roman/procheck/procheck.html
Procheck – программа и сервер для проверки геометрии структуры белка.
1. Геометрия ковалентных связей
2. Планарность
3. Торзионные углы
4. Хиральность
5. Нековалентные взаимодействия
6. Водородные связи основной цепи
7. Дисульфидные мостики
8. Сравнение параметров
9. Поаминокислотный анализ
Procheck. Отчёты
PDB Validation Tools
Ad it! http://pdb.rutgers.edu/validate/
The PDB Validation Suite - набор инструментов,
используемый в PDB для обработки и проверки
структурных данных
http://pdb.rutgers.edu/mmcif/VAL/index.html
ERRAT
•ERRAT - алгоритм верификации белковых структур, который особенно
подходит для оценки процесса построения и улучшения моделей в
кристаллографии.
• Программа анализирует статистики нековалентных взаимодействий между
атомами различных типов.
• Общая диаграмма даёт значения функции ошибки (скоринг) vs позиция
9-residue окна. Путём сравнения с статистиками из очень качественных
структур функция ошибки калибруется.
http://www.doe-mbi.ucla.edu/Services/Errat.html
PROVE
• PROVE: PROtein Volume Evaluation, a validation package
• PROVE - ПО для проверки качества атомарной модели
макромолекулярной структуры
• Базируется на расчете атомных объемов. PROVE считает объемы
атомов в макромолекуле, используя алгоритм SURVOL (SURVOL
обрабатывает атомы как твёрдые сферы с определенными радиусами,
зависящими от типа атома)
• Использовались высококачественные структуры для выяснения
ожидаемых (средних) объемов погруженных атомов.
• Отклонения в атомных объемах оценивается в Z-score (how many
standard deviations their volume is away from the mean for that atom type).
Ожидаемое Z-score – 0.
http://www.ucmb.ulb.ac.be/UCMB/PROVE/
Biotech Validation Suite
Biotech Validation Suite – EMBL http://biotech.ebi.ac.uk:8400/
SAV
SAV- Structure Analysis and Verification Server
http://www.doe-mbi.ucla.edu/Services/SV/
Information about the server – Before you start
http://www.doe-mbi.ucla.edu/Services/SV/Info.php
Способы визуализации
Для чего визуализация?
ALLSFERKYRVRGGTLIGGDLFDFWVGPYFVGFFGVSA
IFFIFLGVSLIGYAASQGPTWDPFAISINPPDLKYGLAAPL
LEGGFWQAITVCALGAFISWMLREVEISRKLGIGWHVP
LAFCVPIFMFCVLQVFRPLLLGSWGHAFPYGILSHLDW
VNNFGYQYLNWHYNPGHMSSVSFLFVNAMALGLHGGL
ILSVANPGDGDKVKTAEHENQYFRDVVGYSIGALSIHRL
GLFLASNIFLTGAFGTIASGPFWTRGWPEWWGWWLDI
PFWS
An Introduction to Protein Architecture By A. M. Lesk
Инструменты визуализации
RasMol / RasTop
Chime
Protein Explorer
Cn3D
YASARA
WebLab Viewer
SwissPDB Viewer
VMD
DINO
RasMol
RasTop
Chime
• Plugin для Netscape Communicator и других браузеров
• Основное предназначение – позволяет визуализировать
биомолекулы на компьютерах, лишённых каких-либо других
инструментов для структурной биологии, работает как
надстройка в браузере.
• Подобен RasMol, но не поддерживает командной строки
• Дополнительная информация доступна по
http://www.umass.edu/microbio/chime/chimehow/chimeho
w.htm
• Не включает дополнений и усовершенствований RasMol
Protein Explorer
•Улучшенная версия RasMol
•Графический интерфейс похож на Chime, но
с более развитой системой помощи и
автоматизации
•Доступен для работы новичкам, нет нужды
изучать команды
•Обеспечивает углублённое изучение
молекул и их свойств для профессионалов
Protein Explorer
Protein Explorer
ExPASy
SwissPdbViewer - Deep view
• Инструмент, обладающий огромными возможностями
• Позволяет анализировать множественные структуры
• Позволяет изменять углы химических связей и
производить перенос атомов или групп атомов
• Моделирование мутаций
• Моделирование с использованием гомологов (при
подключении к удалённому серверу)
• Базовые минимизации энергии
• Карты электронных полей
YASARA
• Yet Another Scientific Artificial Application
• Молекулярная графика на очень хорошем
уровне
• Моделирование и симуляции (not free!)
RasMol – Главное меню
RasMol - Дисплей
RasMol - Цвет
RasMol – Опции → Сечение
RasMol – Опции → Атомы H
RasMol – Опции → Зеркальная поверхность
RasMol – Опции → Тени
RasMol – Опции → Стерео
RasMol – Опции → Метки
RasMol - Экспорт
RasMol - Help
RasMol Manual
RasMol 2.6 Manual
http://www.umass.edu/microbio/rasmol/getras.htm#rasmanual
RasMol 2.7 Manual http://www.rasmol.org/
RasTop• Download RasTop and install it.
• Repeat RasMol assignment 2 with RasTop.
Swiss-PDBViewer
Домашняя страница: http://ca.expasy.org/spdbv/
Руководство пользователя
http://ca.expasy.org/spdbv/text/tutorial.htm.
Swiss-PDBViewer

More Related Content

Similar to Vvedenie v bioinformatiku_5_3

3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимацииVladimir Burdaev
 
PostgreSQL. Стильно. Модно. Молодёжно
PostgreSQL. Стильно. Модно. МолодёжноPostgreSQL. Стильно. Модно. Молодёжно
PostgreSQL. Стильно. Модно. МолодёжноVladislav Bezverhiy
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...BioinformaticsInstitute
 
Msu.Center.Lectures.J02 Classes And Objects
Msu.Center.Lectures.J02 Classes And ObjectsMsu.Center.Lectures.J02 Classes And Objects
Msu.Center.Lectures.J02 Classes And Objectsolegol
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТQPsoft
 
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seqкомпьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seqEk_Kul
 
02 - Классы и Объекты
02 - Классы и Объекты02 - Классы и Объекты
02 - Классы и Объектыphearnot
 
Опыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растенийОпыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растенийIlya Klabukov
 

Similar to Vvedenie v bioinformatiku_5_3 (15)

Vvedenie v bioinformatiku_5_1
Vvedenie v bioinformatiku_5_1Vvedenie v bioinformatiku_5_1
Vvedenie v bioinformatiku_5_1
 
Vvedenie v bioinformatiku_5_2
Vvedenie v bioinformatiku_5_2Vvedenie v bioinformatiku_5_2
Vvedenie v bioinformatiku_5_2
 
3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации
 
PostgreSQL. Стильно. Модно. Молодёжно
PostgreSQL. Стильно. Модно. МолодёжноPostgreSQL. Стильно. Модно. Молодёжно
PostgreSQL. Стильно. Модно. Молодёжно
 
Petsc+slepc slides
Petsc+slepc slidesPetsc+slepc slides
Petsc+slepc slides
 
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес... Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
Биоинформатический анализ данных полноэкзомного секвенирования: анализ качес...
 
Graph genome
Graph genome Graph genome
Graph genome
 
I M S Rubashkin
I M S RubashkinI M S Rubashkin
I M S Rubashkin
 
Msu.Center.Lectures.J02 Classes And Objects
Msu.Center.Lectures.J02 Classes And ObjectsMsu.Center.Lectures.J02 Classes And Objects
Msu.Center.Lectures.J02 Classes And Objects
 
Vvedenie v bioinformatiku_2
Vvedenie v bioinformatiku_2Vvedenie v bioinformatiku_2
Vvedenie v bioinformatiku_2
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seqкомпьютерный анализ данных геномного секвенирования по технологии Ch ip seq
компьютерный анализ данных геномного секвенирования по технологии Ch ip seq
 
02 - Классы и Объекты
02 - Классы и Объекты02 - Классы и Объекты
02 - Классы и Объекты
 
Опыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растенийОпыт применения данных секвенирования на платформе Illumina в генетике растений
Опыт применения данных секвенирования на платформе Illumina в генетике растений
 

More from BioinformaticsInstitute

Comparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsComparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsBioinformaticsInstitute
 
Вперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкВперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкBioinformaticsInstitute
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр ПредеусBioinformaticsInstitute
 
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...BioinformaticsInstitute
 
Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)BioinformaticsInstitute
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...BioinformaticsInstitute
 
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)BioinformaticsInstitute
 

More from BioinformaticsInstitute (20)

Nanopores sequencing
Nanopores sequencingNanopores sequencing
Nanopores sequencing
 
A superglue for string comparison
A superglue for string comparisonA superglue for string comparison
A superglue for string comparison
 
Comparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphsComparative Genomics and de Bruijn graphs
Comparative Genomics and de Bruijn graphs
 
Вперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днкВперед в прошлое. Методы генетической диагностики древней днк
Вперед в прошлое. Методы генетической диагностики древней днк
 
Knime &amp; bioinformatics
Knime &amp; bioinformaticsKnime &amp; bioinformatics
Knime &amp; bioinformatics
 
"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус"Зачем биологам суперкомпьютеры", Александр Предеус
"Зачем биологам суперкомпьютеры", Александр Предеус
 
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
Иммунотерапия раковых опухолей: взгляд со стороны системной биологии. Максим ...
 
Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)Рак 101 (Мария Шутова, ИоГЕН РАН)
Рак 101 (Мария Шутова, ИоГЕН РАН)
 
Плюрипотентность 101
Плюрипотентность 101Плюрипотентность 101
Плюрипотентность 101
 
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
Секвенирование как инструмент исследования сложных фенотипов человека: от ген...
 
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
Инвестиции в биоинформатику и биотех (Андрей Афанасьев)
 
Biodb 2011-everything
Biodb 2011-everythingBiodb 2011-everything
Biodb 2011-everything
 
Biodb 2011-05
Biodb 2011-05Biodb 2011-05
Biodb 2011-05
 
Biodb 2011-01
Biodb 2011-01Biodb 2011-01
Biodb 2011-01
 
Biodb 2011-02
Biodb 2011-02Biodb 2011-02
Biodb 2011-02
 
Ngs 3 1
Ngs 3 1Ngs 3 1
Ngs 3 1
 
Ngs 1 0_0
Ngs 1 0_0Ngs 1 0_0
Ngs 1 0_0
 
Ngs 2 0_0
Ngs 2 0_0Ngs 2 0_0
Ngs 2 0_0
 
Ngs 7
Ngs 7Ngs 7
Ngs 7
 
Ngs 6
Ngs 6Ngs 6
Ngs 6
 

Vvedenie v bioinformatiku_5_3

  • 1. Анализ белковой последовательности Анализ только аминокислотной последовательность (первичную структуру) белка без боковых цепей.  Предсказание физико-химических параметров белка  Предсказание продуктов расщепления протеазами  Гидрофобные, гидрофильные участки: например, трансмембранные сегменты  Пост-трансляционные модификации  Функциональные домены, принадлежность к функциональным семействам  Фолдинг  Клеточная локализация
  • 2. Анализ белковой последовательности The ExPASy server – протеомика http://www.expasy.ch/tools/#primary  The Swiss EMBnet – coiled-coil участки, выравнивания и др. http://www.ch.embnet.org  The CBS Prediction Servers – локализация, пост-трансляционные модификации… http://www.cbs.dtu.dk/services
  • 3. ProtParam - предсказание физико-химических параметров белка
  • 4. ProtParam Молекулярный вес Аминокислотный состав Extinction coefficient – коэффициент поглощения (280 nm) Instability (менее 40 – хорошо) – нестабильность в эксперименте (test tube, статистика дипептидов) Half-life (yeast in vivo, mammalian reticulocytes in vitro, Escherichia coli in vivo) Алифатический индекс Grand average of hydropathicity (GRAVY) гидрофильность – (-), гидрофобность – (+)
  • 11. Метод скользящего окна Анализируется последовательность в несколько аминокислот, параметр усредняется по окну. Значение приписывается средней аминокислоте. Output – график Seq. LQAPVLPSDLLSWSCVGAVGILALVSFTCV <---*---> Window 1 <---*---> Window 2 <---*---> Window 3 Размер окна должен соответствовать характерному размеру анализируемого свойства (для ТМ – 19!) Методы, основанные на технике скользящего окна, как правило, не интерпретируют результаты. При интерпретации важно:  Учитывать только очень четко выраженные сигналы  Не зависящие от параметров программы – размера окна, конкретного метода и т.п.
  • 12. Предсказание трансмембранных сегментов: ProtScale 56 аминокислотных шкал (с литературными ссылками), скользящее окно -> выбор ширины окна
  • 14. Более сложное предсказание трансмембранных сегментов: TMHMM Transmembrane beta barrel prediction: PROFtmb (http://rostlab.org/services/proftmb ); PRED-TMBB (http://biophysics.biol.uoa.gr/PRED-TMBB/); TBBPred (http://www.imtech.res.in/raghava/tbbpred )
  • 15. TMHMM - результаты TMHMM предсказывает сегменты, а также топологию межсегментных участков Нашёл 7 TMs
  • 16. Домены • Домен – независимая глобулярная единица в белке. Более функционально – часть белка, обладающая активностью (если отрезать, например). Как правило, каждый домен играет свою роль в функции белка (связывает ион или ДНК, содержит активный сайт и т.п.) • Только небольшая часть известных доменов была изучена экспериментально, остальные описаны как сходные части гомологичных белков • Очень сложно четко определить домен и его границы => существует много подходов и различных доменных коллекций. Какую выбрать?
  • 17. История коллекций доменов 1980ые – PROSITE: ручная выборка паттернов в белках, определяющих функцию 1987 – доменный профайл (Gribskov): position specific scoring schema – это вероятность для каждой аминокислоты находиться в данной позиции домена  начало 1990х – BLOCKs, PRINTs, Prodom…  PfamA – коллекция профайлов, курированная вручную (сейчас также использует HMM)
  • 18. Cерверы для поиска доменов InterProScan http://www.ebi.ac.uk/InterProScan CD (Conserved Domain) server (NCBI) http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi Pfscan http://hits.isb-sib.ch/cgi-bin/PFSCAN Domac http://www.bioinfotool.org/domac.html Scooby http://www.ibi.vu.nl/programs/scoobywww/ Dompro http://www.ics.uci.edu/~baldig/domain.html
  • 20. InterPro InterPro is a database of protein families, domains and functional sites in which identifiable features found in known proteins can be applied to unknown protein sequences. Базируется на первичных классификациях целого ряда баз данных функциональных доменов и семейств, объединяет всю доступную информацию С 2001 года – Release 18.0: 75.6% UniProt
  • 21. Как это происходит Каждое InterPro семейство объединяет первичные семейства других баз данных, описывающие один и тот же домен; включает все белки, принадлежащие хотя бы одной из первичных баз. Документация семейства подробно описывает функцию и структуру соответствующей белковой подписи.
  • 25. CD server Input - Accession number, gi или последовательность в FASTA формате
  • 26. CD server – output Красный – SMART, синий – Pfam, зеленый – COGs Рваные концы указывают на неполные домены!!!! Курсор в графической части – краткое описание функции домена
  • 27. CDART – поиск белков с аналогичной доменной структурой
  • 28. Pfscan Как правило, работает несколько минут
  • 29. Pfscan - output Особенности вывода Pfscan • Схема – легенда, как всегда под рисунком • За легендой следует таблица с локализацией доменов • Далее расшифровка каждого хита – с оценкой вероятности • Затем следует графическая схема для каждого хита и scores (высокий score = хороший хит)
  • 30. Structure Classification Databases 3D structural similarities (~70%): • SCOP (MRC Cambridge) • CATH (University College, London) • Dali FSSP (EBI, Cambridge) • 3 Dee (EBI, Cambridge) FOLD recognition: • 3D-pssm • TOPITS (EMBL) • UCLA-DOE Structre Prediction Server (UCLA) • 123D • UCSC HMM (UCSC) • FAS (Burnham Institute) • UCLA-DOE Fold-Recognition Benchmark Home Page
  • 31. SCOP-Structural Classification of Proteins • База данных содержит структурную и эволюционную информацию о взаимосвязях белков с известными структурами. • Классификация белков отражает структурные и эволюционные отношения. • Многоуровневая иерархия – семейство, суперсемейство и фолд. • Ручное инспектирование.
  • 32. Superfamily: Probable common evolutionary origin Белки, имеющие низкую идентичность последовательностей, но чьи структурные и функциональные особенности позволяют предположить наличие общего предка, могут быть объединены в суперсемейства. Например, актин, the ATPase domain белков теплового шока и гексакиназы образуют суперсемейство Fold: Major structural similarity Общий фолд – одинаковая организация вторичной струкруры, с похожим пространственным расположением и с похожими соединениями. Белки с одинаковым фолдом зачастую имеют концевые элементы вторичной структуры , изгибы и повороты различных разметов и конформаций (до половины всей структуры). Белки, объединённые одним фолдом, могут не иметь общего предка (химия, физика  упаковка и топология) SCOP
  • 33. SCOP Family: Clear evolutionarily relationship Белки, сгруппированные в семейство, тесно связаны эволюционно. Это значит, что парное выравнивание показывает 30% и выше. Иногда похожие функция и структура показывают наличие общего предка и при отсутствии высокой идентичности последовательностей; например, многие глобины образуют семейство, хотя некоторые из них имеют идентичность 1D ~ 15%.
  • 36. SCOP
  • 37. CATH (Brookhaven protein databank ) • Class, Architecture, Topology, Homology database – иерархическая классификация доменов структур белков Формируется автоматически, но инспектируется вручную
  • 38. CATH Class, C-level – Класс определяется в соответствии с набором и упаковкой вторичной структуры. Он может быть присвоен как автоматически (90% of the known structures), так и вручную. – 3 главных класса: преимущественно-alpha преимущественно-beta alpha-beta (alpha/beta and alpha+beta) Четвертый класс – белки, содержащие домены без выраженной структуры..
  • 39. CATH Architecture, A-level • Описывает общий вид доменной структуры, определяемой как ориентация элементов вторичной структуры, но без учета их соединений. • Присваивается вручную (используя простое описание структуры). • Разрабатываются способы автоматизации этого процесса. Topology (fold family), T-level • Структуры группируются в зависимости как от общего вида, так и от соединений элементов вторичной структуры. Алгоритмы сравнения структур.
  • 40. CATH Homologous superfamily, H-level • Этот уровень объединяет белки, которые, по-видимому, имеют общего предка (гомологи). • Похожесть и идентичнсть – сначала по сравнению последовательностей, затем – сравнение структур. Sequence families, S-level • Структуры в каждом H-level затем группируются по идентичности последовательностей. • Домены, объединенные в семейства последовательностей, имеют идентичноcть 1D >35% , что показывает похожие структуру и функции.
  • 41. SCOP / CATH SCOP CATH class class architecture fold topology homologous superfamily superfamily family sequence family domain domain CATH - преимущественно структурная классификация, SCOP - эволюционные взаимосвязи CATH - один класс, представляющий смешанную α-β структуру SCOP - 2 класса: α/β: beta структуры параллельны, образуют βαβ мотивы α+β: alpha и beta структуры присутствуют в различных частях протеина
  • 42. SCOP / CATH -> DALI SCOP & CATHSCOP & CATH • Иерахические, базирующиеся на абстракциях • Создаются (частично) и курируются вручную экспертами Presentation of results of the classification, where the methods that underlie the classification remain internal Structure comparison
  • 43. DALI α/β β α anti parallel β barrel α β meand er More information about DALI Touring protein fold space with Dali/FSSP: Liisa Holm and Chris Sander Comparing protein structures in 3D
  • 44. DALI • The FSSP database (Fold classification based on Structure-Structure alignment of Proteins) базируется на all-against-all сравнении 3D структур белков в Protein Data Bank (PDB). Классификация и выравнивание структур автоматически поддерживается и обновляется сервисом Dali search engine. Dali Domain Dictionary • Структурные домены выделяются автоматически. Каждый получает Domain Classification number.
  • 45. DALI Fold types • Типы фолдов – кластеры структур в пространстве фолдов с средним парным Z-scores (by Dali) выше 2. Высокий Z-score соответствует структурам с близкой архитектурой.
  • 46. DALI • Базируется на выравненных 2D матрицах внутримолекулярных дистанций • Считает лучший subset соответствующих аминокислот в двух белках – максимальная похожесть 2D матриц дистанций • Поиск по всем возможным выравниваниям остатков – Monte-Carlo и branch- and-bound algorithms An intra-molecular distance plot for myoglobin
  • 47. Pfam Database Pfam – коллекция результатов множественного выравнивания последовательностей и HMM, содержащая большое количество доменов и семейств белков. Для каждого семейства в Pfam: •Просмотреть результаты MSA •Увидеть архитектуру доменов •Распределение по видам •Перекрестные ссылки •Получить известные 3D структуры •Pfam can be accessed directly or from the PDB description.
  • 48. Homstrad Database •HOMologous STRucture Alignment Database •Предоставляет выровненные 3D структуры гомологичных белков. •Homstrad - структурный эквивалент Pfam. Вначале структуры белков поступают из PDB, кандидаты семейств традиционно идентифицируются поиском по Pfam. Используются определения доменов из SCOP и информация о белках собирается из SwissProt, Pfam and Interpro. • Аннотирование – в программе Joy, которая предоставляет следующую информацию: • Тип вторичной структуры • Относительную доступность боковых цепей • Наличие водородных связей между амидом и карбонилом • Дисульфидные связи •Положительные phi торзионные углы
  • 49. PClass Database Инструмент для классификации, базирующийся на иерархии 600 белков- представителей из PDB. Структурное выравнивание 600 структур было выполнено при помощи алгоритма 3dSearch.
  • 50. 3D Structure Validation Теория: Белки – молекулы несложные: - Линейная структура цепей. - Только 20 различных аминокислот. На практике: Мы не понимаем в деталях механизм сворачивания белковых структур. Единственные «силы», используемые для уточнения, «улучшения» новой структуры – это данные измерений и некоторые факты, присущие для ВСЕХ молекул В общем случае используемая информация недостаточна для распознавания уникальной структуры. Значительная часть работы по уточнению структуры – взгляд эксперта и ручные корректировки. Белки содержат тысячи атомов и невозможно постоянно выполнять ручные корректировки. Это – источник неправильных структур и «слабых мест» в глобьально верных структурах.
  • 51. Оценка качества стереохимии «Исходя исключительно из координат атомов, есть ли методы, дающие оценку общему стереохимическому качеству структуры? Такие методы могут оказаться полезными для идентификации неправильно построенных структур во время циклов уточнения, или после завершения моделирования. Большинство PDB файлов содержат некоторую авторскую информацию о параметрах кристаллографии. В то же время эта информация обычно короткая, количественная не готовая к machine-reading и не предоставляет качественных оценок надёжности предоставленной структуры». Morris et al (PROTEINS: Structure, Function, and Genetics 12:345-364, 1992) Очень полезная информация для верификации посылаемой структуры белка Introduction to structure verification http://www.cmbi.kun.nl/gv/pdbreport/checkhelp/
  • 52. Мы можем использовать эту PDB структуру? Год публикации Разрешение X-ray структуры Проблемные остатки (отсутствующие аминокислоты/атомы/боковые цепи) Растворитель/вода Какая цель?
  • 53. Важные параметры Judging the Quality of Macromolecular Models http://www.cmbi.kun.nl/gv/pdbreport/checkhelp/ R-factor: величина, показывающая согласие между кристаллографической моделью и полученными данными X-ray. Оценивая построенную модель кристаллографер рассчитывает ожидаемую интенсивность рефлексов в образце дифракции и затем сравнивает его с экспериментальными данными, содержащими измеренные позиции и интенсивности. -R-factor используется для проверки прогресса в уточнении структуры. Финальный R-factor – единая мера качества модели. Чем меньше, тем лучше. Разрешение: В X-ray кристаллографии "2-Å model" означает, что модель учитывает дифракцию в группе одинаковых, параллельных плоскостей с атомами с промежутком в 2 Å. Точность атомных позиций: В кристаллографии, в отличии от световой микроскопии, термин «разрешение» означает количество данных, в конечном счете используемое для определения структуры. Напротив, точность атомной позиции частично зависит от разрешения, но в большей степени зависит от качества данных – R-factor. - Хорошие данные могут приносить атомные полиции с точностью 0.2–0.1 от заявленного разрешения.
  • 54. WHAT IF WHAT IF – CMBI (Centre for Molecular and Biomolecular Informatics) CHECK - качество структуры/модели белка FULCHK – наиболее подробный отчёт о проверке. Производимые проверки – от простых проверок длин связей, торзионных углов и проверок поверхности до глубокого анализа контактов и сети водородных связей. Stand alone versions: Unix, Windows Server: WHAT_CHECK http://www.cmbi.kun.nl/gv/whatcheck/ Может посчитать и некоторые свойства: Атомарные дистанции, столкновения, окружения, контакты с водой, «внутренняя» вода, водородные связи…..
  • 55. WHAT_IF Validation Parameters 1. Доступность боковых цепей 2. Длины связей – данные экспериментов 3. Углы связей – данные экспериментов 4. Торзионные (трёхгранные) углы, Phi/Psi (ramachandran plot) – данные экспериментов 5. Планарность боковых цепей у His, Phe, Tyr – данные экспериментов 6. Хиральность (D or L) – данные экспериментов 7. Ротамеры (χ-1 and χ-2 комбинации) - моделирование 8. Столкновения атомов – данные экспериментов 9. Абсолютное внутреннее/внешнее распределение аминокислот 10. Погруженные доноры водородов – данные экспериментов 11. Упаковка (сравнение с базами данных) http://www.cmbi.kun.nl/~richardn/intromodelValidation.html
  • 56. The PDBREPORT Database The PDBREPORT Database http://www.cmbi.kun.nl/gv/pdbreport/ Index of all diagnostic messages http://www.cmbi.kun.nl/gv/pdbreport/pdbreport/revindex.html
  • 57. WHAT_CHECK Criteria Peptide-Pl: RMS distance of the backbone oxygen from the oxygen in similar backbone conformations found in the database, distances in the range [3..1] are mapped to [0..9] Rotamer: Probability that the sidechain rotamer (chi-1 only) is correct, probabilities in the range [0.1 .. 0.9] are mapped to [0..9] Chi-1/Chi-2: Z-score for the sidechain chi-1/chi-2 combination, Z-scores in the range probabilities in the range [-4..+4] are mapped to [0..9] Bumps: Sum of bumps per residue, distances in the range [0.1 .. 0] are mapped to [0..9]. Packing 1: First packing quality Z-score, Z-scores in the range [-5..+5] are mapped to [0..9]. Packing 2: Second packing quality Z-score, Z-scores in the range [-3..+3] are mapped to [0..9]. In/Out: Absolute inside/outside distribution Z-score per residue, Z-scores in the range [4..2] are mapped to [0..9]. H-Bonds: 9 minus number of unsatisfied hydrogen bonds, 2 is subtracted for buried backbone nitrogen, 5 for buried sidechain. Flips: Indicates flipped Asn/Gln/His sidechain, 9=OK, 0=needs flipping.
  • 58. WHAT_CHECK Criteria Access: Relative side chain accessibility, 0=buried, 9=exposed. Quality: Several quality estimators from the PDBREPORTs.0=is oh no, 9=perfect. B-Factors: Crystallographic B-factors, the range [10..60] is mapped to [9..0] Bonds: Absolute Z-score of the largest bond deviation per residue, absolute Z-Scores in the range [5..2] are mapped to [0..9]. Angles: Absolute Z-score of the largest angle deviation per residue, absolute Z-Scores in the range [5..2] are mapped to [0..9]. Torsions: Average Z-score of the torsion angles per residue, Z-Scores in the range [-3..+3] are mapped to [0..9]. Phi/Psi: Ramachandran Z-score per residue, Z-Scores in the range [-4..+4] are mapped to [0..9]. Planarity: Z-score for the planarity of the residue sidechain, Z-Scores in the range [6..2] are mapped to [0..9]. Chirality: Average absolute Z-score of the chirality deviations per residue, average absolute Z- Scores in the range [4..2] are mapped to [0..9]. Backbone: Number of similar backbone conformations found in the database, numbers in the range [0..10] are mapped to [0..9]
  • 59. Procheck http://www.biochem.ucl.ac.uk/~roman/procheck/procheck.html Procheck – программа и сервер для проверки геометрии структуры белка. 1. Геометрия ковалентных связей 2. Планарность 3. Торзионные углы 4. Хиральность 5. Нековалентные взаимодействия 6. Водородные связи основной цепи 7. Дисульфидные мостики 8. Сравнение параметров 9. Поаминокислотный анализ
  • 61. PDB Validation Tools Ad it! http://pdb.rutgers.edu/validate/ The PDB Validation Suite - набор инструментов, используемый в PDB для обработки и проверки структурных данных http://pdb.rutgers.edu/mmcif/VAL/index.html
  • 62. ERRAT •ERRAT - алгоритм верификации белковых структур, который особенно подходит для оценки процесса построения и улучшения моделей в кристаллографии. • Программа анализирует статистики нековалентных взаимодействий между атомами различных типов. • Общая диаграмма даёт значения функции ошибки (скоринг) vs позиция 9-residue окна. Путём сравнения с статистиками из очень качественных структур функция ошибки калибруется. http://www.doe-mbi.ucla.edu/Services/Errat.html
  • 63. PROVE • PROVE: PROtein Volume Evaluation, a validation package • PROVE - ПО для проверки качества атомарной модели макромолекулярной структуры • Базируется на расчете атомных объемов. PROVE считает объемы атомов в макромолекуле, используя алгоритм SURVOL (SURVOL обрабатывает атомы как твёрдые сферы с определенными радиусами, зависящими от типа атома) • Использовались высококачественные структуры для выяснения ожидаемых (средних) объемов погруженных атомов. • Отклонения в атомных объемах оценивается в Z-score (how many standard deviations their volume is away from the mean for that atom type). Ожидаемое Z-score – 0. http://www.ucmb.ulb.ac.be/UCMB/PROVE/
  • 64. Biotech Validation Suite Biotech Validation Suite – EMBL http://biotech.ebi.ac.uk:8400/
  • 65. SAV SAV- Structure Analysis and Verification Server http://www.doe-mbi.ucla.edu/Services/SV/ Information about the server – Before you start http://www.doe-mbi.ucla.edu/Services/SV/Info.php
  • 68. An Introduction to Protein Architecture By A. M. Lesk
  • 69. Инструменты визуализации RasMol / RasTop Chime Protein Explorer Cn3D YASARA WebLab Viewer SwissPDB Viewer VMD DINO
  • 72. Chime • Plugin для Netscape Communicator и других браузеров • Основное предназначение – позволяет визуализировать биомолекулы на компьютерах, лишённых каких-либо других инструментов для структурной биологии, работает как надстройка в браузере. • Подобен RasMol, но не поддерживает командной строки • Дополнительная информация доступна по http://www.umass.edu/microbio/chime/chimehow/chimeho w.htm • Не включает дополнений и усовершенствований RasMol
  • 73. Protein Explorer •Улучшенная версия RasMol •Графический интерфейс похож на Chime, но с более развитой системой помощи и автоматизации •Доступен для работы новичкам, нет нужды изучать команды •Обеспечивает углублённое изучение молекул и их свойств для профессионалов
  • 77. SwissPdbViewer - Deep view • Инструмент, обладающий огромными возможностями • Позволяет анализировать множественные структуры • Позволяет изменять углы химических связей и производить перенос атомов или групп атомов • Моделирование мутаций • Моделирование с использованием гомологов (при подключении к удалённому серверу) • Базовые минимизации энергии • Карты электронных полей
  • 78. YASARA • Yet Another Scientific Artificial Application • Молекулярная графика на очень хорошем уровне • Моделирование и симуляции (not free!)
  • 82. RasMol – Опции → Сечение
  • 83. RasMol – Опции → Атомы H
  • 84. RasMol – Опции → Зеркальная поверхность
  • 85. RasMol – Опции → Тени
  • 86. RasMol – Опции → Стерео
  • 87. RasMol – Опции → Метки
  • 90. RasMol Manual RasMol 2.6 Manual http://www.umass.edu/microbio/rasmol/getras.htm#rasmanual RasMol 2.7 Manual http://www.rasmol.org/
  • 91. RasTop• Download RasTop and install it. • Repeat RasMol assignment 2 with RasTop.
  • 92. Swiss-PDBViewer Домашняя страница: http://ca.expasy.org/spdbv/ Руководство пользователя http://ca.expasy.org/spdbv/text/tutorial.htm.

Editor's Notes

  1. Устно
  2. Устное.
  3. Устное объяснение
  4. Устное объяснение
  5. Цитохром Rhodopseudomonas viridis. Note the symmetry of LM = 60% identity