3. extinct
extant 1 extant 2
Дистанцию (в генетическом смысле) между двумя
огранизмами расчитываема.
И эта дистанция может быть переведена во
временную шкалу
13. Типы баз данных
• Всеобъемлющие базы данных
• Организмоспецифические
• Молекулярноспецифические
• Дополнительные базы данных
14. Проблемы
• Биологические базы данных росли последние 20 лет:
1. Избыточность: множественные записи.
2. Неверные последовательности и записи.
• Открытость (данные добавляются пользователями):
1. Изменения вносятся владельцами записей.
2. Старые последовательности.
3. Неверные последовательности.
4. Неполные аннотации.
15. Полные базы данных
Большие базы данных ДНК, РНК и белков.
Примеры: GenBank, EMBL, swissprot.
Имеется обмен информацией между базами
16. NCBI (National center for biotechnology information)
NCBI
PubMed
Books
OMIM
Nucleotides
Proteins
GenomesTaxonomy
Structure
Domains
Exp’ profiles
17. NCBI - GenBank
• GenBank: открытая база данных нуклеотидных и
аминокислотных последовательностей
• Источники информации:
1. Прямая подача от исследователей.
2. Литература.
3. Центры исследований последовательностей (Sanger, TIgr)
4. Обмен с другими базами (swiss-prot, PDB).
18. NCBI - GenBank
• GenBank поделён на подбазы:
1. Organism specific (Human, Bacteria, etc).
2. Molecule specific (DNA, RNA, protein).
3. Sequence specific (Genome, mRNA, ESTs etc).
20. Swiss prot
База данных белков:
1. Очень хорошо аннотированная.
2. Отсутствует избыточность.
3. Имеются перекрёстные ссылки.
4. ID для нескольких связанных файлов белков
23. PDB – Protein Data Bank
• Главная база данных 3D
структур белков
• Включает порядка 23,000
белковых структур.
• Белки организованы в группы,
семейства и т.д.
• Имеет порядка 5600 точных
структур.
24. SCOP - Structural Classification
Of Proteins
• Организована в соответствии со
структурными семействами белков.
• Иерархическая система.
25. Текстовый поиск
Общие принципы:
1. Все главные базы предоставляют удобные
средства для тектового поиска.
2. Поиск по ключевым словам или полям.
3. Одновременный поиск в нескольких базах.
4. Дополнительные условия (дата, длина и т.д.).
26. NCBI - Entrez
• Entrez - поисковая машина для баз NCBI.
• Поиск начинается с выбора адекватной области для
поикса (Nucleotide, белки).
• Можно использовать определители полей, логические
операторы, условия и т.д.
29. SRS (Sequence Retrieval System).
• Исталлирована на множестве серверов.
• Имеет связи со многими базами данных.
• Предоставляет множество инструментов и служб для анализа.
• Позволяет сохранить результаты работы и анализа и
продолжить работу локально.