ВПЕРЕД В ПРОШЛОЕ.
МЕТОДЫ ГЕНЕТИЧЕСКОЙ
ДИАГНОСТИКИ ДРЕВНЕЙ ДНК
ИЛИ “О ЧЕМ МОЛЧАТ И ГОВОРЯТ ДРЕВНИЕ КОСТИ”
ТАТЬЯНА ТАТАРИНОВА
UNIVERSITY OF SOUTHERN CALIFORNIA
ДРЕВНИЕ ДНК ИГРАЮТ ТАКУЮ ЖЕ РОЛЬ ДЛЯ
ЭВОЛЮЦИОННОЙ ГЕНЕТИКИ, КАК ИСКОПАЕМЫЕ ОБРАЗЫ
ДЛЯ ПАЛЕОНТОЛОГИИ: ПРЯМОЕ ОКНО В ПРОШЛОЕ.
В ТЕЧЕНИЕ ПОСЛЕДНИХ ДЕСЯТКОВ ЛЕТЫ, ГЕНЕТИЧЕСКИЙ
МАТЕРИАЛ БЫЛ ДОБЫТ У НЕАНДЕРТАЛЬЦА, ДЕНИСОВЦА,
МАМОНТА, ДРЕВНИХ СЕМЯН, КВАГГИ, ИТД.
ВОПРОС: КТО ТАКАЯ КВАГГА И ЗАЧЕМ ЕЕ ИЗУЧАТЬ?
ВОПРОС: МОЖНО ЛИ ИЗУЧАТЬ ДРЕВНЮЮ РНК?
На все эти вопросы мы отвечаем в нашей статье, которая скоро выйдет
в журнале DNA Research
Toward high-resolution population genomics using archaeological samples
Irina Morozova, Pavel Flegontov, Alexander Mikheyev, Hosseinali Asgharian,
Petr Ponomarenko, Vladimir Klyuchnikov, GaneshPrasad ArunKumar, Sergey Bruskin,
Egor Prokhortchouk, Yuriy Gankin, Evgeny Rogaev, Yuri Nikolsky, Ancha Baranova,
Eran Elhaik, Tatiana V. Tatarinova
АНАЛИЗ ДРЕВНИХ ОСТАНКОВ МОЖЕТ ПРОЛИТЬ СВЕТ НА МИГРАЦИЮ, ВОПРОСЫ РОДСТВА
ВИДОВ, ОБЕСПЕЧИТЬ ГЛУБОКОЕ ПОНИМАНИЕ ФИЗИОЛОГИЧЕСКИХ И МОРФОЛОГИЧЕСКИХ
ПРИЗНАКОВ, ТАКИХ КАК ГРУППА КРОВИ, ЦВЕТ КОЖИ И ВОЛОС, И АДАПТАЦИЯ К КЛИМАТУ. В
СОЧЕТАНИИ С ДРУГИМИ ДОКАЗАТЕЛЬСТВАМИ, СЕКВЕНИРОВАНИЕ ДРЕВНИХ ГЕНОМОВ МОЖЕТ
ПОМОЧЬ В УРЕГУЛИРОВАНИИ ВАЖНЫХ ДИСКУССИЙ В АРХЕОЛОГИИ ИЛИ ЛИНГВИСТИКЕ.
АНАЛИЗ ГЕНОМА НЕАНДЕРТАЛЬЦА ИЗ ОСТАНКОВ, НАЙДЕННЫХ В ЕВРОПЕ И ЗАПАДНОЙ И
ЦЕНТРАЛЬНОЙ АЗИИ (230-30 ТЫСЯЧ ЛЕТ ДО НАШЕЙ ЭРЫ) ПРОДЕМОНСТРИРОВАЛИ ЧТО
НЕАНДЕРТАЛЬЦЫ СКРЕЩИВАЛИСЬ С ХОМО САПИЕНС.
ИССЛЕДОВАНИЯ ПОКАЗАЛИ, ЧТО НЕАНДЕРТАЛЬЦЫ ОСТАВИЛИ БОЛЬШЕ ГЕНЕТИЧЕСКОГО
МАТЕРИАЛА В СОВРЕМЕННЫХ ЛЮДЯХ В ЕВРАЗИИ, ЧЕМ В ЖИВУЩИХ К ЮГУ ОТ САХАРЫ.
СЛЕДОВАЕЛЬНО, ГЕНЕТИЧЕСКИЙ ПОТОК ОТ НЕАНДЕРТАЛЬЦЕВ К ХОМО САПИЕНС СЛУЧИЛСЯ
ПОСЛЕ ВЫХОДА ЛЮДЕЙ ИЗ АФРИКИ, НО ДО РАСХОЖДЕНИЯ ЕВРАЗИЙСКОЙ ГРУППЫ.
РАЗЛИЧНЫЕ НЕАНДЕРТАЛЬСКИЕ АЛЛЕЛЕИ ПРЕИМУЩЕСТВЕННО СОХРАНЯЮТСЯ В СОВРЕМЕННЫХ
ПОПУЛЯЦИЯХ ВСЛЕДСТВИЕ СПЕЦИФИЧЕСКОГО СЕЛЕКТИВНОГО ДАВЛЕНИЯ
Гены от неандертальцев:
-адаптация к холодному климату
-участки генома где совсем нет генов от
неандертальцев
500,000
100,000
Денисовцы – гоминды, которые генетически отличались
от неандертальцев и современных людей. Сравнительный
анализ Денисовских и современных геномов человека
показали, что генетический вклад Денисовцев в
современных людей, возможно, были ограничен
Меланезией и Австралией. Однако методики,
используемые в этих исследованиях, был подвергнут
критике, тем самым ставя под сомнение древней
интрогрессии ДНК Денисовских на азиатском материке.
«Speech gene» FOX2P
http://www.nature.com/nature/journal/v418/n6900/fig_tab/nature01025_F2.html
http://www.sciencedirect.com/science/article/pii/S0960982207020659
Extremely conserved among
mammals
All humans have two functional
amino-acid changes
This gene has been the target of
selection during recent human
evolution.
Neanderthals have the same variant
of FOX2P as modern humans
6
It looks like the forming of lactase persistence started in Bronze Age
http://www.nature.com/ncomms/2014/141021/ncomms6257/full/ncomms6257.html
Lactase persistence gene is absent in Neolithic but
present in Bronze Age.
7
http://www.nature.com/nature/journal/v522/n7555/full/nature14507.html
Response to the artificial environment: Lactase persistence
http://mideats.com
Most mammals normally can’t produce lactase after weaning, but some
human populations have developed lactase persistence into adulthood.
Domesticated cattle
↓
Milking
↓
Lactase persistence
8
Geographic distribution of the lactase
persistence allele in contemporary Europeans
Cattle breeds (blue dots) sampled across Europe and Turkey
Diversity in cattle milk genes
Limits of the geographic
distribution of early Neolithic
cattle pastoralist (Funnel
Beaker Culture)
http://www.nature.com/ng/journal/v35/n4/full/ng1263.html
Lactase persistence: Gene-culture co-evolution
9
LDC = lactose digestion capacity
https://www.msu.edu/course/eng/473/johnsen/LDC.pdf
Milking evolves first, and evolution of high LDC is highly
dependent on milking.
10
Industrial Revolution: Changing in microbiotic ecosystems
Industrial revolution (17-19th cent.):
New technologies:
Industrially processed flour and
sugar
↓
Changes in oral microbiota
http://www.nature.com/ng/journal/v45/n4/full/ng.2536.html
Industrial Revolution: Changing in microbiotic ecosystems
http://www.nature.com/ng/journal/v45/n4/full/ng.2536.html
Mesolithic hunter-gatherers
↓
Farming - distinct shift in early Neolithic – more caries- and
periodontal disease–associated taxa
↓
Consistency in the composition of bacteria through the medieval
period
↓
Today's oral environment is much less biodiverse and is
dominated by potentially cariogenic bacteria
11
Decrease of diversity
Domination of cariogenic bacteria
Скифы южнорусских степей
(VIII-III вв до.н.э.)
Сарматы южнорусских степей
(III в. до н.э. – III в. н.э.)
Ираноязычные кочевники южнорусских степей: скифы и сарматы
Реконструкция Т.С.БалуевойРеконструкция М.М. Герасимова
География генофонда сарматовГеография генофонда скифов
Ираноязычные кочевники южнорусских степей: скифы и сарматы
Rychkov et al. 2014
«Иранский» компонент генофонда сарматов
Основные волны иранских
кочевников несли в
пределы южнорусских
степей кардинально
различавшиеся генофонды.
Меоты – оседлое население южнорусских степей
Кто такие меоты?
Меотская культура
(VII в. до н.э. – III в. н.э.)
География генофонда меотов
Практически все «меотские»
линии мтДНК имеют широкое
географическое
распространение.
Меоты – оседлое население южнорусских степей
Морозова и др. Генетика. 2013; Рычков и др. Степь на переломе эр. 2013
K1 Андийцы И1 Белуджи
K2 Аварцы И2 Гилянцы
К3 Чеченцы И3 Курды
К4 Даргинцы И4 Луры
К5 Ингуши И5 Мазендеранцы
К6 Кумыки И6 Парсы
К7 Лезгины И7 Персы
К8 Табасараны И8 Пуштуны
К9 Абхазы И9 Синдхи
К10 Армяне И10 Таджики
К11 Мегрелы И11 Индия
К12 Осетины_юж Е1 Боснийцы
К13 Абазины Е2 Словенцы
К14 Балкарцы Е3 Поляки
К15 Карачаевцы Е4 Литовцы
К16 Осетины_сев Е5 Латыши
К17 Ногайцы Е6 Немцы
К18 Черкесы Е7 Русские
К19 Адыгейцы Е8 Греки
К20 Кабардинцы Е9 Австрийцы
К21 Азербайджанцы Е10 Итальянцы
K22 Талыши Е11 Французы
Меоты – оседлое население южнорусских степей
Морозова и др. Генетика. 2013; Рычков и др. Степь на переломе эр. 2013
Генофонд меотов занимает промежуточное положение между
генофондами «европейцев», «кавказцев» и «индоиранцев».
Меоты – оседлое население южнорусских степей
Положение меотов среди народов Кавказа и среди индоевропейцев
Морозова и др. Генетика. 2013; Рычков и др. Степь на переломе эр. 2013
Der Sarkissian. University of Adelaide. 2011
Древняя ДНК – весьма эффективный инструмент исследования исторических процессов
До железного века «европеоидность» была распространена значительно дальше на
восток, чем в настоящее время.
Железный век – переломное время в формировании генофонда населения Евразии.
Скифская культура – культура степной зоны Евразии
VIII-III вв до.н.э.
Скифская триада
Генетическое разнообразие скифов
«Сибирские» скифы
Keyser et al. Hum. Genet. 2009
Матрилинейная и патрилинейная части генофонда
«сибирских» скифов демонстрируют сходную
картину: сочетание «европеоидного» и
«монголоидного» влияния.
«Сибирские» скифы, вероятнее всего, были
светловолосыми, светлоглазыми и со
светлой кожей.
Реконструкция Т.С.Балуевой, Е.В. Веселовской
«Европейские» скифы
Европеоидный
компонент
Монголоидный
компонент
Der Sarkissian. University of Adelaide. 2011; Rychkov et al. 2014
Генофонд «европейских»
скифов сочетает в себе
генетическое влияние
преимущественно из Восточной
Европы и из Центральной Азии
и Южной Сибири.
География генофонда «европейских» скифов
«Сибирские» и «европейские» скифы
География генофонда «сибирских» скифов
Keyser et al. Hum. Genet. 2009; Der Sarkissian. University of Adelaide. 2011
Евр
Монг
Генетическое сходство между
«сибирскими» и
«европейскими» скифами
указывает на общее
происхождение или на
интенсивные генетические
контакты (маленькая выборка <
20 образцов)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
"Европейские" скифы "Сибирские" скифы
U
T
I
H
F
G
D
C
A
Какие загадки истории можно откопать с помощью древних ДНК
Киммерийцы?
Египтяне?
Вавилон?
Половцы?
Синташтинская
культура?
Индоевропейцы?
Amelogenin gene in females and males:
Different length
Different sequence
TATCCCAGATGTTTCTC
CATCCCAAATAAAGTG...
Amel X
Amel Y
♀
♂
Amel X
Amel Y
♀
♂
X+ Y-
X+Y+
Определение пола без NGS
Genetic methods
24
Sex determination
Genetic methods
Female
X+Y-
Female X+Y-
Male
X+Y+
25
ЗАГАДКА СИМЫ ХУЭСОСА
• ПО MTDNA НЕАНДЕРТАЛЬЦЫ БЛИЖЕ К
СОВЕРМЕННОМУ ЧЕЛОВЕКУ ЧЕМ
ДЕНСИСОВЦЫ
• МИТОХОНДРИАЛЬНЫЙ АНАЛИЗ ОСТАНКОВ
(48,000-30,000 ЛЕТ НАЗАД), ПОКАЗАЛ
НЕТИПИЧНУЮ ПОСЛЕДОВАТЕЛЬНОСТЬ ПО
СРАВНЕНИЮ КАК С НЕАНДЕРТАЛЬЦАМИ,
ТАК И С СОВРЕМЕННЫМ ЧЕЛОВЕКОМ
• ОДНАКО: НЕДАВНИЙ АНАЛИЗМ 3Х
МИЛЛИОНОВ БАЗ ЯДЕРНОГО ГЕНОМА
ПОКАЗАЛИ БЛИЗОСТЬ ХУЭСОСОВЦЕВ К
НЕАНДЕРТАЛЬЦАМ, ЧТО СОВПАДАЕТ С
ОЦЕНКАМИ АНТРОПОЛОГОВ
ЧТО УЖЕ РАСКОПАНО И
ПРОСЕКВЕНИРОВАНО?
В ЧЕМ РАЗНИЦА МЕЖДУ СЕКВЕНИРОВАНИЕМ
СОВРЕМЕННОЙ И СТАРОЙ ДНК?
• After the death of an organism, all of its biomolecules are degraded either by host
enzymes released from their proper compartments or by saprobic microorganisms.
• Therefore, compared to modern DNA, aDNA has lower concentration; it is fragmented
(may be down to 50-70 nt long fragments), contaminated, and chemically modified.
• Relative preservation of DNA in old samples depends on environmental circumstances,
such as temperature, humidity, pH, or oxygen, rather than the absolute age of the sample.
For instance, DNA samples extracted from frozen remains dated thousands or even
hundreds of thousands years can be of better quality than much more recent samples.
Recent studies showed that the age of “readable” (by current methods) aDNA products is
restricted to about 1–1.5 million years.
• At present, the 560–780 thousand years old Middle Pleistocene horse is the most ancient
organism from which reliable aDNA data have been procured
ФРАГМЕНТАЦИЯ• DNASE ENZYMES
• БАКТЕРИИ
Sawyer et al. 2012
КОНТАМИНАЦИЯ
• ANCIENT DNA IS OFTEN CONTAMINATED WITH SOME LEVEL OF EXOGENOUS
DNA (E.G., DNA FROM ANCIENT OR MODERN SAPROTROPHIC BACTERIA OR
FUNGI), POSTMORTEM JUXTAPOSITION OF ORGANISMS, OR MODERN HUMAN
DNA FROM THE RESEARCHERS THEMSELVES
“ДНК ДИНОЗАВРА”
• IN THE 1990S A LARGE NUMBER OF PAPERS WERE PUBLISHED REPORTING DNA SEQUENCES FROM
EXTREMELY ANCIENT REMAINS SUCH AS MIOCENE PLANT FOSSILS, AMBER-ENTOMBED ORGANISMS, 250-
MILLION-YEAR-OLD BACTERIA IN SALT CRYSTAL, AND DINOSAUR BONES AND EGGS.
• IN ONE SUCH CASE, RESEARCHERS REPORTED SUCCESSFUL EXTRACTION AND AMPLIFICATION OF
MTDNA CYTOCHROME B FRAGMENT FROM A DINOSAUR. THE SEQUENCES DIFFERED FROM ALL MODERN
CYTOCHROME B SEQUENCES. THIS LED THE AUTHORS TO BELIEVE THAT THEY HAD SEQUENCED
AUTHENTIC DNA FROM 80-MILLION-YEAR-OLD BONES. IT WAS LATER DISCOVERED THAT THOSE
MTDNA SEQUENCES WERE NOT CLOSE TO AVIAN AND REPTILIAN MTDNAS, AS WOULD BE EXPECTED
FROM THEIR PHYLOGENETIC HISTORY, BUT RATHER TO MAMMALIAN (INCLUDING HUMAN) MTDNAS. IT
WAS THEREBY SUGGESTED THAT THE ALLEGED “DINOSAUR” DNA WAS CONTAMINATED, PRESUMABLY BY
MODERN HUMAN DNA.
• A SIMILAR COURSE OF EVENTS OCCURRED IN THE STUDY OF ANCIENT BACTERIAL DNA SUPPOSEDLY
PRESERVED IN 250-MILLION-YEAR-OLD SALT CRYSTALS, WHICH TURNED OUT TO BE MODERN
BACTERIAL DNA. IN ADDITION TO THESE EXAMPLES, SEVERAL OTHER ADNA PROJECTS HAVE BEEN
IMPEDED BY CONTAMINATION OF ANCIENT SAMPLES.
КАК БОРОТЬСЯ С КОНТАМИНАЦИЕЙ
• TO PREVENT CONTAMINATION, THE EXPERIMENT MUST BE PROPERLY
MANAGED, INCLUDING SPECIAL REQUIREMENTS FOR SAMPLE
COLLECTION, STERILIZATION OF THE WORKING AREA, DNA
AUTHENTICATION, AND INDEPENDENT REPRODUCIBILITY.
• MECHANICAL REMOVAL OF THE UPPER LAYER AND UV AND/OR
BLEACH TREATMENT OF THE SAMPLE.
• SAMPLE INCUBATION IN AN EXTRACTION BUFFER AND ITS
SUBSEQUENT REMOVAL. THIS STEP ALONE INCREASES THE FRACTION
OF ENDOGENOUS DNA SEVERAL FOLD.
• A SUBSTANTIAL FRACTION OF THE READS COMES FROM
CONTAMINATION WITH ENVIRONMENTAL DNA FROM BACTERIA AND
FUNGI. MICROBIAL SEQUENCES SHOULD BE EASILY FLAGGED BY A
STANDARD BLAST SEARCH AGAINST THE NCBI NON-REDUNDANT
NUCLEOTIDE DATABASE. THIS STRATEGY, HOWEVER, FAILS TO
DISCOVER MOST OF THE MICROBIAL SEQUENCES THAT HAVE YET TO
BE SEQUENCED. THEREFORE, IT IS NOT SURPRISING THAT A LARGE
FRACTION OF READS IN MANY ADNA LIBRARIES IS LABELED AS
“UNKNOWN” OR “UNCLASSIFIED,” MAINLY DUE TO THE UNIDENTIFIED
СЛОЖНЫЕ СЛУЧАИ
• ДНК ИССЛЕДОВАТЕЛЯ В
ЧЕЛОВЕЧЕСКИХ ОБРАЗЦАХ
БРОНЗОГОГО ВЕКА
• РЕШЕНИЕ – ЛАБОРАНТ ИЗ ДРУГОЙ
ЭТНИЧЕСКОЙ ГРУППЫ
• УБРАТЬ ВСЕ ДЛИННЫЕ ФРАГМЕНТЫ –
НО ЭТО ОЧЕНЬ ПЛОХОЙ ПОДХОД.
ПОЧЕМУ?
• ЗАГРЯЗНЕНИЕ ДНК МАМОНТА (ДНК
ХИЩНИКА)
• СРАВНЕНИЕ С СОВРЕМЕННЫМ
СЛОНОМ И ДРУГИМИ ЖИВОТНЫМИ
(СОБАКАМИ). К КОМУ БЛИЖЕ?
В анализе 6 образцов неандертальца, оценки % неандертальской ДНК варьировались от ~1% до
~99%, уровень загрязнения в 5 “свежих” человеческих костях 800–1600 нашей эры оценивался от
Der Sarkissian et al. 201
http://mammoth.psu.edu/hair.h
TRANSITIONS VS TRANSVERSIONS
• COMPARISON OF MODERN AND
ANCIENT HUMANS
• POST MORTEM BASE MODIFICATION
IN ADNA OFTEN INVOLVE C TO U (T)
AND A TO G TRANSITIONS,
CONTAMINATION WITH EXTERNAL
DNA CAN BE RELIABLY ESTIMATED
USING TRANSVERSION OR INDEL
COUNTS
Усы древности
Base modifications are often observed in
the 5–7 final bases of DNA fragments and
are thought to occur more readily in
terminal, single-stranded overhangs
ЧТО ДЕЛАТЬ С U?
• УБРАТЬ ВСЕ ФРАГМЕНТЫ СОДЕРЖАЩИЕ U
• ПЛОХО ТАК КАК И ТАК МАЛО ДНК
• ПОЧИНИТЬ ВСЕ U НАЗАД В C
• НЕ РЕШАЕТ ЗАМЕНЫ A->G
• СТАТИСТИЧЕСКИЙ ПОДХОД – ОЦЕНКА СТЕПЕНИ МОДИФИКАЦИИ
• AN EXCESS OF C→T (AND G→A) TRANSITIONS IN MODERN-ANCIENT ALIGNMENTS
PROVIDES AN ESTIMATE OF BASE MODIFICATION
Base Calling
De-multiplexing:
-Trim adapters at both ends,
-Clip low quality sequences,
-Stitch overlapping reads
Mapping and
Realignment
Mapping and
Realignment
Estimating post
mortem damage and
contamination
Variant Calling
Reduction of
Heterozygosity/
Homozygosity
РАЗРАБОТКА НОВЫХ МЕТОДОВ АНАЛИЗА
• ВЕРОЯТНОСТНЫЕ ПОДХОДЫ
• АНАЛИЗ НА ПОПУЛЯЦИОННОМ УРОВНЕ (НЕСКОЛЬКО СКЕЛЕТОВ ИЗ ОДНОГО
КЛАДБИЩА)
• АНАЛИЗ НЕ ОДНОГО СНИПА, А ГРУППЫ СНИПОВ
ANCESTRY SNP CHIP
• FASTER AND CHEAPER AS COMPARED TO WHOLE GENOME
SEQUENCING
• WELL-DESIGNED SNP CHIPS CONTAIN CAREFULLY SELECTED
MARKERS
To infer population structure from genotype data, it is necessary to first reduce the
dimensionality of the dataset due to the thousands of SNPs it encompasses.
From SNPs to Admixture
Thousands of SNPs
North East
Asian Mediterranian South African
South West
Asian
Native
American Oceanian
South East
Asian
Northern
European
Sub-Saharan
African
HGDP00985 0.5253 0.0202 0 0.2222 0.0404 0.0101 0.0101 0.1717 0
HGDP01094 0.04 0.04 0 0.03 0.83 0 0.01 0.05 0
HGDP00982 0.0102 0.1531 0.0306 0.0714 0.0408 0 0.0102 0.2041 0.4796
ADMIXTURE
Admixture proportions in geographically adjacent
populations, such as Italian and Greeks, and
populations sharing similar history, like British and
Germans, are similar. 43
QUESTION
• HOW TO LINK GENETIC AND GEOGRAPHIC DIVERGENCE?
44
INPUT: GENETICS
SAMPLES WITH KNOWN ORIGIN
45
SAMPLE
ID
NORTH
EASTASIA
N
MEDITERR
ANIAN
SOUTH
AFRICA
SOUTH
WEST
ASIAN
NATIVE
AMERICAN OCEANIAN
SOUTH
EAST ASIA
NORTHER
NEUROPEA
N
SUB-
SAHARAN
AFRICA
Chinese 1 0.718826 0.000419 0.00001 0.00001 0.00001 0.00001 0.280695 0.00001 0.00001
Chinese 2 0.734967 0.00001 0.00001 0.00001 0.001061 0.00001 0.263912 0.00001 0.00001
Chinese 3 0.74693 0.00001 0.00001 0.00001 0.010271 0.003244 0.239505 0.00001 0.00001
Chinese 4 0.671209 0.00001 0.00001 0.00001 0.00001 0.00001 0.328721 0.00001 0.00001
Chinese 5 0.725614 0.00001 0.00001 0.00001 0.00001 0.00001 0.274316 0.00001 0.00001
Chinese 6 0.72071 0.00001 0.00001 0.001098 0.01665 0.00001 0.261492 0.00001 0.00001
Chinese 7 0.695701 0.00001 0.00001 0.00001 0.00001 0.00001 0.304229 0.00001 0.00001
Chinese 8 0.709767 0.00001 0.00001 0.00001 0.00001 0.00001 0.290163 0.00001 0.00001
Chinese 9 0.715808 0.01056 0.00001 0.00001 0.00001 0.00001 0.273572 0.00001 0.00001
Chinese 10 0.732043 0.00001 0.00001 0.00001 0.012694 0.00001 0.255203 0.00001 0.00001
Chinese 11 0.655995 0.00001 0.00001 0.00001 0.00001 0.00001 0.343935 0.00001 0.00001
Chinese 12 0.712607 0.00001 0.00001 0.00001 0.00001 0.00001 0.287323 0.00001 0.00001
INPUT: GEOGRAPHY
• FOR EVERY REFERENCE POPULATION FIND THE
CORRESPONDING COORDINATES.
Latitude Longitud
e
Chinese 39.55 116.2
Russian 55.75 37.62
Tatar 55.55 50.93
Moscow
46
RELATIONSHIP BETWEEN GENETIC
AND GEOGRAPHIC DISTANCES
ΔGEO = α × ΔGEN + 𝛽 We correlated the admixture patterns
with geography, by calculating two
distance matrices between all
populations
For all reference samples, compute genetic and geographic distance between samples
47
QUESTION
• KNOWING RELATIONSHIP BETWEEN GEOGRAPHIC AND GENETIC
DISTANCES, IS IT POSSIBLE TO FIND A GEOGRAPHIC ORIGIN OF
A PERSON OF KNOWN GENOTYPE?
• WE DECIDED TO TRY A SIMPLE APPROACH
48
A B
X
FIRST STEP: CALCULATE MEAN ADMIXTURE
VECTORS
• FOR EVERY REFERENCE POPULATION, CALCULATE MEAN
ADMIXTURE VECTORS
NORTH
EAST
ASIA
MEDI-
TERRANIA
SOUTH
AFRICA
SOUTH
WEST
ASIA
NATIVE
AMERICA OCEANIA
SOUTH
EAST
ASIA
NORTHERN
EUROPE
SUB-
SAHARANA
FRICA
Chinese 0.711681 0.000923 1.00E-05 0.000101 0.003396 0.00028 0.283589 1.00E-05 1.00E-05
Russian 0.068867 0.265222 0.001241 0.224659 0.035011 0.008622 0.031844 0.363107 0.001419
Tatar 0.15794 0.209897 1.00E-05 0.210957 0.011902 0.002605 0.005703 0.400975 1.00E-05
49
DEALING WITH INDIVIDUALS OF UNKNOWN
ORIGIN
NORTH EAST
ASIA
MEDI-
TERRANIA
SOUTH
AFRICA
SOUTH
WEST
ASIA
NATIVE
AMERICA OCEANIA
SOUTH
EAST
ASIA
NORTHERN
EUROPE
SUB-
SAHARANAF
RICA
Unknown 0.711681 0.000923 1.00E-05 0.000101 0.003396 0.00028 0.283589 1.00E-05 1.00E-05
• Find distances between the Unknown vector and all
reference vectors
• Sort reference populations by distance from
smallest to largest
50
EXAMPLE
UNKNOWN SAMPLES
𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑝𝑟𝑒𝑑 = 𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑏𝑒𝑠𝑡 + 𝛾
𝑚=2
𝑀
𝑤 𝑚 (𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑚 − 𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑏𝑒𝑠𝑡)
WHERE WM =
ΔGEN
MIN
ΔGEN(M)
, AND Γ IS THE SCALING COEFFICIENT
52
ACCURACY OF THE GPS ALGORITHM
LEAVE-ONE-OUT APPROACH
GPS1 MAPS 80% OF THE INDIVIDUALS TO THEIR COUNTRIES OF
ORIGIN, AND 60% OF ALL INDIVIDUALS TO THEIR EXACT INNER-
COUNTRY REGION. THE ASSIGNMENT ACCURACY WAS LARGELY
AFFECTED (R=–0.45) BY THE GENETIC DIVERSITY OF THE
REFERENCE POPULATIONS AS ESTIMATED BY THE STANDARD
DEVIATION OF THEIR ADMIXTURE PROPORTIONS.
54
GPS1 accurately assigned:
• ~100% of all individuals to their continental
regions
• 80% of all individuals to their country of origin
• 60% of all individuals to their inner-country
region
55
APPLICATION OF GPS TO ADNA (BRONZE
AGE)
30 OUT OF 100 BRONZE
AGE SAMPLES (ALLENTOFT
ET AL 2015) HAD OVER 500
OF ANCESTRY INFORMATIVE
MARKERS.
WE APPLIED GPS
ALGORITHM TO FIND THE
CLOSEST MODERN
POPULATION.
КЛИНИЧЕСКАЯ/ФЕНОТИПИЧЕСКАЯ
ЗНАЧИМОСТЬ МУТАЦИЙ
• КАК ДЕЛАЮТ СЕЙЧАС (НАПРИМЕР, 23 АНД МЕ) – У ВАС ЕСТЬ МУТАЦИЯ В
RS262555, ЗНАЧИТ ВЫ ЛЮБИТЕ КОФЕ
• БУДЕТ ЛИ ЭТО РАБОТАТЬ В АНАЛИЗЕ СТАРЫХ ГЕНОМОВ?
• КАК МОДИФИЦИРОВАТЬ ПОДХОД?
PHENOTYPE PREDICTION FROM ADNA
• PROBLEM: COVERAGE IS LOW, AND RELIABILITY OF EACH
INDIVIDUAL SNP IS MEAGER
• SOLUTION: CONSIDER POPULATION, GROUP SNPS BY DISEASES
AND RANK DISEASES BY THE NUMBER OF SNPS
Phenotype
Links can be taken from HGMD or ClinVar databases
Проект Тимофея
Проданова и
Антона Афанасьева
CONDITIONS WITH THE HIGHEST/LOWEST
NUMBER OF SNPS IN BRONZE AGE EUROPE
• ADENOMATOUS POLYPOSIS COLI
• LIVER GLYCOGENOSIS
• MUIR-TORRE SYNDROME
• HAEMOGLOBIN VARIANT
• CONGENITAL DISORDER OF GLYCOSYLATION 1A
• THALASSAEMIA ALPHA
• VON WILLEBRAND DISEASE 2A
• DIABETES, PERMANENT NEONATAL
• SHORT STATURE
• DIABETES, NEONATAL
СТАТИСТИКА F3
• ПОПУЛЯЦИИ X, Y И Z МОГУТ ОБРАЗОВЫВАТЬ КАК
ПРОСТОЕ ДЕРЕВО (СЛЕВА), ТАК И УКАЗЫВАТЬ НА
СМЕШЕНИЕ Y1 И Y2 ДЛЯ ПОЛУЧЕНИЯ X (СПРАВА)
• F3(Z;X,Y)>0 ЕСЛИ X,Y И Z ОБРАЗУЮТ ПРОСТОЕ
ДЕРЕВО И <0 В СЛУЧАЕ СМЕШЕНИЯ
• ЕСЛИ Z,X И Y ОБРАЗУЮТ ПРОСТОЕ ДЕРЕВО, ТО
F3(Z;X,Y) ПРОПОРЦИОНАЛЬНА ДИСПЕРСИИ
ЧАСТОТЫ АЛЛЕЛЯ ПОСЛЕ ОТВЕТВЛЕНИЯ
Детали в статье https://genetics.med.harvard.edu/reich/Reich_Lab/Welcome_files/2012_Patterson_AncientAdmixture_Genetics.pdf
EXAMPLES OF F3 ANALYSIS WITH ANCIENT
POPULATIONS
KOSTENKI MALTA
EUROPEAN HUNTER-
GATHERER
• YAMNAYA ANCESTRY PRESENT IN
CHUVASH AND KAREL AT LEVELS
COMPARABLE TO CENTRAL EUROPE, BUT
OTHER POPULATIONS LESS
• HIGHER PROPORTION OF EASTERN
HUNTER GATHERERS THAN WESTERN OR
SWEDISH
• LOW HUNTER GATHERER ANCESTRY IN
CAUCASUS, KIRGIZ AND UZBEK, HIGH IN
CHUVASH.
• KOSTENKI ANCESTRY PRESENT IN WEST
EURASIANS BUT NOT IN EAST
• MALTA ANCESTRY HIGH IN KHANTY AND
KET
• STEPPE ANCESTRY (AFANASIEVO,
ANDRONOVO, SRUBNAYA) PRESENT IN
WEST EURASIANS AND TO LESSER EXTENT
IN CAUCASUS, BUT NOT IN EAST.
ВЫВОДЫ
• ДРЕВНИЕ ДНК – САМОЕ СОВРЕМЕННОЕ НАПРАВЛЕНИЕ
• ПРОСТОР ДЛЯ БИОИНФОРМАТИКОВ
• НУЖНЫ НОВЫЕ АЛГОРИТМЫ ИЛИ АДАПТАЦИЯ СТАРЫХ
НАД ТЕКСТОМ РАБОТАЛИ
• IRINA MOROZOVA (ИОГЕН, УНИВЕРСИТЕТ ЦЮРИХА)
• PAVEL FLEGONTOV (УНИВЕРСИТЕТ ОСТРАВЫ, ИППИ)
• ALEXANDER MIKHEYEV (ОКИНАВСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ)
• VLADIMIR KLYUCHNIKOV (ДОНСКАЯ АРХЕОЛОГИЯ)
• HOSSEINALI ASGHARIAN, PETR PONOMARENKO (USC)
• GANESHPRASAD ARUNKUMAR (SASTRA, INDIA)
• SERGEY BRUSKIN (ИОГЕН)
• EGOR PROKHORTCHOUK (БИОИНЖЕНЕРИЯ)
• YURIY GANKIN (ПРОСАПИЯ ГЕНЕТИКС)
• EVGENY ROGAEV (ИОГЕН)
• YURI NIKOLSKY (ФОНД СКОЛКОВО)
• ANCHA BARANOVA (GMU)
• ERAN ELHAIK (SHEFFIELD)

Вперед в прошлое. Методы генетической диагностики древней днк

  • 1.
    ВПЕРЕД В ПРОШЛОЕ. МЕТОДЫГЕНЕТИЧЕСКОЙ ДИАГНОСТИКИ ДРЕВНЕЙ ДНК ИЛИ “О ЧЕМ МОЛЧАТ И ГОВОРЯТ ДРЕВНИЕ КОСТИ” ТАТЬЯНА ТАТАРИНОВА UNIVERSITY OF SOUTHERN CALIFORNIA
  • 2.
    ДРЕВНИЕ ДНК ИГРАЮТТАКУЮ ЖЕ РОЛЬ ДЛЯ ЭВОЛЮЦИОННОЙ ГЕНЕТИКИ, КАК ИСКОПАЕМЫЕ ОБРАЗЫ ДЛЯ ПАЛЕОНТОЛОГИИ: ПРЯМОЕ ОКНО В ПРОШЛОЕ. В ТЕЧЕНИЕ ПОСЛЕДНИХ ДЕСЯТКОВ ЛЕТЫ, ГЕНЕТИЧЕСКИЙ МАТЕРИАЛ БЫЛ ДОБЫТ У НЕАНДЕРТАЛЬЦА, ДЕНИСОВЦА, МАМОНТА, ДРЕВНИХ СЕМЯН, КВАГГИ, ИТД. ВОПРОС: КТО ТАКАЯ КВАГГА И ЗАЧЕМ ЕЕ ИЗУЧАТЬ? ВОПРОС: МОЖНО ЛИ ИЗУЧАТЬ ДРЕВНЮЮ РНК? На все эти вопросы мы отвечаем в нашей статье, которая скоро выйдет в журнале DNA Research Toward high-resolution population genomics using archaeological samples Irina Morozova, Pavel Flegontov, Alexander Mikheyev, Hosseinali Asgharian, Petr Ponomarenko, Vladimir Klyuchnikov, GaneshPrasad ArunKumar, Sergey Bruskin, Egor Prokhortchouk, Yuriy Gankin, Evgeny Rogaev, Yuri Nikolsky, Ancha Baranova, Eran Elhaik, Tatiana V. Tatarinova
  • 3.
    АНАЛИЗ ДРЕВНИХ ОСТАНКОВМОЖЕТ ПРОЛИТЬ СВЕТ НА МИГРАЦИЮ, ВОПРОСЫ РОДСТВА ВИДОВ, ОБЕСПЕЧИТЬ ГЛУБОКОЕ ПОНИМАНИЕ ФИЗИОЛОГИЧЕСКИХ И МОРФОЛОГИЧЕСКИХ ПРИЗНАКОВ, ТАКИХ КАК ГРУППА КРОВИ, ЦВЕТ КОЖИ И ВОЛОС, И АДАПТАЦИЯ К КЛИМАТУ. В СОЧЕТАНИИ С ДРУГИМИ ДОКАЗАТЕЛЬСТВАМИ, СЕКВЕНИРОВАНИЕ ДРЕВНИХ ГЕНОМОВ МОЖЕТ ПОМОЧЬ В УРЕГУЛИРОВАНИИ ВАЖНЫХ ДИСКУССИЙ В АРХЕОЛОГИИ ИЛИ ЛИНГВИСТИКЕ.
  • 4.
    АНАЛИЗ ГЕНОМА НЕАНДЕРТАЛЬЦАИЗ ОСТАНКОВ, НАЙДЕННЫХ В ЕВРОПЕ И ЗАПАДНОЙ И ЦЕНТРАЛЬНОЙ АЗИИ (230-30 ТЫСЯЧ ЛЕТ ДО НАШЕЙ ЭРЫ) ПРОДЕМОНСТРИРОВАЛИ ЧТО НЕАНДЕРТАЛЬЦЫ СКРЕЩИВАЛИСЬ С ХОМО САПИЕНС. ИССЛЕДОВАНИЯ ПОКАЗАЛИ, ЧТО НЕАНДЕРТАЛЬЦЫ ОСТАВИЛИ БОЛЬШЕ ГЕНЕТИЧЕСКОГО МАТЕРИАЛА В СОВРЕМЕННЫХ ЛЮДЯХ В ЕВРАЗИИ, ЧЕМ В ЖИВУЩИХ К ЮГУ ОТ САХАРЫ. СЛЕДОВАЕЛЬНО, ГЕНЕТИЧЕСКИЙ ПОТОК ОТ НЕАНДЕРТАЛЬЦЕВ К ХОМО САПИЕНС СЛУЧИЛСЯ ПОСЛЕ ВЫХОДА ЛЮДЕЙ ИЗ АФРИКИ, НО ДО РАСХОЖДЕНИЯ ЕВРАЗИЙСКОЙ ГРУППЫ. РАЗЛИЧНЫЕ НЕАНДЕРТАЛЬСКИЕ АЛЛЕЛЕИ ПРЕИМУЩЕСТВЕННО СОХРАНЯЮТСЯ В СОВРЕМЕННЫХ ПОПУЛЯЦИЯХ ВСЛЕДСТВИЕ СПЕЦИФИЧЕСКОГО СЕЛЕКТИВНОГО ДАВЛЕНИЯ Гены от неандертальцев: -адаптация к холодному климату -участки генома где совсем нет генов от неандертальцев 500,000 100,000
  • 5.
    Денисовцы – гоминды,которые генетически отличались от неандертальцев и современных людей. Сравнительный анализ Денисовских и современных геномов человека показали, что генетический вклад Денисовцев в современных людей, возможно, были ограничен Меланезией и Австралией. Однако методики, используемые в этих исследованиях, был подвергнут критике, тем самым ставя под сомнение древней интрогрессии ДНК Денисовских на азиатском материке.
  • 6.
    «Speech gene» FOX2P http://www.nature.com/nature/journal/v418/n6900/fig_tab/nature01025_F2.html http://www.sciencedirect.com/science/article/pii/S0960982207020659 Extremelyconserved among mammals All humans have two functional amino-acid changes This gene has been the target of selection during recent human evolution. Neanderthals have the same variant of FOX2P as modern humans 6
  • 7.
    It looks likethe forming of lactase persistence started in Bronze Age http://www.nature.com/ncomms/2014/141021/ncomms6257/full/ncomms6257.html Lactase persistence gene is absent in Neolithic but present in Bronze Age. 7 http://www.nature.com/nature/journal/v522/n7555/full/nature14507.html
  • 8.
    Response to theartificial environment: Lactase persistence http://mideats.com Most mammals normally can’t produce lactase after weaning, but some human populations have developed lactase persistence into adulthood. Domesticated cattle ↓ Milking ↓ Lactase persistence 8 Geographic distribution of the lactase persistence allele in contemporary Europeans Cattle breeds (blue dots) sampled across Europe and Turkey Diversity in cattle milk genes Limits of the geographic distribution of early Neolithic cattle pastoralist (Funnel Beaker Culture) http://www.nature.com/ng/journal/v35/n4/full/ng1263.html
  • 9.
    Lactase persistence: Gene-cultureco-evolution 9 LDC = lactose digestion capacity https://www.msu.edu/course/eng/473/johnsen/LDC.pdf Milking evolves first, and evolution of high LDC is highly dependent on milking.
  • 10.
    10 Industrial Revolution: Changingin microbiotic ecosystems Industrial revolution (17-19th cent.): New technologies: Industrially processed flour and sugar ↓ Changes in oral microbiota http://www.nature.com/ng/journal/v45/n4/full/ng.2536.html
  • 11.
    Industrial Revolution: Changingin microbiotic ecosystems http://www.nature.com/ng/journal/v45/n4/full/ng.2536.html Mesolithic hunter-gatherers ↓ Farming - distinct shift in early Neolithic – more caries- and periodontal disease–associated taxa ↓ Consistency in the composition of bacteria through the medieval period ↓ Today's oral environment is much less biodiverse and is dominated by potentially cariogenic bacteria 11 Decrease of diversity Domination of cariogenic bacteria
  • 12.
    Скифы южнорусских степей (VIII-IIIвв до.н.э.) Сарматы южнорусских степей (III в. до н.э. – III в. н.э.) Ираноязычные кочевники южнорусских степей: скифы и сарматы Реконструкция Т.С.БалуевойРеконструкция М.М. Герасимова
  • 13.
    География генофонда сарматовГеографиягенофонда скифов Ираноязычные кочевники южнорусских степей: скифы и сарматы Rychkov et al. 2014 «Иранский» компонент генофонда сарматов Основные волны иранских кочевников несли в пределы южнорусских степей кардинально различавшиеся генофонды.
  • 14.
    Меоты – оседлоенаселение южнорусских степей Кто такие меоты? Меотская культура (VII в. до н.э. – III в. н.э.)
  • 15.
    География генофонда меотов Практическивсе «меотские» линии мтДНК имеют широкое географическое распространение. Меоты – оседлое население южнорусских степей Морозова и др. Генетика. 2013; Рычков и др. Степь на переломе эр. 2013
  • 16.
    K1 Андийцы И1Белуджи K2 Аварцы И2 Гилянцы К3 Чеченцы И3 Курды К4 Даргинцы И4 Луры К5 Ингуши И5 Мазендеранцы К6 Кумыки И6 Парсы К7 Лезгины И7 Персы К8 Табасараны И8 Пуштуны К9 Абхазы И9 Синдхи К10 Армяне И10 Таджики К11 Мегрелы И11 Индия К12 Осетины_юж Е1 Боснийцы К13 Абазины Е2 Словенцы К14 Балкарцы Е3 Поляки К15 Карачаевцы Е4 Литовцы К16 Осетины_сев Е5 Латыши К17 Ногайцы Е6 Немцы К18 Черкесы Е7 Русские К19 Адыгейцы Е8 Греки К20 Кабардинцы Е9 Австрийцы К21 Азербайджанцы Е10 Итальянцы K22 Талыши Е11 Французы Меоты – оседлое население южнорусских степей Морозова и др. Генетика. 2013; Рычков и др. Степь на переломе эр. 2013 Генофонд меотов занимает промежуточное положение между генофондами «европейцев», «кавказцев» и «индоиранцев».
  • 17.
    Меоты – оседлоенаселение южнорусских степей Положение меотов среди народов Кавказа и среди индоевропейцев Морозова и др. Генетика. 2013; Рычков и др. Степь на переломе эр. 2013
  • 18.
    Der Sarkissian. Universityof Adelaide. 2011 Древняя ДНК – весьма эффективный инструмент исследования исторических процессов До железного века «европеоидность» была распространена значительно дальше на восток, чем в настоящее время. Железный век – переломное время в формировании генофонда населения Евразии.
  • 19.
    Скифская культура –культура степной зоны Евразии VIII-III вв до.н.э. Скифская триада Генетическое разнообразие скифов
  • 20.
    «Сибирские» скифы Keyser etal. Hum. Genet. 2009 Матрилинейная и патрилинейная части генофонда «сибирских» скифов демонстрируют сходную картину: сочетание «европеоидного» и «монголоидного» влияния. «Сибирские» скифы, вероятнее всего, были светловолосыми, светлоглазыми и со светлой кожей. Реконструкция Т.С.Балуевой, Е.В. Веселовской
  • 21.
    «Европейские» скифы Европеоидный компонент Монголоидный компонент Der Sarkissian.University of Adelaide. 2011; Rychkov et al. 2014 Генофонд «европейских» скифов сочетает в себе генетическое влияние преимущественно из Восточной Европы и из Центральной Азии и Южной Сибири.
  • 22.
    География генофонда «европейских»скифов «Сибирские» и «европейские» скифы География генофонда «сибирских» скифов Keyser et al. Hum. Genet. 2009; Der Sarkissian. University of Adelaide. 2011 Евр Монг Генетическое сходство между «сибирскими» и «европейскими» скифами указывает на общее происхождение или на интенсивные генетические контакты (маленькая выборка < 20 образцов) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% "Европейские" скифы "Сибирские" скифы U T I H F G D C A
  • 23.
    Какие загадки историиможно откопать с помощью древних ДНК Киммерийцы? Египтяне? Вавилон? Половцы? Синташтинская культура? Индоевропейцы?
  • 24.
    Amelogenin gene infemales and males: Different length Different sequence TATCCCAGATGTTTCTC CATCCCAAATAAAGTG... Amel X Amel Y ♀ ♂ Amel X Amel Y ♀ ♂ X+ Y- X+Y+ Определение пола без NGS Genetic methods 24
  • 25.
  • 26.
    ЗАГАДКА СИМЫ ХУЭСОСА •ПО MTDNA НЕАНДЕРТАЛЬЦЫ БЛИЖЕ К СОВЕРМЕННОМУ ЧЕЛОВЕКУ ЧЕМ ДЕНСИСОВЦЫ • МИТОХОНДРИАЛЬНЫЙ АНАЛИЗ ОСТАНКОВ (48,000-30,000 ЛЕТ НАЗАД), ПОКАЗАЛ НЕТИПИЧНУЮ ПОСЛЕДОВАТЕЛЬНОСТЬ ПО СРАВНЕНИЮ КАК С НЕАНДЕРТАЛЬЦАМИ, ТАК И С СОВРЕМЕННЫМ ЧЕЛОВЕКОМ • ОДНАКО: НЕДАВНИЙ АНАЛИЗМ 3Х МИЛЛИОНОВ БАЗ ЯДЕРНОГО ГЕНОМА ПОКАЗАЛИ БЛИЗОСТЬ ХУЭСОСОВЦЕВ К НЕАНДЕРТАЛЬЦАМ, ЧТО СОВПАДАЕТ С ОЦЕНКАМИ АНТРОПОЛОГОВ
  • 28.
    ЧТО УЖЕ РАСКОПАНОИ ПРОСЕКВЕНИРОВАНО?
  • 29.
    В ЧЕМ РАЗНИЦАМЕЖДУ СЕКВЕНИРОВАНИЕМ СОВРЕМЕННОЙ И СТАРОЙ ДНК? • After the death of an organism, all of its biomolecules are degraded either by host enzymes released from their proper compartments or by saprobic microorganisms. • Therefore, compared to modern DNA, aDNA has lower concentration; it is fragmented (may be down to 50-70 nt long fragments), contaminated, and chemically modified. • Relative preservation of DNA in old samples depends on environmental circumstances, such as temperature, humidity, pH, or oxygen, rather than the absolute age of the sample. For instance, DNA samples extracted from frozen remains dated thousands or even hundreds of thousands years can be of better quality than much more recent samples. Recent studies showed that the age of “readable” (by current methods) aDNA products is restricted to about 1–1.5 million years. • At present, the 560–780 thousand years old Middle Pleistocene horse is the most ancient organism from which reliable aDNA data have been procured
  • 30.
    ФРАГМЕНТАЦИЯ• DNASE ENZYMES •БАКТЕРИИ Sawyer et al. 2012
  • 31.
    КОНТАМИНАЦИЯ • ANCIENT DNAIS OFTEN CONTAMINATED WITH SOME LEVEL OF EXOGENOUS DNA (E.G., DNA FROM ANCIENT OR MODERN SAPROTROPHIC BACTERIA OR FUNGI), POSTMORTEM JUXTAPOSITION OF ORGANISMS, OR MODERN HUMAN DNA FROM THE RESEARCHERS THEMSELVES
  • 32.
    “ДНК ДИНОЗАВРА” • INTHE 1990S A LARGE NUMBER OF PAPERS WERE PUBLISHED REPORTING DNA SEQUENCES FROM EXTREMELY ANCIENT REMAINS SUCH AS MIOCENE PLANT FOSSILS, AMBER-ENTOMBED ORGANISMS, 250- MILLION-YEAR-OLD BACTERIA IN SALT CRYSTAL, AND DINOSAUR BONES AND EGGS. • IN ONE SUCH CASE, RESEARCHERS REPORTED SUCCESSFUL EXTRACTION AND AMPLIFICATION OF MTDNA CYTOCHROME B FRAGMENT FROM A DINOSAUR. THE SEQUENCES DIFFERED FROM ALL MODERN CYTOCHROME B SEQUENCES. THIS LED THE AUTHORS TO BELIEVE THAT THEY HAD SEQUENCED AUTHENTIC DNA FROM 80-MILLION-YEAR-OLD BONES. IT WAS LATER DISCOVERED THAT THOSE MTDNA SEQUENCES WERE NOT CLOSE TO AVIAN AND REPTILIAN MTDNAS, AS WOULD BE EXPECTED FROM THEIR PHYLOGENETIC HISTORY, BUT RATHER TO MAMMALIAN (INCLUDING HUMAN) MTDNAS. IT WAS THEREBY SUGGESTED THAT THE ALLEGED “DINOSAUR” DNA WAS CONTAMINATED, PRESUMABLY BY MODERN HUMAN DNA. • A SIMILAR COURSE OF EVENTS OCCURRED IN THE STUDY OF ANCIENT BACTERIAL DNA SUPPOSEDLY PRESERVED IN 250-MILLION-YEAR-OLD SALT CRYSTALS, WHICH TURNED OUT TO BE MODERN BACTERIAL DNA. IN ADDITION TO THESE EXAMPLES, SEVERAL OTHER ADNA PROJECTS HAVE BEEN IMPEDED BY CONTAMINATION OF ANCIENT SAMPLES.
  • 33.
    КАК БОРОТЬСЯ СКОНТАМИНАЦИЕЙ • TO PREVENT CONTAMINATION, THE EXPERIMENT MUST BE PROPERLY MANAGED, INCLUDING SPECIAL REQUIREMENTS FOR SAMPLE COLLECTION, STERILIZATION OF THE WORKING AREA, DNA AUTHENTICATION, AND INDEPENDENT REPRODUCIBILITY. • MECHANICAL REMOVAL OF THE UPPER LAYER AND UV AND/OR BLEACH TREATMENT OF THE SAMPLE. • SAMPLE INCUBATION IN AN EXTRACTION BUFFER AND ITS SUBSEQUENT REMOVAL. THIS STEP ALONE INCREASES THE FRACTION OF ENDOGENOUS DNA SEVERAL FOLD. • A SUBSTANTIAL FRACTION OF THE READS COMES FROM CONTAMINATION WITH ENVIRONMENTAL DNA FROM BACTERIA AND FUNGI. MICROBIAL SEQUENCES SHOULD BE EASILY FLAGGED BY A STANDARD BLAST SEARCH AGAINST THE NCBI NON-REDUNDANT NUCLEOTIDE DATABASE. THIS STRATEGY, HOWEVER, FAILS TO DISCOVER MOST OF THE MICROBIAL SEQUENCES THAT HAVE YET TO BE SEQUENCED. THEREFORE, IT IS NOT SURPRISING THAT A LARGE FRACTION OF READS IN MANY ADNA LIBRARIES IS LABELED AS “UNKNOWN” OR “UNCLASSIFIED,” MAINLY DUE TO THE UNIDENTIFIED
  • 34.
    СЛОЖНЫЕ СЛУЧАИ • ДНКИССЛЕДОВАТЕЛЯ В ЧЕЛОВЕЧЕСКИХ ОБРАЗЦАХ БРОНЗОГОГО ВЕКА • РЕШЕНИЕ – ЛАБОРАНТ ИЗ ДРУГОЙ ЭТНИЧЕСКОЙ ГРУППЫ • УБРАТЬ ВСЕ ДЛИННЫЕ ФРАГМЕНТЫ – НО ЭТО ОЧЕНЬ ПЛОХОЙ ПОДХОД. ПОЧЕМУ? • ЗАГРЯЗНЕНИЕ ДНК МАМОНТА (ДНК ХИЩНИКА) • СРАВНЕНИЕ С СОВРЕМЕННЫМ СЛОНОМ И ДРУГИМИ ЖИВОТНЫМИ (СОБАКАМИ). К КОМУ БЛИЖЕ? В анализе 6 образцов неандертальца, оценки % неандертальской ДНК варьировались от ~1% до ~99%, уровень загрязнения в 5 “свежих” человеческих костях 800–1600 нашей эры оценивался от
  • 35.
    Der Sarkissian etal. 201 http://mammoth.psu.edu/hair.h
  • 36.
    TRANSITIONS VS TRANSVERSIONS •COMPARISON OF MODERN AND ANCIENT HUMANS • POST MORTEM BASE MODIFICATION IN ADNA OFTEN INVOLVE C TO U (T) AND A TO G TRANSITIONS, CONTAMINATION WITH EXTERNAL DNA CAN BE RELIABLY ESTIMATED USING TRANSVERSION OR INDEL COUNTS
  • 38.
    Усы древности Base modificationsare often observed in the 5–7 final bases of DNA fragments and are thought to occur more readily in terminal, single-stranded overhangs
  • 39.
    ЧТО ДЕЛАТЬ СU? • УБРАТЬ ВСЕ ФРАГМЕНТЫ СОДЕРЖАЩИЕ U • ПЛОХО ТАК КАК И ТАК МАЛО ДНК • ПОЧИНИТЬ ВСЕ U НАЗАД В C • НЕ РЕШАЕТ ЗАМЕНЫ A->G • СТАТИСТИЧЕСКИЙ ПОДХОД – ОЦЕНКА СТЕПЕНИ МОДИФИКАЦИИ • AN EXCESS OF C→T (AND G→A) TRANSITIONS IN MODERN-ANCIENT ALIGNMENTS PROVIDES AN ESTIMATE OF BASE MODIFICATION
  • 40.
    Base Calling De-multiplexing: -Trim adaptersat both ends, -Clip low quality sequences, -Stitch overlapping reads Mapping and Realignment Mapping and Realignment Estimating post mortem damage and contamination Variant Calling Reduction of Heterozygosity/ Homozygosity
  • 41.
    РАЗРАБОТКА НОВЫХ МЕТОДОВАНАЛИЗА • ВЕРОЯТНОСТНЫЕ ПОДХОДЫ • АНАЛИЗ НА ПОПУЛЯЦИОННОМ УРОВНЕ (НЕСКОЛЬКО СКЕЛЕТОВ ИЗ ОДНОГО КЛАДБИЩА) • АНАЛИЗ НЕ ОДНОГО СНИПА, А ГРУППЫ СНИПОВ
  • 42.
    ANCESTRY SNP CHIP •FASTER AND CHEAPER AS COMPARED TO WHOLE GENOME SEQUENCING • WELL-DESIGNED SNP CHIPS CONTAIN CAREFULLY SELECTED MARKERS
  • 43.
    To infer populationstructure from genotype data, it is necessary to first reduce the dimensionality of the dataset due to the thousands of SNPs it encompasses. From SNPs to Admixture Thousands of SNPs North East Asian Mediterranian South African South West Asian Native American Oceanian South East Asian Northern European Sub-Saharan African HGDP00985 0.5253 0.0202 0 0.2222 0.0404 0.0101 0.0101 0.1717 0 HGDP01094 0.04 0.04 0 0.03 0.83 0 0.01 0.05 0 HGDP00982 0.0102 0.1531 0.0306 0.0714 0.0408 0 0.0102 0.2041 0.4796 ADMIXTURE Admixture proportions in geographically adjacent populations, such as Italian and Greeks, and populations sharing similar history, like British and Germans, are similar. 43
  • 44.
    QUESTION • HOW TOLINK GENETIC AND GEOGRAPHIC DIVERGENCE? 44
  • 45.
    INPUT: GENETICS SAMPLES WITHKNOWN ORIGIN 45 SAMPLE ID NORTH EASTASIA N MEDITERR ANIAN SOUTH AFRICA SOUTH WEST ASIAN NATIVE AMERICAN OCEANIAN SOUTH EAST ASIA NORTHER NEUROPEA N SUB- SAHARAN AFRICA Chinese 1 0.718826 0.000419 0.00001 0.00001 0.00001 0.00001 0.280695 0.00001 0.00001 Chinese 2 0.734967 0.00001 0.00001 0.00001 0.001061 0.00001 0.263912 0.00001 0.00001 Chinese 3 0.74693 0.00001 0.00001 0.00001 0.010271 0.003244 0.239505 0.00001 0.00001 Chinese 4 0.671209 0.00001 0.00001 0.00001 0.00001 0.00001 0.328721 0.00001 0.00001 Chinese 5 0.725614 0.00001 0.00001 0.00001 0.00001 0.00001 0.274316 0.00001 0.00001 Chinese 6 0.72071 0.00001 0.00001 0.001098 0.01665 0.00001 0.261492 0.00001 0.00001 Chinese 7 0.695701 0.00001 0.00001 0.00001 0.00001 0.00001 0.304229 0.00001 0.00001 Chinese 8 0.709767 0.00001 0.00001 0.00001 0.00001 0.00001 0.290163 0.00001 0.00001 Chinese 9 0.715808 0.01056 0.00001 0.00001 0.00001 0.00001 0.273572 0.00001 0.00001 Chinese 10 0.732043 0.00001 0.00001 0.00001 0.012694 0.00001 0.255203 0.00001 0.00001 Chinese 11 0.655995 0.00001 0.00001 0.00001 0.00001 0.00001 0.343935 0.00001 0.00001 Chinese 12 0.712607 0.00001 0.00001 0.00001 0.00001 0.00001 0.287323 0.00001 0.00001
  • 46.
    INPUT: GEOGRAPHY • FOREVERY REFERENCE POPULATION FIND THE CORRESPONDING COORDINATES. Latitude Longitud e Chinese 39.55 116.2 Russian 55.75 37.62 Tatar 55.55 50.93 Moscow 46
  • 47.
    RELATIONSHIP BETWEEN GENETIC ANDGEOGRAPHIC DISTANCES ΔGEO = α × ΔGEN + 𝛽 We correlated the admixture patterns with geography, by calculating two distance matrices between all populations For all reference samples, compute genetic and geographic distance between samples 47
  • 48.
    QUESTION • KNOWING RELATIONSHIPBETWEEN GEOGRAPHIC AND GENETIC DISTANCES, IS IT POSSIBLE TO FIND A GEOGRAPHIC ORIGIN OF A PERSON OF KNOWN GENOTYPE? • WE DECIDED TO TRY A SIMPLE APPROACH 48 A B X
  • 49.
    FIRST STEP: CALCULATEMEAN ADMIXTURE VECTORS • FOR EVERY REFERENCE POPULATION, CALCULATE MEAN ADMIXTURE VECTORS NORTH EAST ASIA MEDI- TERRANIA SOUTH AFRICA SOUTH WEST ASIA NATIVE AMERICA OCEANIA SOUTH EAST ASIA NORTHERN EUROPE SUB- SAHARANA FRICA Chinese 0.711681 0.000923 1.00E-05 0.000101 0.003396 0.00028 0.283589 1.00E-05 1.00E-05 Russian 0.068867 0.265222 0.001241 0.224659 0.035011 0.008622 0.031844 0.363107 0.001419 Tatar 0.15794 0.209897 1.00E-05 0.210957 0.011902 0.002605 0.005703 0.400975 1.00E-05 49
  • 50.
    DEALING WITH INDIVIDUALSOF UNKNOWN ORIGIN NORTH EAST ASIA MEDI- TERRANIA SOUTH AFRICA SOUTH WEST ASIA NATIVE AMERICA OCEANIA SOUTH EAST ASIA NORTHERN EUROPE SUB- SAHARANAF RICA Unknown 0.711681 0.000923 1.00E-05 0.000101 0.003396 0.00028 0.283589 1.00E-05 1.00E-05 • Find distances between the Unknown vector and all reference vectors • Sort reference populations by distance from smallest to largest 50
  • 51.
  • 52.
    UNKNOWN SAMPLES 𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑝𝑟𝑒𝑑= 𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑏𝑒𝑠𝑡 + 𝛾 𝑚=2 𝑀 𝑤 𝑚 (𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑚 − 𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑏𝑒𝑠𝑡) WHERE WM = ΔGEN MIN ΔGEN(M) , AND Γ IS THE SCALING COEFFICIENT 52
  • 54.
    ACCURACY OF THEGPS ALGORITHM LEAVE-ONE-OUT APPROACH GPS1 MAPS 80% OF THE INDIVIDUALS TO THEIR COUNTRIES OF ORIGIN, AND 60% OF ALL INDIVIDUALS TO THEIR EXACT INNER- COUNTRY REGION. THE ASSIGNMENT ACCURACY WAS LARGELY AFFECTED (R=–0.45) BY THE GENETIC DIVERSITY OF THE REFERENCE POPULATIONS AS ESTIMATED BY THE STANDARD DEVIATION OF THEIR ADMIXTURE PROPORTIONS. 54
  • 55.
    GPS1 accurately assigned: •~100% of all individuals to their continental regions • 80% of all individuals to their country of origin • 60% of all individuals to their inner-country region 55
  • 56.
    APPLICATION OF GPSTO ADNA (BRONZE AGE) 30 OUT OF 100 BRONZE AGE SAMPLES (ALLENTOFT ET AL 2015) HAD OVER 500 OF ANCESTRY INFORMATIVE MARKERS. WE APPLIED GPS ALGORITHM TO FIND THE CLOSEST MODERN POPULATION.
  • 57.
    КЛИНИЧЕСКАЯ/ФЕНОТИПИЧЕСКАЯ ЗНАЧИМОСТЬ МУТАЦИЙ • КАКДЕЛАЮТ СЕЙЧАС (НАПРИМЕР, 23 АНД МЕ) – У ВАС ЕСТЬ МУТАЦИЯ В RS262555, ЗНАЧИТ ВЫ ЛЮБИТЕ КОФЕ • БУДЕТ ЛИ ЭТО РАБОТАТЬ В АНАЛИЗЕ СТАРЫХ ГЕНОМОВ? • КАК МОДИФИЦИРОВАТЬ ПОДХОД?
  • 58.
    PHENOTYPE PREDICTION FROMADNA • PROBLEM: COVERAGE IS LOW, AND RELIABILITY OF EACH INDIVIDUAL SNP IS MEAGER • SOLUTION: CONSIDER POPULATION, GROUP SNPS BY DISEASES AND RANK DISEASES BY THE NUMBER OF SNPS Phenotype Links can be taken from HGMD or ClinVar databases Проект Тимофея Проданова и Антона Афанасьева
  • 59.
    CONDITIONS WITH THEHIGHEST/LOWEST NUMBER OF SNPS IN BRONZE AGE EUROPE • ADENOMATOUS POLYPOSIS COLI • LIVER GLYCOGENOSIS • MUIR-TORRE SYNDROME • HAEMOGLOBIN VARIANT • CONGENITAL DISORDER OF GLYCOSYLATION 1A • THALASSAEMIA ALPHA • VON WILLEBRAND DISEASE 2A • DIABETES, PERMANENT NEONATAL • SHORT STATURE • DIABETES, NEONATAL
  • 60.
    СТАТИСТИКА F3 • ПОПУЛЯЦИИX, Y И Z МОГУТ ОБРАЗОВЫВАТЬ КАК ПРОСТОЕ ДЕРЕВО (СЛЕВА), ТАК И УКАЗЫВАТЬ НА СМЕШЕНИЕ Y1 И Y2 ДЛЯ ПОЛУЧЕНИЯ X (СПРАВА) • F3(Z;X,Y)>0 ЕСЛИ X,Y И Z ОБРАЗУЮТ ПРОСТОЕ ДЕРЕВО И <0 В СЛУЧАЕ СМЕШЕНИЯ • ЕСЛИ Z,X И Y ОБРАЗУЮТ ПРОСТОЕ ДЕРЕВО, ТО F3(Z;X,Y) ПРОПОРЦИОНАЛЬНА ДИСПЕРСИИ ЧАСТОТЫ АЛЛЕЛЯ ПОСЛЕ ОТВЕТВЛЕНИЯ Детали в статье https://genetics.med.harvard.edu/reich/Reich_Lab/Welcome_files/2012_Patterson_AncientAdmixture_Genetics.pdf
  • 61.
    EXAMPLES OF F3ANALYSIS WITH ANCIENT POPULATIONS KOSTENKI MALTA
  • 62.
    EUROPEAN HUNTER- GATHERER • YAMNAYAANCESTRY PRESENT IN CHUVASH AND KAREL AT LEVELS COMPARABLE TO CENTRAL EUROPE, BUT OTHER POPULATIONS LESS • HIGHER PROPORTION OF EASTERN HUNTER GATHERERS THAN WESTERN OR SWEDISH • LOW HUNTER GATHERER ANCESTRY IN CAUCASUS, KIRGIZ AND UZBEK, HIGH IN CHUVASH. • KOSTENKI ANCESTRY PRESENT IN WEST EURASIANS BUT NOT IN EAST • MALTA ANCESTRY HIGH IN KHANTY AND KET • STEPPE ANCESTRY (AFANASIEVO, ANDRONOVO, SRUBNAYA) PRESENT IN WEST EURASIANS AND TO LESSER EXTENT IN CAUCASUS, BUT NOT IN EAST.
  • 63.
    ВЫВОДЫ • ДРЕВНИЕ ДНК– САМОЕ СОВРЕМЕННОЕ НАПРАВЛЕНИЕ • ПРОСТОР ДЛЯ БИОИНФОРМАТИКОВ • НУЖНЫ НОВЫЕ АЛГОРИТМЫ ИЛИ АДАПТАЦИЯ СТАРЫХ
  • 64.
    НАД ТЕКСТОМ РАБОТАЛИ •IRINA MOROZOVA (ИОГЕН, УНИВЕРСИТЕТ ЦЮРИХА) • PAVEL FLEGONTOV (УНИВЕРСИТЕТ ОСТРАВЫ, ИППИ) • ALEXANDER MIKHEYEV (ОКИНАВСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ) • VLADIMIR KLYUCHNIKOV (ДОНСКАЯ АРХЕОЛОГИЯ) • HOSSEINALI ASGHARIAN, PETR PONOMARENKO (USC) • GANESHPRASAD ARUNKUMAR (SASTRA, INDIA) • SERGEY BRUSKIN (ИОГЕН) • EGOR PROKHORTCHOUK (БИОИНЖЕНЕРИЯ) • YURIY GANKIN (ПРОСАПИЯ ГЕНЕТИКС) • EVGENY ROGAEV (ИОГЕН) • YURI NIKOLSKY (ФОНД СКОЛКОВО) • ANCHA BARANOVA (GMU) • ERAN ELHAIK (SHEFFIELD)