Вперед в прошлое. Методы генетической диагностики древней днк
1. ВПЕРЕД В ПРОШЛОЕ.
МЕТОДЫ ГЕНЕТИЧЕСКОЙ
ДИАГНОСТИКИ ДРЕВНЕЙ ДНК
ИЛИ “О ЧЕМ МОЛЧАТ И ГОВОРЯТ ДРЕВНИЕ КОСТИ”
ТАТЬЯНА ТАТАРИНОВА
UNIVERSITY OF SOUTHERN CALIFORNIA
2. ДРЕВНИЕ ДНК ИГРАЮТ ТАКУЮ ЖЕ РОЛЬ ДЛЯ
ЭВОЛЮЦИОННОЙ ГЕНЕТИКИ, КАК ИСКОПАЕМЫЕ ОБРАЗЫ
ДЛЯ ПАЛЕОНТОЛОГИИ: ПРЯМОЕ ОКНО В ПРОШЛОЕ.
В ТЕЧЕНИЕ ПОСЛЕДНИХ ДЕСЯТКОВ ЛЕТЫ, ГЕНЕТИЧЕСКИЙ
МАТЕРИАЛ БЫЛ ДОБЫТ У НЕАНДЕРТАЛЬЦА, ДЕНИСОВЦА,
МАМОНТА, ДРЕВНИХ СЕМЯН, КВАГГИ, ИТД.
ВОПРОС: КТО ТАКАЯ КВАГГА И ЗАЧЕМ ЕЕ ИЗУЧАТЬ?
ВОПРОС: МОЖНО ЛИ ИЗУЧАТЬ ДРЕВНЮЮ РНК?
На все эти вопросы мы отвечаем в нашей статье, которая скоро выйдет
в журнале DNA Research
Toward high-resolution population genomics using archaeological samples
Irina Morozova, Pavel Flegontov, Alexander Mikheyev, Hosseinali Asgharian,
Petr Ponomarenko, Vladimir Klyuchnikov, GaneshPrasad ArunKumar, Sergey Bruskin,
Egor Prokhortchouk, Yuriy Gankin, Evgeny Rogaev, Yuri Nikolsky, Ancha Baranova,
Eran Elhaik, Tatiana V. Tatarinova
3. АНАЛИЗ ДРЕВНИХ ОСТАНКОВ МОЖЕТ ПРОЛИТЬ СВЕТ НА МИГРАЦИЮ, ВОПРОСЫ РОДСТВА
ВИДОВ, ОБЕСПЕЧИТЬ ГЛУБОКОЕ ПОНИМАНИЕ ФИЗИОЛОГИЧЕСКИХ И МОРФОЛОГИЧЕСКИХ
ПРИЗНАКОВ, ТАКИХ КАК ГРУППА КРОВИ, ЦВЕТ КОЖИ И ВОЛОС, И АДАПТАЦИЯ К КЛИМАТУ. В
СОЧЕТАНИИ С ДРУГИМИ ДОКАЗАТЕЛЬСТВАМИ, СЕКВЕНИРОВАНИЕ ДРЕВНИХ ГЕНОМОВ МОЖЕТ
ПОМОЧЬ В УРЕГУЛИРОВАНИИ ВАЖНЫХ ДИСКУССИЙ В АРХЕОЛОГИИ ИЛИ ЛИНГВИСТИКЕ.
4. АНАЛИЗ ГЕНОМА НЕАНДЕРТАЛЬЦА ИЗ ОСТАНКОВ, НАЙДЕННЫХ В ЕВРОПЕ И ЗАПАДНОЙ И
ЦЕНТРАЛЬНОЙ АЗИИ (230-30 ТЫСЯЧ ЛЕТ ДО НАШЕЙ ЭРЫ) ПРОДЕМОНСТРИРОВАЛИ ЧТО
НЕАНДЕРТАЛЬЦЫ СКРЕЩИВАЛИСЬ С ХОМО САПИЕНС.
ИССЛЕДОВАНИЯ ПОКАЗАЛИ, ЧТО НЕАНДЕРТАЛЬЦЫ ОСТАВИЛИ БОЛЬШЕ ГЕНЕТИЧЕСКОГО
МАТЕРИАЛА В СОВРЕМЕННЫХ ЛЮДЯХ В ЕВРАЗИИ, ЧЕМ В ЖИВУЩИХ К ЮГУ ОТ САХАРЫ.
СЛЕДОВАЕЛЬНО, ГЕНЕТИЧЕСКИЙ ПОТОК ОТ НЕАНДЕРТАЛЬЦЕВ К ХОМО САПИЕНС СЛУЧИЛСЯ
ПОСЛЕ ВЫХОДА ЛЮДЕЙ ИЗ АФРИКИ, НО ДО РАСХОЖДЕНИЯ ЕВРАЗИЙСКОЙ ГРУППЫ.
РАЗЛИЧНЫЕ НЕАНДЕРТАЛЬСКИЕ АЛЛЕЛЕИ ПРЕИМУЩЕСТВЕННО СОХРАНЯЮТСЯ В СОВРЕМЕННЫХ
ПОПУЛЯЦИЯХ ВСЛЕДСТВИЕ СПЕЦИФИЧЕСКОГО СЕЛЕКТИВНОГО ДАВЛЕНИЯ
Гены от неандертальцев:
-адаптация к холодному климату
-участки генома где совсем нет генов от
неандертальцев
500,000
100,000
5. Денисовцы – гоминды, которые генетически отличались
от неандертальцев и современных людей. Сравнительный
анализ Денисовских и современных геномов человека
показали, что генетический вклад Денисовцев в
современных людей, возможно, были ограничен
Меланезией и Австралией. Однако методики,
используемые в этих исследованиях, был подвергнут
критике, тем самым ставя под сомнение древней
интрогрессии ДНК Денисовских на азиатском материке.
7. It looks like the forming of lactase persistence started in Bronze Age
http://www.nature.com/ncomms/2014/141021/ncomms6257/full/ncomms6257.html
Lactase persistence gene is absent in Neolithic but
present in Bronze Age.
7
http://www.nature.com/nature/journal/v522/n7555/full/nature14507.html
8. Response to the artificial environment: Lactase persistence
http://mideats.com
Most mammals normally can’t produce lactase after weaning, but some
human populations have developed lactase persistence into adulthood.
Domesticated cattle
↓
Milking
↓
Lactase persistence
8
Geographic distribution of the lactase
persistence allele in contemporary Europeans
Cattle breeds (blue dots) sampled across Europe and Turkey
Diversity in cattle milk genes
Limits of the geographic
distribution of early Neolithic
cattle pastoralist (Funnel
Beaker Culture)
http://www.nature.com/ng/journal/v35/n4/full/ng1263.html
9. Lactase persistence: Gene-culture co-evolution
9
LDC = lactose digestion capacity
https://www.msu.edu/course/eng/473/johnsen/LDC.pdf
Milking evolves first, and evolution of high LDC is highly
dependent on milking.
10. 10
Industrial Revolution: Changing in microbiotic ecosystems
Industrial revolution (17-19th cent.):
New technologies:
Industrially processed flour and
sugar
↓
Changes in oral microbiota
http://www.nature.com/ng/journal/v45/n4/full/ng.2536.html
11. Industrial Revolution: Changing in microbiotic ecosystems
http://www.nature.com/ng/journal/v45/n4/full/ng.2536.html
Mesolithic hunter-gatherers
↓
Farming - distinct shift in early Neolithic – more caries- and
periodontal disease–associated taxa
↓
Consistency in the composition of bacteria through the medieval
period
↓
Today's oral environment is much less biodiverse and is
dominated by potentially cariogenic bacteria
11
Decrease of diversity
Domination of cariogenic bacteria
12. Скифы южнорусских степей
(VIII-III вв до.н.э.)
Сарматы южнорусских степей
(III в. до н.э. – III в. н.э.)
Ираноязычные кочевники южнорусских степей: скифы и сарматы
Реконструкция Т.С.БалуевойРеконструкция М.М. Герасимова
13. География генофонда сарматовГеография генофонда скифов
Ираноязычные кочевники южнорусских степей: скифы и сарматы
Rychkov et al. 2014
«Иранский» компонент генофонда сарматов
Основные волны иранских
кочевников несли в
пределы южнорусских
степей кардинально
различавшиеся генофонды.
14. Меоты – оседлое население южнорусских степей
Кто такие меоты?
Меотская культура
(VII в. до н.э. – III в. н.э.)
15. География генофонда меотов
Практически все «меотские»
линии мтДНК имеют широкое
географическое
распространение.
Меоты – оседлое население южнорусских степей
Морозова и др. Генетика. 2013; Рычков и др. Степь на переломе эр. 2013
16. K1 Андийцы И1 Белуджи
K2 Аварцы И2 Гилянцы
К3 Чеченцы И3 Курды
К4 Даргинцы И4 Луры
К5 Ингуши И5 Мазендеранцы
К6 Кумыки И6 Парсы
К7 Лезгины И7 Персы
К8 Табасараны И8 Пуштуны
К9 Абхазы И9 Синдхи
К10 Армяне И10 Таджики
К11 Мегрелы И11 Индия
К12 Осетины_юж Е1 Боснийцы
К13 Абазины Е2 Словенцы
К14 Балкарцы Е3 Поляки
К15 Карачаевцы Е4 Литовцы
К16 Осетины_сев Е5 Латыши
К17 Ногайцы Е6 Немцы
К18 Черкесы Е7 Русские
К19 Адыгейцы Е8 Греки
К20 Кабардинцы Е9 Австрийцы
К21 Азербайджанцы Е10 Итальянцы
K22 Талыши Е11 Французы
Меоты – оседлое население южнорусских степей
Морозова и др. Генетика. 2013; Рычков и др. Степь на переломе эр. 2013
Генофонд меотов занимает промежуточное положение между
генофондами «европейцев», «кавказцев» и «индоиранцев».
17. Меоты – оседлое население южнорусских степей
Положение меотов среди народов Кавказа и среди индоевропейцев
Морозова и др. Генетика. 2013; Рычков и др. Степь на переломе эр. 2013
18. Der Sarkissian. University of Adelaide. 2011
Древняя ДНК – весьма эффективный инструмент исследования исторических процессов
До железного века «европеоидность» была распространена значительно дальше на
восток, чем в настоящее время.
Железный век – переломное время в формировании генофонда населения Евразии.
19. Скифская культура – культура степной зоны Евразии
VIII-III вв до.н.э.
Скифская триада
Генетическое разнообразие скифов
20. «Сибирские» скифы
Keyser et al. Hum. Genet. 2009
Матрилинейная и патрилинейная части генофонда
«сибирских» скифов демонстрируют сходную
картину: сочетание «европеоидного» и
«монголоидного» влияния.
«Сибирские» скифы, вероятнее всего, были
светловолосыми, светлоглазыми и со
светлой кожей.
Реконструкция Т.С.Балуевой, Е.В. Веселовской
22. География генофонда «европейских» скифов
«Сибирские» и «европейские» скифы
География генофонда «сибирских» скифов
Keyser et al. Hum. Genet. 2009; Der Sarkissian. University of Adelaide. 2011
Евр
Монг
Генетическое сходство между
«сибирскими» и
«европейскими» скифами
указывает на общее
происхождение или на
интенсивные генетические
контакты (маленькая выборка <
20 образцов)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
"Европейские" скифы "Сибирские" скифы
U
T
I
H
F
G
D
C
A
23. Какие загадки истории можно откопать с помощью древних ДНК
Киммерийцы?
Египтяне?
Вавилон?
Половцы?
Синташтинская
культура?
Индоевропейцы?
24. Amelogenin gene in females and males:
Different length
Different sequence
TATCCCAGATGTTTCTC
CATCCCAAATAAAGTG...
Amel X
Amel Y
♀
♂
Amel X
Amel Y
♀
♂
X+ Y-
X+Y+
Определение пола без NGS
Genetic methods
24
26. ЗАГАДКА СИМЫ ХУЭСОСА
• ПО MTDNA НЕАНДЕРТАЛЬЦЫ БЛИЖЕ К
СОВЕРМЕННОМУ ЧЕЛОВЕКУ ЧЕМ
ДЕНСИСОВЦЫ
• МИТОХОНДРИАЛЬНЫЙ АНАЛИЗ ОСТАНКОВ
(48,000-30,000 ЛЕТ НАЗАД), ПОКАЗАЛ
НЕТИПИЧНУЮ ПОСЛЕДОВАТЕЛЬНОСТЬ ПО
СРАВНЕНИЮ КАК С НЕАНДЕРТАЛЬЦАМИ,
ТАК И С СОВРЕМЕННЫМ ЧЕЛОВЕКОМ
• ОДНАКО: НЕДАВНИЙ АНАЛИЗМ 3Х
МИЛЛИОНОВ БАЗ ЯДЕРНОГО ГЕНОМА
ПОКАЗАЛИ БЛИЗОСТЬ ХУЭСОСОВЦЕВ К
НЕАНДЕРТАЛЬЦАМ, ЧТО СОВПАДАЕТ С
ОЦЕНКАМИ АНТРОПОЛОГОВ
29. В ЧЕМ РАЗНИЦА МЕЖДУ СЕКВЕНИРОВАНИЕМ
СОВРЕМЕННОЙ И СТАРОЙ ДНК?
• After the death of an organism, all of its biomolecules are degraded either by host
enzymes released from their proper compartments or by saprobic microorganisms.
• Therefore, compared to modern DNA, aDNA has lower concentration; it is fragmented
(may be down to 50-70 nt long fragments), contaminated, and chemically modified.
• Relative preservation of DNA in old samples depends on environmental circumstances,
such as temperature, humidity, pH, or oxygen, rather than the absolute age of the sample.
For instance, DNA samples extracted from frozen remains dated thousands or even
hundreds of thousands years can be of better quality than much more recent samples.
Recent studies showed that the age of “readable” (by current methods) aDNA products is
restricted to about 1–1.5 million years.
• At present, the 560–780 thousand years old Middle Pleistocene horse is the most ancient
organism from which reliable aDNA data have been procured
31. КОНТАМИНАЦИЯ
• ANCIENT DNA IS OFTEN CONTAMINATED WITH SOME LEVEL OF EXOGENOUS
DNA (E.G., DNA FROM ANCIENT OR MODERN SAPROTROPHIC BACTERIA OR
FUNGI), POSTMORTEM JUXTAPOSITION OF ORGANISMS, OR MODERN HUMAN
DNA FROM THE RESEARCHERS THEMSELVES
32. “ДНК ДИНОЗАВРА”
• IN THE 1990S A LARGE NUMBER OF PAPERS WERE PUBLISHED REPORTING DNA SEQUENCES FROM
EXTREMELY ANCIENT REMAINS SUCH AS MIOCENE PLANT FOSSILS, AMBER-ENTOMBED ORGANISMS, 250-
MILLION-YEAR-OLD BACTERIA IN SALT CRYSTAL, AND DINOSAUR BONES AND EGGS.
• IN ONE SUCH CASE, RESEARCHERS REPORTED SUCCESSFUL EXTRACTION AND AMPLIFICATION OF
MTDNA CYTOCHROME B FRAGMENT FROM A DINOSAUR. THE SEQUENCES DIFFERED FROM ALL MODERN
CYTOCHROME B SEQUENCES. THIS LED THE AUTHORS TO BELIEVE THAT THEY HAD SEQUENCED
AUTHENTIC DNA FROM 80-MILLION-YEAR-OLD BONES. IT WAS LATER DISCOVERED THAT THOSE
MTDNA SEQUENCES WERE NOT CLOSE TO AVIAN AND REPTILIAN MTDNAS, AS WOULD BE EXPECTED
FROM THEIR PHYLOGENETIC HISTORY, BUT RATHER TO MAMMALIAN (INCLUDING HUMAN) MTDNAS. IT
WAS THEREBY SUGGESTED THAT THE ALLEGED “DINOSAUR” DNA WAS CONTAMINATED, PRESUMABLY BY
MODERN HUMAN DNA.
• A SIMILAR COURSE OF EVENTS OCCURRED IN THE STUDY OF ANCIENT BACTERIAL DNA SUPPOSEDLY
PRESERVED IN 250-MILLION-YEAR-OLD SALT CRYSTALS, WHICH TURNED OUT TO BE MODERN
BACTERIAL DNA. IN ADDITION TO THESE EXAMPLES, SEVERAL OTHER ADNA PROJECTS HAVE BEEN
IMPEDED BY CONTAMINATION OF ANCIENT SAMPLES.
33. КАК БОРОТЬСЯ С КОНТАМИНАЦИЕЙ
• TO PREVENT CONTAMINATION, THE EXPERIMENT MUST BE PROPERLY
MANAGED, INCLUDING SPECIAL REQUIREMENTS FOR SAMPLE
COLLECTION, STERILIZATION OF THE WORKING AREA, DNA
AUTHENTICATION, AND INDEPENDENT REPRODUCIBILITY.
• MECHANICAL REMOVAL OF THE UPPER LAYER AND UV AND/OR
BLEACH TREATMENT OF THE SAMPLE.
• SAMPLE INCUBATION IN AN EXTRACTION BUFFER AND ITS
SUBSEQUENT REMOVAL. THIS STEP ALONE INCREASES THE FRACTION
OF ENDOGENOUS DNA SEVERAL FOLD.
• A SUBSTANTIAL FRACTION OF THE READS COMES FROM
CONTAMINATION WITH ENVIRONMENTAL DNA FROM BACTERIA AND
FUNGI. MICROBIAL SEQUENCES SHOULD BE EASILY FLAGGED BY A
STANDARD BLAST SEARCH AGAINST THE NCBI NON-REDUNDANT
NUCLEOTIDE DATABASE. THIS STRATEGY, HOWEVER, FAILS TO
DISCOVER MOST OF THE MICROBIAL SEQUENCES THAT HAVE YET TO
BE SEQUENCED. THEREFORE, IT IS NOT SURPRISING THAT A LARGE
FRACTION OF READS IN MANY ADNA LIBRARIES IS LABELED AS
“UNKNOWN” OR “UNCLASSIFIED,” MAINLY DUE TO THE UNIDENTIFIED
34. СЛОЖНЫЕ СЛУЧАИ
• ДНК ИССЛЕДОВАТЕЛЯ В
ЧЕЛОВЕЧЕСКИХ ОБРАЗЦАХ
БРОНЗОГОГО ВЕКА
• РЕШЕНИЕ – ЛАБОРАНТ ИЗ ДРУГОЙ
ЭТНИЧЕСКОЙ ГРУППЫ
• УБРАТЬ ВСЕ ДЛИННЫЕ ФРАГМЕНТЫ –
НО ЭТО ОЧЕНЬ ПЛОХОЙ ПОДХОД.
ПОЧЕМУ?
• ЗАГРЯЗНЕНИЕ ДНК МАМОНТА (ДНК
ХИЩНИКА)
• СРАВНЕНИЕ С СОВРЕМЕННЫМ
СЛОНОМ И ДРУГИМИ ЖИВОТНЫМИ
(СОБАКАМИ). К КОМУ БЛИЖЕ?
В анализе 6 образцов неандертальца, оценки % неандертальской ДНК варьировались от ~1% до
~99%, уровень загрязнения в 5 “свежих” человеческих костях 800–1600 нашей эры оценивался от
36. TRANSITIONS VS TRANSVERSIONS
• COMPARISON OF MODERN AND
ANCIENT HUMANS
• POST MORTEM BASE MODIFICATION
IN ADNA OFTEN INVOLVE C TO U (T)
AND A TO G TRANSITIONS,
CONTAMINATION WITH EXTERNAL
DNA CAN BE RELIABLY ESTIMATED
USING TRANSVERSION OR INDEL
COUNTS
37.
38. Усы древности
Base modifications are often observed in
the 5–7 final bases of DNA fragments and
are thought to occur more readily in
terminal, single-stranded overhangs
39. ЧТО ДЕЛАТЬ С U?
• УБРАТЬ ВСЕ ФРАГМЕНТЫ СОДЕРЖАЩИЕ U
• ПЛОХО ТАК КАК И ТАК МАЛО ДНК
• ПОЧИНИТЬ ВСЕ U НАЗАД В C
• НЕ РЕШАЕТ ЗАМЕНЫ A->G
• СТАТИСТИЧЕСКИЙ ПОДХОД – ОЦЕНКА СТЕПЕНИ МОДИФИКАЦИИ
• AN EXCESS OF C→T (AND G→A) TRANSITIONS IN MODERN-ANCIENT ALIGNMENTS
PROVIDES AN ESTIMATE OF BASE MODIFICATION
40. Base Calling
De-multiplexing:
-Trim adapters at both ends,
-Clip low quality sequences,
-Stitch overlapping reads
Mapping and
Realignment
Mapping and
Realignment
Estimating post
mortem damage and
contamination
Variant Calling
Reduction of
Heterozygosity/
Homozygosity
41. РАЗРАБОТКА НОВЫХ МЕТОДОВ АНАЛИЗА
• ВЕРОЯТНОСТНЫЕ ПОДХОДЫ
• АНАЛИЗ НА ПОПУЛЯЦИОННОМ УРОВНЕ (НЕСКОЛЬКО СКЕЛЕТОВ ИЗ ОДНОГО
КЛАДБИЩА)
• АНАЛИЗ НЕ ОДНОГО СНИПА, А ГРУППЫ СНИПОВ
42. ANCESTRY SNP CHIP
• FASTER AND CHEAPER AS COMPARED TO WHOLE GENOME
SEQUENCING
• WELL-DESIGNED SNP CHIPS CONTAIN CAREFULLY SELECTED
MARKERS
43. To infer population structure from genotype data, it is necessary to first reduce the
dimensionality of the dataset due to the thousands of SNPs it encompasses.
From SNPs to Admixture
Thousands of SNPs
North East
Asian Mediterranian South African
South West
Asian
Native
American Oceanian
South East
Asian
Northern
European
Sub-Saharan
African
HGDP00985 0.5253 0.0202 0 0.2222 0.0404 0.0101 0.0101 0.1717 0
HGDP01094 0.04 0.04 0 0.03 0.83 0 0.01 0.05 0
HGDP00982 0.0102 0.1531 0.0306 0.0714 0.0408 0 0.0102 0.2041 0.4796
ADMIXTURE
Admixture proportions in geographically adjacent
populations, such as Italian and Greeks, and
populations sharing similar history, like British and
Germans, are similar. 43
45. INPUT: GENETICS
SAMPLES WITH KNOWN ORIGIN
45
SAMPLE
ID
NORTH
EASTASIA
N
MEDITERR
ANIAN
SOUTH
AFRICA
SOUTH
WEST
ASIAN
NATIVE
AMERICAN OCEANIAN
SOUTH
EAST ASIA
NORTHER
NEUROPEA
N
SUB-
SAHARAN
AFRICA
Chinese 1 0.718826 0.000419 0.00001 0.00001 0.00001 0.00001 0.280695 0.00001 0.00001
Chinese 2 0.734967 0.00001 0.00001 0.00001 0.001061 0.00001 0.263912 0.00001 0.00001
Chinese 3 0.74693 0.00001 0.00001 0.00001 0.010271 0.003244 0.239505 0.00001 0.00001
Chinese 4 0.671209 0.00001 0.00001 0.00001 0.00001 0.00001 0.328721 0.00001 0.00001
Chinese 5 0.725614 0.00001 0.00001 0.00001 0.00001 0.00001 0.274316 0.00001 0.00001
Chinese 6 0.72071 0.00001 0.00001 0.001098 0.01665 0.00001 0.261492 0.00001 0.00001
Chinese 7 0.695701 0.00001 0.00001 0.00001 0.00001 0.00001 0.304229 0.00001 0.00001
Chinese 8 0.709767 0.00001 0.00001 0.00001 0.00001 0.00001 0.290163 0.00001 0.00001
Chinese 9 0.715808 0.01056 0.00001 0.00001 0.00001 0.00001 0.273572 0.00001 0.00001
Chinese 10 0.732043 0.00001 0.00001 0.00001 0.012694 0.00001 0.255203 0.00001 0.00001
Chinese 11 0.655995 0.00001 0.00001 0.00001 0.00001 0.00001 0.343935 0.00001 0.00001
Chinese 12 0.712607 0.00001 0.00001 0.00001 0.00001 0.00001 0.287323 0.00001 0.00001
46. INPUT: GEOGRAPHY
• FOR EVERY REFERENCE POPULATION FIND THE
CORRESPONDING COORDINATES.
Latitude Longitud
e
Chinese 39.55 116.2
Russian 55.75 37.62
Tatar 55.55 50.93
Moscow
46
47. RELATIONSHIP BETWEEN GENETIC
AND GEOGRAPHIC DISTANCES
ΔGEO = α × ΔGEN + 𝛽 We correlated the admixture patterns
with geography, by calculating two
distance matrices between all
populations
For all reference samples, compute genetic and geographic distance between samples
47
48. QUESTION
• KNOWING RELATIONSHIP BETWEEN GEOGRAPHIC AND GENETIC
DISTANCES, IS IT POSSIBLE TO FIND A GEOGRAPHIC ORIGIN OF
A PERSON OF KNOWN GENOTYPE?
• WE DECIDED TO TRY A SIMPLE APPROACH
48
A B
X
49. FIRST STEP: CALCULATE MEAN ADMIXTURE
VECTORS
• FOR EVERY REFERENCE POPULATION, CALCULATE MEAN
ADMIXTURE VECTORS
NORTH
EAST
ASIA
MEDI-
TERRANIA
SOUTH
AFRICA
SOUTH
WEST
ASIA
NATIVE
AMERICA OCEANIA
SOUTH
EAST
ASIA
NORTHERN
EUROPE
SUB-
SAHARANA
FRICA
Chinese 0.711681 0.000923 1.00E-05 0.000101 0.003396 0.00028 0.283589 1.00E-05 1.00E-05
Russian 0.068867 0.265222 0.001241 0.224659 0.035011 0.008622 0.031844 0.363107 0.001419
Tatar 0.15794 0.209897 1.00E-05 0.210957 0.011902 0.002605 0.005703 0.400975 1.00E-05
49
50. DEALING WITH INDIVIDUALS OF UNKNOWN
ORIGIN
NORTH EAST
ASIA
MEDI-
TERRANIA
SOUTH
AFRICA
SOUTH
WEST
ASIA
NATIVE
AMERICA OCEANIA
SOUTH
EAST
ASIA
NORTHERN
EUROPE
SUB-
SAHARANAF
RICA
Unknown 0.711681 0.000923 1.00E-05 0.000101 0.003396 0.00028 0.283589 1.00E-05 1.00E-05
• Find distances between the Unknown vector and all
reference vectors
• Sort reference populations by distance from
smallest to largest
50
52. UNKNOWN SAMPLES
𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑝𝑟𝑒𝑑 = 𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑏𝑒𝑠𝑡 + 𝛾
𝑚=2
𝑀
𝑤 𝑚 (𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑚 − 𝑃𝑜𝑠𝑖𝑡𝑖𝑜𝑛 𝑏𝑒𝑠𝑡)
WHERE WM =
ΔGEN
MIN
ΔGEN(M)
, AND Γ IS THE SCALING COEFFICIENT
52
53.
54. ACCURACY OF THE GPS ALGORITHM
LEAVE-ONE-OUT APPROACH
GPS1 MAPS 80% OF THE INDIVIDUALS TO THEIR COUNTRIES OF
ORIGIN, AND 60% OF ALL INDIVIDUALS TO THEIR EXACT INNER-
COUNTRY REGION. THE ASSIGNMENT ACCURACY WAS LARGELY
AFFECTED (R=–0.45) BY THE GENETIC DIVERSITY OF THE
REFERENCE POPULATIONS AS ESTIMATED BY THE STANDARD
DEVIATION OF THEIR ADMIXTURE PROPORTIONS.
54
55. GPS1 accurately assigned:
• ~100% of all individuals to their continental
regions
• 80% of all individuals to their country of origin
• 60% of all individuals to their inner-country
region
55
56. APPLICATION OF GPS TO ADNA (BRONZE
AGE)
30 OUT OF 100 BRONZE
AGE SAMPLES (ALLENTOFT
ET AL 2015) HAD OVER 500
OF ANCESTRY INFORMATIVE
MARKERS.
WE APPLIED GPS
ALGORITHM TO FIND THE
CLOSEST MODERN
POPULATION.
57. КЛИНИЧЕСКАЯ/ФЕНОТИПИЧЕСКАЯ
ЗНАЧИМОСТЬ МУТАЦИЙ
• КАК ДЕЛАЮТ СЕЙЧАС (НАПРИМЕР, 23 АНД МЕ) – У ВАС ЕСТЬ МУТАЦИЯ В
RS262555, ЗНАЧИТ ВЫ ЛЮБИТЕ КОФЕ
• БУДЕТ ЛИ ЭТО РАБОТАТЬ В АНАЛИЗЕ СТАРЫХ ГЕНОМОВ?
• КАК МОДИФИЦИРОВАТЬ ПОДХОД?
58. PHENOTYPE PREDICTION FROM ADNA
• PROBLEM: COVERAGE IS LOW, AND RELIABILITY OF EACH
INDIVIDUAL SNP IS MEAGER
• SOLUTION: CONSIDER POPULATION, GROUP SNPS BY DISEASES
AND RANK DISEASES BY THE NUMBER OF SNPS
Phenotype
Links can be taken from HGMD or ClinVar databases
Проект Тимофея
Проданова и
Антона Афанасьева
59. CONDITIONS WITH THE HIGHEST/LOWEST
NUMBER OF SNPS IN BRONZE AGE EUROPE
• ADENOMATOUS POLYPOSIS COLI
• LIVER GLYCOGENOSIS
• MUIR-TORRE SYNDROME
• HAEMOGLOBIN VARIANT
• CONGENITAL DISORDER OF GLYCOSYLATION 1A
• THALASSAEMIA ALPHA
• VON WILLEBRAND DISEASE 2A
• DIABETES, PERMANENT NEONATAL
• SHORT STATURE
• DIABETES, NEONATAL
60. СТАТИСТИКА F3
• ПОПУЛЯЦИИ X, Y И Z МОГУТ ОБРАЗОВЫВАТЬ КАК
ПРОСТОЕ ДЕРЕВО (СЛЕВА), ТАК И УКАЗЫВАТЬ НА
СМЕШЕНИЕ Y1 И Y2 ДЛЯ ПОЛУЧЕНИЯ X (СПРАВА)
• F3(Z;X,Y)>0 ЕСЛИ X,Y И Z ОБРАЗУЮТ ПРОСТОЕ
ДЕРЕВО И <0 В СЛУЧАЕ СМЕШЕНИЯ
• ЕСЛИ Z,X И Y ОБРАЗУЮТ ПРОСТОЕ ДЕРЕВО, ТО
F3(Z;X,Y) ПРОПОРЦИОНАЛЬНА ДИСПЕРСИИ
ЧАСТОТЫ АЛЛЕЛЯ ПОСЛЕ ОТВЕТВЛЕНИЯ
Детали в статье https://genetics.med.harvard.edu/reich/Reich_Lab/Welcome_files/2012_Patterson_AncientAdmixture_Genetics.pdf
61. EXAMPLES OF F3 ANALYSIS WITH ANCIENT
POPULATIONS
KOSTENKI MALTA
62. EUROPEAN HUNTER-
GATHERER
• YAMNAYA ANCESTRY PRESENT IN
CHUVASH AND KAREL AT LEVELS
COMPARABLE TO CENTRAL EUROPE, BUT
OTHER POPULATIONS LESS
• HIGHER PROPORTION OF EASTERN
HUNTER GATHERERS THAN WESTERN OR
SWEDISH
• LOW HUNTER GATHERER ANCESTRY IN
CAUCASUS, KIRGIZ AND UZBEK, HIGH IN
CHUVASH.
• KOSTENKI ANCESTRY PRESENT IN WEST
EURASIANS BUT NOT IN EAST
• MALTA ANCESTRY HIGH IN KHANTY AND
KET
• STEPPE ANCESTRY (AFANASIEVO,
ANDRONOVO, SRUBNAYA) PRESENT IN
WEST EURASIANS AND TO LESSER EXTENT
IN CAUCASUS, BUT NOT IN EAST.
63. ВЫВОДЫ
• ДРЕВНИЕ ДНК – САМОЕ СОВРЕМЕННОЕ НАПРАВЛЕНИЕ
• ПРОСТОР ДЛЯ БИОИНФОРМАТИКОВ
• НУЖНЫ НОВЫЕ АЛГОРИТМЫ ИЛИ АДАПТАЦИЯ СТАРЫХ
64. НАД ТЕКСТОМ РАБОТАЛИ
• IRINA MOROZOVA (ИОГЕН, УНИВЕРСИТЕТ ЦЮРИХА)
• PAVEL FLEGONTOV (УНИВЕРСИТЕТ ОСТРАВЫ, ИППИ)
• ALEXANDER MIKHEYEV (ОКИНАВСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ)
• VLADIMIR KLYUCHNIKOV (ДОНСКАЯ АРХЕОЛОГИЯ)
• HOSSEINALI ASGHARIAN, PETR PONOMARENKO (USC)
• GANESHPRASAD ARUNKUMAR (SASTRA, INDIA)
• SERGEY BRUSKIN (ИОГЕН)
• EGOR PROKHORTCHOUK (БИОИНЖЕНЕРИЯ)
• YURIY GANKIN (ПРОСАПИЯ ГЕНЕТИКС)
• EVGENY ROGAEV (ИОГЕН)
• YURI NIKOLSKY (ФОНД СКОЛКОВО)
• ANCHA BARANOVA (GMU)
• ERAN ELHAIK (SHEFFIELD)