 15(S):13-46
ª      现代人类学通讯                第三卷       2009 年    Communication on Contemporary Anthropology
                                                                                                    COM. on C. A. 3:e3, 2009
                                                                                               Vol. 3              研究报告




东亚人群线粒体 N 系单倍群的迁徙分化
陈致勇
中国恐龙网论坛, 上海 200085

摘要:线粒体 N 系单倍群是东亚人母系线粒体遗传 M、N 和 R 三大系统之一。本文在汇总大量亚洲东部族群线
粒体 N 系单倍群序列和数据的基础上,通过重建系统发生学关系,明确了东亚人的 N 世系(A、N9a、Y、N9b
等)直接源自北部湾地区,应为东南亚起源而非中亚起源。年代测算表明 N 系单倍群很可能在 5.0 万年前已到
达东南亚地区,在东亚大陆大规模扩张的时间大致始于 2.5-2.0 万年前。地理分析显示,华中地区是 N 系下
游单倍群 A、N9a 和 Y 扩散分化和集中分布的主要地区,暗示 N 系单倍群可能与苗瑶族系,特别是与古代的苗
蛮民族有着密切的联系。因而可将 N 系单倍群所属的史前族群视为“原始苗人”。但进一步的分析显示 N 系单
倍群的成分不仅存在于湖南苗族的母系遗传中,也大量流入了周边汉族和其他少数民族群体中。表明在母系
遗传上湖南苗族不是史前“原始苗人”的唯一直系后裔,而只是分享其母系遗传的众多后继者之一。
关键词:线粒体;N 系;单倍群;东亚;北部湾;迁徙;苗瑶

Migration and Diversification of Mitochondrial Haplogroup N
in East Asians
CHEN Zhiyong
China Dinasour Forum, Shanghai 200085 China

Abstract:Mitochondrial superhaplogroup N is one of the three dominant haplogroups M, N and R in the East Asians.
Here published sequences and data of haplogroup N in East Asia were collected and the phylogenesis was
reconstructured. The origin of the N lineage of East Asians (A, N9a, Y, N9b, etc.) was found to be beside Tonkin Bay,
not in Central Asia but in Southeast Asia. Time estimates suggested that superhaplogroup N most probably arrived in
Southeast Asia 50 thousand years ago, and started to expand in mainland of East Asia around 25-20 thousand years
ago. Geographic analyses showed that middle China was the diffusion center of the downstream haplogroups A, N9a,
and Y, indicating haplogroup N might be associated to Hmong-Mien, especially to the ancient “Miao Man”.
Therefore, the ancient population with the haplogroup N might be defined as “proto-Hmong”. Further analyses
showed that haplogroup N distributes not only in Hmong from Hunan but also in the neighboring Han Chinese and
other minorities. Present Hmong is not the only descendant of “proto-Hmong” but one of those descendant sharing
haplogroup N.
Key words: Mitochondria; Haplogroup N; East Asia; Tonkin Bay; Migration; Hmong-Mien


                                                                   系统性的分析。结果显示东亚线粒体 N 世系
前言                                                                 同样属于南方起源,东亚人的祖先主要由南
    笔者早先在研究东亚母系线粒体遗传                                               方(南亚和东亚南部)沿海路线迁徙而来。
地理分布时,    发现线粒体 M 系和 R 系的早期                                           此外,由于在不同族群融合时经常出现
类型都明确地显示出在中国南方集中分布的                                                性别偏向性,史前族群的大部分父系遗传结
迹象,表明均属于南方起源,与一些文献的                                                构经常被晚近时期强势民族的父系标记所掩
研究结果基本吻合[1,2]。但是对 N 系单倍群                                           盖。而母系遗传结构则忠实地记录了历史上
(A、N9a 和 Y 等)早期类型单倍群地理分布的                                          不同的移民层次,对于追寻远古族群的迁徙
研究却没能为追溯起源提供更多的线索,现                                                历史来说是非常理想和有效的工具。因此充
有文献对此也是语焉不详。笔者认为其中主                                                分、准确地解读东亚人母系线粒体遗传所携
要的问题在于对线粒体单倍群细分不够和研                                                带的丰富信息,将有助于我们最终破解东亚
究深入程度不够。因此广泛搜集亚洲东部 N                                               民族远古起源之谜。
系单倍群的序列和样本对其进行最为完整和

收稿日期:2009 年 3 月 8 日           修回日期:2009 年 4 月 21 日 联系人:陈致勇 nickchen1@vip.sina.com
2009 年 4 月 22 日        http://COMonCA.org.cn/Abs/2009/003.htm   13                  ©上海人类学学会 Shanghai Society of Anthropology
REPORT                                                                         COM. on C. A. 3:e3, 2009


                                                             共计 1173 条。其中 N*序列 41 条, 序列 552
                                                                                    A
材料与方法                                                        条,N9a 序列 296 条,Y 序列 199 条,N9b
样本的搜集                                                        序列 41 条,N21 序列 36 条,N22 序列 8 条。
    本次研究的序列和数据主要来自以往                                            另外,许多带有 16189 位点突变的序列
文献及 GenBank 数据库,来源详见附件。鉴                                     也极易在高变 1 区 16181-16193 片段上发生
于 N 系单倍群的起源地很可能在境外,而且                                        更多的关联突变。考虑到对分型价值不大,
分布范围远及东南亚岛屿、印度东北部、北                                          在主要分析中对上述片段中的插入、删除以
亚、北极等广大地区,因此本次研究在亚洲                                          及突变为 C 的颠换等非特征变异均予以排
东部范围内全面搜集蒙古人种各群体 N 系单                                        除。
倍群的高变 1 区序列和全序列数据,以及可
转化为序列的高变 1 区突变数据,用于分布                                        主要分析方法
频率分析。图 1 显示了本文主要数据采样点                                        1.全序列分析
的分布情况。                                                             对于线粒体 DNA 研究来说,最准确和
                                                             最有效的方法就是进行全序列的比对分析。
                                                             不过由于测试费用太高等原因,现在公开发
                                                             表的国内和东南亚的 mtDNA 全序列还很少。
                                                             所以目前主要还是采取高变 1 区分析为主、
                                                             全序列分析为辅的方式。
                                                             2.高变 1 区中接网络分析
                                                                   本次研究综合了多种分析方法。首先,
                                                             在参考有关文献根据 mtDNA 全序列研究所
                                                             得到的系统发生树的前提下,使用 Network
                                                             4.5.0.0 系统发生学软件构建线粒体高变 1 区
                                                             中接网络(Median-joining Network),Network
                                                             软件可以从纷繁复杂的序列数据中归纳出线
                                                             粒体单倍群的分化结构,并提供高频突变位
图 1. 本文数据主要采样点的位置分布图                                         点的信息。
Fig.1 Distribution of the population samples analyzed        3.单倍群发生频率的地理分布分析
in this paper.
                                                                   在充分分析中接网络和分类数据的基
数据预处理                                                        础上,再使用 Sufer 8.0 三维成像软件分别将
    首先从样本或可转换数据中筛选出包                                         研究对象的分型数据,包括主要分支、原始
含比较完整的高变 1 区特征突变的数据,用                                        类型和未定义类型的发生频率数据绘制成直
于分布频率和变异频率分析。对错误的数据                                          观的地理分布图。其中原始型和未定义类型
能采取两种处理方式:对于错误分型或未细                                          的频率分布图可以为我们提供此单倍群早期
分但特征突变特别清楚的数据进行重新分                                           分化和晚期扩散的重要信息。
型;对于突变数据明显有误且特征突变不清                                                本文所说的某线粒体单倍群的原始型,
晰 的 直 接 剔 除 。 而 后 使 用 CLC Free                               就是在高变 1 区特征上与系统发生树推导出
Workbench 4.5.1 生物信息软件将其中完整或                                 的单倍群祖型完全一致的单倍型。而未定义
基本完整的数据统一处理为 16024-16383 位                                   类型指的是在该单倍群的高变 1 区数据中剔
点、长度为 360bp 片段,用于高变 1 区中接                                    除原始型及其主要分支后余下的单倍型。
网络分析。对于没有分型的高变 1 区序列,                                        4.扩散效应分析
根据可靠的低突变位点或者联合多个位点特                                                在分析过程中笔者发现:由于人口数量
征进行最终确认,不能确认的予以排除。最                                          较少史前人类经常是整个族群一起迁移,沿
后选用的 N 系单倍群高变 1 区序列(或数据)                                     途通常只留下少量且不连续的痕迹;或者早



                                                        14
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                 研究报告


期迁徙事件遗留下来的少量痕迹可能受到后               显然,出现上述第一种情况的区域是早
期其他迁徙事件的冲刷和扭曲,这些都使我             期扩散中心的可能性很大。即使分布频率只
们难以对早期分化迁徙过程作出准确的判              留下很少的遗迹,我们仍然可以通过高变异
断。现有的分子人类学分析方法无法有效地             频率找到远古人群扩散的重要线索。
解决这个难题。为此笔者尝试使用一种新的
分析方法——扩散效应分析。原理在于不同             未定义单倍群的命名
的扩散模式会在地理分布和遗传分布上出现               在下面的分析中,为了避免在命名编号
不同的特征,我们可以综合这两方面的信息             的问题上与其他文献发生冲突,笔者对于已
推断出扩散模式、起始地点、迁移路线等重             有定义的亚单倍群将遵从最权威的命名,而
要结果。                            对未定名的亚单倍群只标注高变 1 区特征位
   这种分析需要一个新的指标来度量和             点,这样直观易懂而且不会引起歧义。
分析族群内部变异的积累程度,    可称之为“群
体内部变异频率”  。计算方法为:首先在作为
研究对象的某个单倍群高变 1 区数据中去除
                                结果和分析
原始型和所有或大或小的分支,筛选出无法             1.线粒体 N 单倍群
细分的样本,这些样本可以为我们提供各群                N 系单倍群在亚洲东部广大地区都有分
体内部遗传分化的信息。然后,统计出每个             布,在已定义分支中:A 和 N9a 主要分布在
采样群体中无法细分样本的特异突变位点的             东亚和北亚地区,N21 和 N22 分布在东南亚
总数(注意在相同位点上同时出现转换和颠             地区[3-5],N9b 分布在东北亚和西伯利亚远
换可计数 2 次) 用这个突变位点数除以该群
         。                      东滨海地区[6,7],而 Y 在东南亚、东亚和东
体的样本总数,就得到群体内部变异频率。             北亚地区都能找到。
   接下来将使用 Sufer 软件绘出群体内部           与上述已定义的下游单倍群不同的是,
分化度的地理分布图。对比某一单倍群分布             N 未定义类型的分布极为有限。在笔者所搜
频率和内部变异频率的地理分布图,会发现             集到的全部序列和数据中:N*集中分布于北
主要有三种情况出现:                      部湾地区,包括越南北部、中国广西自治区
  (1)某一区域内单倍群发生频率和变异频           和海南;也分布在中国南方地区和东南亚部
率都比较高。这通常是群体大规模扩散的迹             分地区;低频出现在中国北方少数地区。但
象。大规模扩散是一个长期的过程,人口大             在境外的北亚、中亚和北极地区一例都没有
量增殖带来遗传突变几率的增加,在较长的             发现。
时间跨度内群体内部必然有大量新的变异型
出现。                             1.1. N 单倍群高变 1 区中接网络
  (2)某一区域内的变异频率较高,而单倍                图 2 就是根据亚洲东部线粒体 N 系单倍
群发生频率不高。这可能是小群体迁徙的迹             群数据绘制的高变 1 区中接网络。笔者参考
象。在遗传漂变的作用下,新的变异类型有             以往文献中的系统发生树去除了其中冗余的
时会偶然获得在迁徙群体内部扩大其比例的             连线[2,8],排除了一些可能由高突变位点所
机会,迁徙距离越长则群体内部积累的变异             形成的网状拓扑结构。另外,笔者在数据中
越多。又称为瓶颈效应或奠基者效应。               发现 2 个可能属于西部欧亚 N 世系 N1c 和 W
  (3)某一区域内单倍群发生频率较高,而           的陕西样本 SHANNXI11、 SHANNXI13(陕西
变异频率不高。有可能是族群整体迁徙,群             标准拼写应为 Shaanxi,原文有误),也予以
体内部新产生的变异很难获得扩大比例的机             排除[9]。网络中还加入了 N 系在东亚的主要
会,导致变异频率没有显著增加。或者是晚             分支 A 和 N9a 的原始型样本,以便更清楚地
近时期环境和生存条件改善而导致短期内人             展现亚洲东部 N 系单倍群的全貌。不过笔者
口大量增长,但是由于某种原因只持续了较             没有在数据中找到真正的 Y 原始型,而 N9b
短的时间并未大规模扩散。                    原始型的高变 1 区特征太少,    极易与其他 N*



                           15
REPORT                                                                       COM. on C. A. 3:e3, 2009


混淆,所以 Y 和 N9b 的原始型都没有加入。                                  切来源,不过从北亚和北极地区未发现独立
    从 N 单倍群中接网络可以发现一些东亚                                   发展的 N*世系看,他们仍很可能属南方起
N 世系从南方起源的迹象:                                             源。
   (1)整个网络呈现“空心化”的结构。中                                        从网络中还可以看到,N 在东亚的主要
心节点特别小,   是由 1 个广东潮阳样本 STC8                               支系 A、N9a 主要分布在东亚大陆和北部湾
和 1 个印度尼西亚样本 PAD09 组成[4,10]。                              周边地区,     只有少数支系分布在东南亚地区。
由于笔者在构建网络时删除了一些高突变的                                           A*:直接与起始节点相连,另有一个与
位点,所以上述样本并不是 N*的原始类型,                                     之相连的海南疍家样本 DG12[11],这个样本
而是分别带有 16189 或 16311 位点突变的最                               有 16290 突变而缺少 16319 突变,因此难以
接近根部的类型。事实上真正的无高变区特                                       判断它是否属于未细分的带有 16319 回复突
征的 N*原始型在样本中没有找到。                                         变的 A 个体。
                                                              N9a* : 它 通 过 一 个 越 南 北 部 人 样 本
                                                          VN302 与起始节点相连。下文中的全序列分
                                                          析确定了 VN302 是个罕见的 Pre-N9a 个体,
                                                          笔者判断 N9a 是北部湾一带起源的单倍群。
                                                              N 在东南亚地区也分布着几个支系,其
                                                          中 N21、N22 和 N-16263,16274,16343,16357
                                                          很 可 能 是 东 南 亚 本 地 起 源 , 而 N-16111,
                                                          16172,16189,16362 似乎是北部湾地区起源。
                                                              N21:其高变 1 区特征是 16193 转换变
                                                          异。它是 N 在东南亚地区最大的分支,主要
                                                          分布在马来西亚、印尼、泰国部分地区,在
                                                          中国云南汉族中也发现一例 YUNNAN37[9]。
                                                          从高变 1 区特征看 2 个印尼人样本 PAL06、
                                                          BAL40 属于 N21 原始型[3,4]。N21 在马来半
图 2. 根据高变 1 区数据绘制的 N 单倍群简化中接网                             岛产生了一个人数众多的分支 N21-16223,
络 节点分色示意:红色—北部湾地区,绿色—中国                                   带有高变 1 区谱序 16193-16223- 16291。   泰国
南方,橙色—中国北方,蓝色—东南亚地区。
Fig.2     A simplified Median-joining Network of          和云南汉族的 N21 样本则属于带有 16182 转
haplogroup N based on mitochondrial HVS-1 Keys for        换变异的另一支系 N21-16182。
the colors: Red for the Tonkin Bay area, Green for
South China, Orange for North China, and Blue for
                                                              N22:这是个很小的单倍群,样本中包
Southeast Asia.                                           括 4 例马来土著人和 4 例印尼松巴岛人。其
                                                          中 2 个马来土著样本属于 N22 原始型。
   (2)在北部湾地区的 N*样本中,有一些与
                                                              N-16263,16274,16343,16357:图中标注
东南亚样本共享同一分支,也有与华南样本
                                                          为 N-16263,16274。这个未定义单倍群包括 7
的共存的情况出现。后面的进一步分析显示
                                                                         4
                                                          个印尼爪哇人、 个印尼邦加岛(Bangka)人和
北部湾的 N*更多地流向了东亚南部而不是
                                                          1 个泰国人 C075 样本。其中 1 个爪哇人和 4
东南亚地区。
                                                          个邦加岛人属于原始型。
   (3)数据中没有发现来自境外北亚和北极
                                                              N-16111,16172,16189,16362 :图中标注
地区的 N*样本。 在排除了可能源自西部欧亚
                                                          为 N-16111,16172。  这是个很小的未定义单倍
的 N 世系的样本后, 中国北方(也包括北方少
                                                          群,样本中包括 1 个广西拉珈人 MI459、1
数民族)的 N*样本共 5 例,比中国南方和北
                                                          个新疆乌兹别克人 Uzb26、1 个马来人和 4
部湾地区的样本少得多。在这 5 例样本中,
                                                          个印尼人[12,13]。其中只有拉珈人 MI459 属
有 2 个通过中国南方、北部湾或者东南亚的
                                                          于该单倍群的原始型,而 5 个东南亚的样本
节点与根部相连,可能是南方起源。只有 3
                                                          都属于带有 16311 转换突变的分支。因而此
个北方样本直接与根部相连,无法确定其确


                                                     16
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                研究报告


单倍群的起源地很可能在北部湾周边一带。                                       和澳洲 N 世系系统发生树的全面比对,没有
                                                          发现 VN9B 与以上世系共祖的迹象。有趣的
1.2. N*及 N9a 全序列分析                                        是,笔者发现 VN9B、西部欧亚的 W,以及
     在搜集到的亚洲东部地区 mtDNA 全序                                 澳洲土著 N12 的一个分支类型都带有编码区
列中,以日本的数据最多,而在 N*集中的东                                     5460 位点转换,不过从系统发生树看显然属
亚南部和中南半岛北部,全序列显得尤为稀                                       于发展中各自独立发生的并行突变[1,14]。
少和珍贵。笔者很幸运地在 GenBank 数据库                                      VN302(DQ834255):起初未发现此样本
中找到了越南科学技术学院用于病理研究的                                       具备 N9*的 5417 特征突变,笔者将其归为
10 个越南北部人全序列,分型结果显示其中                                     N*的未定义类型。但是进一步的比对发现它
存在许多古老类型。其中属于 N 系单倍群的                                     带有 N9a 的部分特征突变,        包括 150、12358、
样本有 3 个:  他们分属于 N*、 和 pre-N9a。
                   N9a                                    12372 和 16261 转换突变。从 Tanaka 等 2004
                                                          年论文中 N 的系统树看[6],       5417 是个高突变
                                                          率的编码区位点,       基本可以确定 VN302 属于
                                                          发生 5417 回复突变的 pre-N9a。笔者也考虑
                                                          过它是否可能属于发生了一系列回复突变的
                                                          N9a 个体,  不过 5231 属于突变率很低的位点,
                                                          而且 16257A 颠换再次发生回复的概率极小,
                                                          所以基本上可以排除这种可能性。
                                                              VN79 (DQ834258):此序列具备 N9a 的
                                                          所有特征。     除了 16261 和 16257A 突变外,  未
                                                          见其他高变 1 区位点突变,应该是较早的分
                                                          化类型。
                                                              需要指出的是:笔者发现上述 3 个越南
                                                          北部人全序列都存在编码区 14766 转换,还
                                                          有 VN302 和 VN79 样本在编码区上也存在相
                                                          同的 4856 转换。   从以往文献中 N 的系统发生
                                                          树看,14766、4856 位点不可能是 N 或 N9
                                                          下游分支的特征突变[2,8]。还有,在 VN9B
                                                          和 VN302 序列中存在一些很少见的突变为 G
                                                          的颠换。笔者认为这些奇怪的突变可能都是
                                                          测序错误造成的[15]。
                                                              图 3 是在参考有关文献系统树资料基础
                                                          上,按最可能的情形绘出的系统发生树。其
                                                          中还加入了那乃人 Nanai157(EU007856)和广
                                                          东湛江 GD7834 作为参考样本,以生成较完
                                                          整的分化树形[16,17]。尽管存在测序错误的
                                                          可能性,越南北部人全序列还是比较清晰地
                                                          展现了 N9a 的早期分化过程。从全序列分析
图 3. 根据越南北部人全序列绘制的 N*和 N9 系统发
生树 去除了与 MELAS 症有关的 3243A→G 突变和                            我们可以得出一个重要结论:越南北部存在
一些有疑问的突变。                                                 独立发展的 N*世系,      并且很可能是 N9 和 N9a
Fig.3 Phylogenesis of N* and N9 according to the
whole genome sequence of north Vietnamese samples.        的起源地。
The MELAS associated 3243A→G and some doubted
mutations were excluded.
                                                          1.3. N 未定义类型的地理分布
  VN9B(DQ826448):属于一个 MELAS 综
合症患者的 N*个体。经过与西部欧亚、印度


                                                     17
REPORT                                                                        COM. on C. A. 3:e3, 2009


                                                             话 个 体 PH126 和 2 个 湘 西 土 家 族 个 体
                                                             TUJIA0142、TUJIA0151[12,18]。
                                                                 N-16172,16291A,16298:此分支由江苏
                                                             人 JIANGSU16、上海人 SHANGHAI11 和福
                                                             建惠安人 STF4 共 3 个样本组成,       其中江苏和
                                                             上海样本还共享 16069 位点突变[9,10]。似乎
                                                             表明华东地区是 N-16172,16291A,16298 迁徙
                                                             的终点。
                                                                 图 5 是根据序列分析结果绘制的北部湾
                                                             地区 N*世系的扩散图。        可以看出:   N*扩散的
                                                             主要方向是向北进入东亚大陆而不是向南进
图 4. N 未定义类型发生频率地理分布图
Fig. 4 The frequency distributions of unclassified N*        入东南亚地区,而且主要分布于华南地区、
                                                             华中地区以及东部沿海部分地区。
    N 未定义类型集中分布在北部湾周边地
区(图 4)[11]。发生频率最高的族群是越南北                                     2. 线粒体 A 单倍群
部人 10.0%,广东潮阳人 5.3%。其次是广西                                        线粒体 A 单倍群是东亚 N 系单倍群中最
防城港高栏人 3.3%,  海南杞黎 2.9%、海南疍                                  大的分支。广泛分布在东亚、东北亚、北亚、
家 2.5%。N*在华中、华东、西北地区的部分                                      北极地区,A 的一些支系如也伴随着一些北
汉族群体中,以及内蒙鄂伦春族中都有少量                                          亚和乌拉尔族群的西迁一直分布到中亚、东
分布,发生频率在 1.0%-2.4%之间。此外在                                     欧和北欧部分地区。A2 在大约 1.4 万年前经
印尼巴东人(Padang)和马来西亚哥打基纳                                       北极白令海地区迁入美洲。A 在东南亚地区
巴卢人中也各发现 1 例。                                                的分布极为有限,除了泰国有一定比例的分
                                                             布外,也低频出现在印度东北部南亚语部族
                                                             中和马来人(Melayu)[4],但在东南亚岛屿和
                                                             台湾原住民族中均没有发现。笔者认为 A 单
                                                             倍群之所以在东南亚分布稀少,是因为在扩
                                                             张时受到其他单倍群的竞争,比如同属 N 系
                                                             分支而且早期扩散地点更靠南的 N9a 单倍
                                                             群。

                                                             2.1. A 单倍群高变 1 区中接网络
                                                                   图 6 是依据 A 单倍群高变 1 区数据绘制
                                                             的简化中接网络。为方便观察 A 网络的基本
                                                             架构,合并了一些细小的末端分支。图中以
图 5. 推测为北部湾起源的线粒体 N*单倍群支系扩
                                                             黑色标识的就是 A*网络的起始节点,        可以看
散示意图 椭圆形代表主要的扩散中心,下同。
Fig.5 Conjectural origin of mitochondrial haplogroup         到 A*产生了两个巨大的分支:       一支是主要在
N* beside Tonkin Bay and its diffusion. The ellipse          东亚大陆发展的 A4,      另一支是主要分布于中
stands for the origin area in this and the following
maps.                                                        国东南沿海、日本和韩国的 A5*。处于 A*左
                                                             上方的大节点就是 A4*,      它与 A*祖型只差一
   由于 N*记录了早期人类迁徙的宝贵信                                        步 16362 突变,但却产生出一个巨大的星形
息,笔者参照中接网络分析结果对 N*继续作                                        结构,表明在相对晚近时期曾发生过剧烈的
全面的细分,得到更多未定义的细小分支。                                          分化扩散。A*右上方稍小的节点是 A5a,以
   N-16381:这是个由低突变率 16381 位点                                 及它姊妹支系 A5b 和 A5c。鉴于 A 系单倍群
转换所确定的小分支,包括 1 个广西贺州平                                        的完整网络过于复杂,下面我们将把它拆分



                                                        18
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                             研究报告


成 A*(A5)和 A4 两部分来研究。                                     特征,无法确定其中是否存在个别 A5*早期
                                                         类型。
                                                           此外,在网络中还可以看到 A8 和其他
                                                         未命名的小分支,这些分支的数据携带着 A*
                                                         迁徙分化的重要信息。

                                                         2.3. A5 分支的地理分布
                                                              A5a:A5a 样本中绝大部分来自日本和朝
                                                         鲜半岛,以 16187 转换突变为特征。据本次
                                                         研究统计,内蒙古阿荣旗朝鲜族(近代北朝鲜
                                                         移民)最高发,48 个样本中就发现 4 例,发生
                                                         频 率 高 达 8.3% 。 以 下 依 次 为 日 本 中 部 人
                                                         6.1%, 日本南部宫崎县人 3.5%,    韩国人 3.3%。
                                                         但在阿伊努人中没有发现 A5a。
图 6. 线粒体 A 单倍群高变 1 区简化中接网络
Fig.6 A simplified Median-joining network of                  东亚大陆上的 A5a 样本极为罕见。笔者
mitochondrial haplogroup A based of HVS-1 motif          发现河南安阳人 STE36 带有 16187 特征突
                                                         变,  可能是 A5a 个体[10]。 还有孔庆鹏等 2006
                                                         年论文附件显示云南昆明人 YC29 属于 A5a,
2.2. A*和 A5 高变 1 区中接网络                                   从编码区特征看应为早期分支[8]。         有趣的是,
     在参考以往文献中系统发生树的基础                                    笔者发现河南 STE36 和韩国 Kor68 都发生了
上,笔者去除 A*和 A5 中接网络中一些高突                                  16223 回复突变,而云南 YC29 和韩国 K216
变率的位点数据(16189、16311 等)和冗余连                               共享 16270 突变[19]。这暗示 A5a 的起源地
线,得到了比较完整、清晰的高变 1 区中接                                    很可能是在中国境内,而不是日本和韩国。
网络图(图 7)。                                                     A5b:A5b 的高变 1 区特征是 16126 和
                                                         16235 位点转换。从高变 1 区数据看 A5b 似
                                                         乎存在两个主要分支。一个是 A5b 的早期类
                                                         型,最高发的是福建惠安人,发生频率为
                                                         2.7%,海南疍家 2.5%,其次是日本鸟取县人
                                                         2.1%和上海人 1.8%。另一个是 A5b-16234,
                                                         最高发的是广东南澳岛居民 3.6%,其次是湘
                                                         西土家族 3.1%、    福建莆田人 3.0%。  此外在新
                                                         疆回族、辽宁大连人、湘西苗族和韩国人中
                                                         也有发现(图 8)。
                                                              A5c:这是个很罕见的 A5 下游分支,高
图 7. 线粒体 A*和 A5 单倍群高变 1 区中接网络
Fig.7   A Median-joining network of mitochondrial
                                                         变 1 区特征为 16129 和 16213 转换。仅分布
haplogroup A* and A5 based on HVS-1 motif                在日本人、韩国人、琉球人、新巴尔虎旗蒙
                                                         古族,以及南西伯利亚的布里亚特人和汗尼
     可以看到,网络中的 A5 主要分为三个
                                                         干人(Khamnigan)中(图 8)。在安徽汉族中也
分支 A5a、A5b 和 A5c。在对日本的 mtDNA
                                                         发现 1 例 ANHUI19[9]。
全序列进行充分研究后,笔者发现其中 A5
样本都可以归结为上述三个亚单倍群,没有
A5*早期类型出现。   但对于来自亚洲其他地区
                                                         2.4. A*分支的地理分布
仅见高变 1 区数据的 A*样本来说, A5*祖
                      因
                                                              A-16234,16293C:这是以往文献中未见
型的形成只经过两步编码区突变(8563 和
                                                         命名的亚单倍群,由于它集中分布在云贵高
11536 转换),而没有出现可识别的高变 1 区


                                                    19
REPORT                                                                      COM. on C. A. 3:e3, 2009




图 8. 线粒体 A*和 A5 系单倍群发生频率地理分布图
Fig.8 Distributions of the mitochondrial haplogroups A* and A5 subgroups.

原的藏彝系民族中,因此可以确定是有着共                                          母系遗传中,而后再随着彝族迁徙再进入周
同起源的亚单倍群。其中云南西双版纳彝族                                          边族群的母系成分中的。
和贵州赫章县彝族最高发,       比例分别为 12.5%                                   A8:A8 的定义引自俄罗斯学者 Derenko
和 10%。在云南藏族、白族、普米族、纳西                                        等 2007 年论文[20]。文中以 2 个北亚全序列
族 以 及 西 藏藏族 中 的发生 频 率为                                       共享的 64、146、16242 位点突变来定义 A8。
2.2%-4.7%(图 8)。另外,在云南汉族、泰国                                   但是笔者在查找文献后发现, A2 定义中也
                                                                                 在
曼谷人、北疆蒙古族、以及印度东北部南亚                                          有同样的 64 和 146 两个高变 2 区并行突变,
语部族中各发现 1 例。 A-16234,16293C 的
                 从                                           只有高变 1 区 16242 突变频率最低。在
分布特点不难看出:它应该是首先进入彝族                                          Volodko 等 2008 年论文所给出系统树也显示


                                                        20
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                                研究报告


只有 16242 突变是识别此分支的可靠标记                                  化出去,日本、韩国的样本构成另一较长分
[21]。A8 最高发的族群是北西伯利亚的凯特                                 支,  日本 TC48 是由韩国 K245 的单倍型再经
人(Ket),发生频率为 10.0%。其次是堪察加                               146 突变所形成[6,19,22]。这个结果实际上追
半岛伊捷尔缅人(Itelmen)6.5%、托发拉尔人                              溯了日本和韩国的 A7 自中国西南部地区的
(Tofalar)5.2%和日本阿伊努人 2.0%(图 8)。在                        起源。
图瓦人、布里亚特人和韩国人中的发生频率                                          由于对 A*的原始型和未定义类型的频
较低,分别为 1.1%、0.3%、0.3%。从高变 1                             率分布研究没有得到最初起源和分化明确结
区数据分析,只有韩国人和阿伊努人的 A8                                    果,接下来笔者尝试运用扩散效应分析来提
是原始型,      表明 A8 早期分化的地点应该在韩                            取 A*早期分化的信息。
国和日本南部一带。
                                                        2.6. 线粒体 A*单倍群扩散效应分析
2.5. A 的原始型和未定义类型的地理分布
     A 原始型:据本次统计,A 原始型分布
频率最高的族群是广东潮阳人 5.3%,其次是
广西东北部的富川瑶族 3.2%和罗城仫佬族
2.6%,以及湖北汉族 2.4%和内蒙古阿荣旗朝
鲜族 2.1%(图 8)。 原始型在东亚的分布呈分
             A
散的点状,在江苏汉族、呼和浩特蒙古族、
广西拉珈人、泰国曼谷人、本土日本人、韩
国人中都有发现。
     A 未定义类型:A 的未定义类型比 A*原
始型的分布更广。最高发的族群是西藏藏族
8.6%,及广东南澳岛居民 7.1%。其次是上海
汉族 5.4%, 西双版纳白族 5.2%, 湖北武汉人
                                                        图 10. 线粒体 A 单倍群扩散效应分析图 蓝色显示
4.8%,以及内蒙古东部的蒙古族 4.2%。A*
                                                        发生频率分布,红色显示群体内部变异频率分布。
的未定义类型在日本人和韩国人中的频率不                                     Fig.10 Diffusion of the mitochondrial proto-A haplogroup.
高,大约在 0.2%-1.0%之间(图 8)。                                 Blue clines stand for the total frequency, and red clines
                                                        stand for the mutation rate within the population.
    值得注意的是,根据Metspalu等2007年论
文,  我们还在A未定义类型中找到了一个很小                                     图 10 是在 A 单倍群原始型发生频率上
的分支A7[2]。包括韩国、日本、武汉汉族样                                  叠加 A 单倍群群体内部变异频率得到的叠加
本各1例,见图9。                                               分析图。可以看到在中国境内单倍群分布频
                                                        率和内部变异频率重叠高发的区域有两个:
                                                        一是广西东北部地区,据统计这里内部变异
                                                        频率最高的族群是罗城仫佬族 7.4%,临近的
                                                        广东怀集标人更高达 8.8%;二是湖北东部地
                                                        区,武汉人的内部变异频率是 4.8%。 在境外,
图 9. 线粒体 A7 单倍群个体的分化树状图
                                                        日本南部和泰国南部地区也有重叠的次高发
Fig.9    Tree of the mitochondrial haplogroup A7
individuals.                                            区,日本宫崎县人的内部变异频率是 5.6%,
                                                        泰国曼谷人的变异频率是 3.0%,显然都不如
     他们都带有控制区特征谱序 16051—                                广西东北部和广东西部一带的变异频率高。
16129—16189—235。此外,论文附件提及云                              据此我们基本上可将 A 单倍群的最初分化地
南汉族 YN271 只有 16051 转换而未见 16129、                         点锁定在广西东北部一带。
16189 位点变异,可能是更早期的分支。从                                     从图中还可以发现一些有趣的现象。比
重构的网络来看:武汉样本 WH6956 较早分                                 如粤东沿海地区 A 原始型的频率很高,但是


                                                   21
REPORT                                                                               COM. on C. A. 3:e3, 2009


变异频率却不高,笔者起初无法理解,后来                                         析绘制的 A*和 A5 迁徙路线图。从重建的迁
在查阅了一些地理、气候资料时才偶然发现                                         徙路线来看,两者主体迁移路线基本相似,
这与冰期时“台湾浅滩”的存在有关(参见讨                                        很可能是从广西东北部地区开始,一部分进
论章节的内容)。此外,我们还能在云南西双                                        入粤东、闽南一带,另一部分迁移到华中地
版纳看到一个变异频率高发点,统计显示这                                         区而后分散开,再进入华北、日本和韩国。
里白族的内部变异频率高达 7.7%, A 原始
                  而                                         看起来似乎是伴随迁徙的单倍群。唯一的不
型的发生频率并不高, 说明其母系线粒体 A*                                      同点在于:A*的下游分支 A-16234,16293C
成分在历史上可能经历过瓶颈效应或是族群                                         还分布到藏彝系民族、北疆蒙古族和印度南
人口减少的事件,笔者推测这可以与云南复                                         亚语部族中。从年代测定结果来看,有可能
杂多变的地理与气候环境等原因有关。                                           是 较 晚 时 期 与 A4 的 西 迁 的 一 些 分 支 ( 如
                                                            A4-16274、A4-16124)一起分化出去的。
2.7. 推测的 A*和 A5 的迁徙路线
                                                            2.8. A4 的高变 1 区中接网络




图 11. 推测的线粒体 A*单倍群分支迁徙路线示意图
Fig.11 Conjectural migration routes of mitochondrial
haplogroup A*.                                              图 13. 线粒体 A4 单倍群高变 1 区中接网络
                                                            Fig.13 A Median-joining network of mitochondrial
                                                            haplogroup A4 based on HVS-1 motif

                                                                A4 单倍群高变 1 区的网络结构呈现为巨
                                                            大、单核的“太阳”形,这个核心向四周辐
                                                            射出众多大小不一的节点(图 13)。值得注意
                                                            的是,大部分节点与分化核心的突变距离不
                                                            超过两步,而且次级节点的分支较少,表明
                                                            A4 的主体分化应该发生在比较晚近的时期。
                                                                结合一些文献中基于 mtDNA 全序列所
                                                            给出的系统树,我们可以识别出北亚和北极
                                                            地区常见的亚单倍群 A4a、A4b、A2。另外,
                                                            在网络中还有其他几个未定名的亚单倍群。

图 12. 推测的线粒体 A5 单倍群分支迁徙路线示意
                                                            2.9. A4 的主要分支
图 虚线表示中间过程不太确定的路线,下同。
Fig.12 Conjectural migration routes of mitochondrial             A4-16274:A4-16274 是 A4 在中国境内
haplogroup A5. Broken lines stand for the uncertain         最大的支系,      主要集中在云南藏彝系民族中,
routes in this and the following maps.
                                                            其 中 频 率 最 高 的 是 怒 族 30.0% , 傈 僳 族
     图 11 和图 12 就是笔者综合多种数据分                                 16.2%,其次是普米族 8.3%和撒尼人(彝族支



                                                       22
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                     研究报告


系)6.5%。在湘西过山瑶中的频率是 4.2%,                          多出一步 16189 突变。主要发现于俄罗斯远
在云南、青海藏族中的比例为 3.6%-4.0%。                          东地区的埃文基人(5.6%)以及乌拉尔地区的
A4-16274 在华中、华东汉族中低频出现,发                          欧亚混血民族曼西人(3.4%),也低频存在于
生频率从 1.3%至 2.4%不等(图 14)。此外,在                      布里亚特人中(0.3%)。笔者从孔庆鹏等 2003
青海土族、云南傣族、江西汉族、广西平话                               年论文中也找到了与埃文基人、曼西人属于
人、北疆汉族和回族,以及南西伯利亚的图                               同一单倍型的 2 个鄂伦春人 A4b 样本 Oro13
瓦人和汗尼干人中也有发现。                                     和 Oro19[25], 无论从地理还是族源的接近性
     A4-16124:A4-16124 在西部藏彝系民族                   来看他们无疑是 A4b(图 14)。照此计算,鄂
中也比较常见,与 A4-16274 的分布特点非                          伦 春 人 A4b 发 生 频 率 应 为 4.5% 。 根 据
常相似,只是发生频率相对较低。最高发的                               Derenko 等 2007 年论文中的系统树,相距遥
是云南傈僳族,比例为 13.2%,其次是贵州                            远的埃文基人和曼西人 A4b 样本有着很近的
赫章县彝族 5.0%,        湖北汉族 4.0%,    云南撒尼             亲缘的关系,而布里亚特样本 Br442 反而最
人 3.2%,云南藏族 2.9%和西藏藏族 2.9%(图                      早分化出去[20]。     这可能反映了史前乌拉尔语
14)。另外在湘西苗族、云南傣族、云南汉族、                            部落穿越西伯利亚向西长途迁徙的历程。
江苏汉族中各发现 1 例。值得注意的是,大                                 A2: 的高变 1 区特征是 16111 位点转
                                                          A2
部分 A4-16124 样本都属于原始型,            只有湘西             换。在亚洲主要分布在北极白令海地区,是
苗族 MHN33 和西藏藏族 Tibet4651 属于特征                     N 系单倍群中迁徙最远的、唯一进入美洲的
谱 序 为            16093-16124-16290-16293T-        下游支系。根据以往的研究,A2 及其亚洲分
16319-16362 的单倍型[23,24]。     暗示 A4-16124          支 A2a、A2b 主要存在于楚克奇人、爱斯基
是在华中地区形成的,而且向西南地区的迁                               摩人及已消失的尤卡吉尔人的母系遗传中。
徙发生在较为晚近的时期。                                      统计表明 A2a 和 A2b 在楚克奇人中的发生频
     从 总 体 分 布 特 点 看 , A4-16124 和                 率分别为 33.7%和 13.9%,  在爱斯基摩各部落
A4-16274 很象是伴随迁徙的 A4 下游分支。                        中 的 频 率 分 别 为 16.7%-72.0% 和
两者的不同之处在于:A4-16274 的样本比                           18.0%-70.8%不等。   在堪察加半岛北部的科里
A4-16124 样本更多,而且一直向北扩展到南                          雅克人中也发现 1 例 A2b 样本 Krk39[20]。
西伯利亚的一些族群中。                                           A4-16129,16284:分布在几个相距遥远
     A4a:A4a 是 A4 祖型经 16249 位点转换                  的族群中,分别是印度东北部操南亚语的
产生的亚单倍群。主要分布在北亚族群中。                               Bhoi 人 4.9%[26],呼和浩特蒙古族 1.9%,泰
最高发的是青海蒙古族, 15 个样本中发现   在                         国清迈人 1.2%。所有的南亚 Bhoi 样本都属
2 例,发生频率达 13.3%(图 14)。在南西伯利                       于附加 16260 转换突变的同一单倍型,而泰
亚的布里亚特人和阿尔泰人、新疆乌兹别克                               国清迈样本全都共享 16136 转换变异,这似
人、俄罗斯人、日本人(ON125)中也有发现                            乎暗示 A4-16129,16284 在向泰国和印度东北
[6]。此外,笔者还在云南纳西族和江苏汉族                             部经历了显著的瓶颈效应。
中各找到 1 例带有 16249 突变的 A4 样本                            A4-16192:主要分布在内蒙正蓝旗蒙古
NAXI12、   JIANGSU28,   由于 16249 属于突变              族(6.3%),及俄罗斯阿尔泰共和国 Tubalar 人
率很低的位点,可以确认这 2 个样本应该也                             中(11.1%)。笔者以其中一个样本 Tub3 的全
是 A4a[9,18]。此外,Derenko 等 2007 年论文                 序列 EU482374 与系统树中同样具有 16192
中的北亚人 mtDNA 全序列系统树透露了更                            突变的 A2b 单倍群进行比对,结果发现两者
多的信息:布里亚特人和阿尔泰基什人                                 属于不同的 A4 分支[21]。
(Altaians-Kizhi)的 4 个 A4a 样本属于共享编码
区 4928 位点突变的同一支系,被命名为                             2.10. A4 原始型和未定义类型
A4a1;俄罗斯人和日本人的 A4a 个体则属于                               A4 原始型: A4 原始型分布范围很广,
早期分支[20]。                                         并且呈现相当离散的状态,表明早期分化历
     A4b:A4b 是个很小的群体,比 A4 祖型                      史已很久远。     从图 14 中可以看到分布最密集



                                             23
REPORT                                                                   COM. on C. A. 3:e3, 2009




图 14. 线粒体 A4 单倍群发生频率地理分布图
Fig.14 Distributions of the mitochondrial haplogroups A4.

的地区是在中国东南沿海和日本南部一带,                                         4.0%。A4 原始型也见于韩国人中(2.3%),但
这可能就是 A4 第一波扩张所及范围。其他分                                      在日本中部人中没有找到。值得注意的是,
布较多的地区在图中呈现为灰色,这些可能                                         A4 原始型出现在百越起源的上海马桥原住
是伴随 A4 其他分支迁徙的原始型所留下的                                       民中(5.9%),在 51 个阿伊努样本中也发现 1
遗传印迹。据本次研究的结果,A4 原始型最                                       例 A4 原始型。 这暗示 A4 早期扩张主要走沿
高发的是广东潮州人,发生频率为 8.3%。其                                      海路线而且年代十分久远。
次是西双版纳彝族 6.3%、福建莆田人 6.1%、                                       A4 未定义类型: A4 未定义类型主要集
贵州赫章县彝族 5.0%、和日本南部宫崎县人                                      中在内陆地区特别是华中地区。最高频率出



                                                       24
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                     研究报告


现在湖北恩施侗族中,高达 30%;以下依次                        迁徙的过程和 A*、 并没有没有什么不同。
                                                        A5
是 甘 肃 汉 族 15.6% 、 贵 州 沿 河 县 土 家 族            A4 原始型在中国北方和北亚地区的扩张范
10.3%、贵州赫章县彝族 10.0%、索约特人                     围和 A4 未定义类型基本重合,  因而很可能反
(Sojot,图瓦人的一支)10.0%,      青海藏族 8.9%。         映了晚近的迁徙事件。值得注意的是,有关
             A4
从分布图看, 未定义类型应该是先在华中                          文献的年代测定显示 A2 大约在 2.48 万年前
地区(准确地说是在湘鄂渝交界区域)扩散,                再        就从 A4 中分化出去[28]。可能由于族群整体
向西部藏彝走廊和西北地区扩张。 A4 原始        与                       A2
                                             迁徙的缘故, 在东亚大陆上基本没有留下
型在沿海地区集中分布的特点完全不同,表                          痕迹。因此很难确定它的迁移路线。
明很可能是较晚期的一次大规模扩散留下的
痕迹。
                   A4
     值得注意的是, 未定义类型还包括不
少细小分支,       其中一些有助于确定 A4 的分化
路线。
     A4-16104:其中包括 1 个韩国人 K358
和 2 个新巴尔虎旗蒙古族 Mg214、Mg216 样
本,显示了韩国人和东部蒙古族之间的联系
[19,25]。
     A4-16157:仅找到 2 例,由韩国 Kor83
和甘肃 GANSU03 组成。        结合 A4-16104 来分
析,韩国的 A4 主要来自中国北方[9,19]。
     A4-16179,16311:日本中部人 KA021 和
江苏人 JIANGSU15 都属于此单倍型。          上文中
还 提 到 过 日 本 人 ON125 和 江 苏 人
                                             图 15. 推测的线粒体 A4 单倍群分支早期迁徙路线
JIANGSU28 都属于 A4a[6,9]。显示日本中部                示意图 Fig.15 Conjectural early migration routes of
地区的 A4 个体很可能都源自华东地区。                         mitochondrial haplogroup A4.

     A4-16256: 包括西藏藏族 Tibet4664 和湘
西苗族 MHN66。显示西藏的 A4 来自自华中
地区[23,24]。
     A4-16216,16294 : 此 分 支 包 括 江 苏 人
JIANGSU43、贵州东北部土家族 T15、新疆
塔吉克族 Tjk19 和 Tjk18,及布里亚特人
br393[9,20,27]。不难看出这是一次自华中地
区开始的大规模人口扩张的印迹。这些样本
的 来 源 地 距 离 极 其 遥 远 , 暗 示 A4-16216,
16294 早在这次扩散事件之前就已产生。

2.11. A4 的迁徙路线
     图 15 和图 16 是笔者依据分析结果绘制                  图 16. 推测的线粒体 A4 单倍群分支晚期迁徙路线
                                             示意图
的 A4 迁徙图。图 15 示意了 A4 早期迁徙分                   Fig.16 Conjectural late migration routes of mitochondrial
化的情况。 祖型与 A*祖型只差一步高变 1
          A4                                 haplogroup A4.
区 16362 位点突变,   而且 A4 原始型主要分布
                                               图 16 显示了 A4 晚期自华中地区开始的
在东南沿海,这说明 A4 可能在 A*首次扩散
                                             大规模扩张。从重建的路线图看主要是向北
时已经产生出来,       其起源地点很可能和 A*一
                                             方迁徙。这次人口扩张可以说是遍地开花,
样是在广西东北部地区。总体来看,A4 早期
                                             产生了多个分化中心,并波及到北亚、东北


                                        25
REPORT                                                                     COM. on C. A. 3:e3, 2009


亚以及泰国和印度东北部地区。                                          N9a-r16261[3,4,29]。
  综上所述,A4 的早期扩散和 A*、A5 扩                                3.2. N9a 主要分支的地理分布
散的路线大体相似, 都集中在东南沿海一带,                                        N9a-16129(不含 N9a1): N9a-16129 是
所以早期伴随迁徙的可能性很大,而 A4*的                                   主要在大陆上扩散的 N9a 下游分支。最高发
大规模扩散无疑是更为晚近的事件。                                        的族群是台湾南部的排湾人和新疆喀什的哈
                                                        萨克人,发生频率都是 4.8%。其次是广西西
3.线粒体 N9 系单倍群                                           北部的布努瑶 4.0%,新疆喀什的塔吉克人
    N9 系单倍群主要包括 3 个下游分支,                                3.3%,和云南宁蒗普米族 2.8%。N9a-16129
N9a、Y 和 N9b。在最新的系统发生树中,这                                也存在于华中、华东、内蒙古等地区的部分
3 个下游分支仅共享 5417 转换突变,表明下                                族群中,发生频率从 1.5-2.4%不等(图 19)。
游单倍群在 N9 形成初期就分化出去。  在分布                                N9a-16129 低频出现于韩国人和日本人中,
特点上,N9 系的两大单倍群 N9a 和 Y 不仅                               频率分别为 0.7%和 0.3%,      但在东南亚地区没
在大陆上广泛分布而且在东南亚地区也很常                                     有发现。
见,这与主要分布在大陆上的 A 系单倍群明                                        N9a1: N9a1 是 N9a-16129 的下游分支,
显不同。 系中最小的分支 N9b 最早是在日
      N9                                                主要分布在华中和内蒙古东部地区。最高发
本人中发现的,不过笔者的研究表明 N9b 早                                  的族群是湖南西北部永顺土家族 6.7%和广东
期分化地点和最高发区域不是在日本,而是                                     连 南 八 排 瑶 5.7% , 其 次 是 浙 江 杭 州 汉 族
在远东滨海地区。                                                4.9%、内蒙赤峰汉族 4.4%、湖南江华过山瑶
                                                        4.2%、新巴尔虎旗蒙古族 4.2%、湖南长沙汉
3.1. N9a 单倍群中接网络分析                                      族 4.1%(图 19)。   N9a1 在广西、  广东沿海和华
                                                        东部分族群中,以及新疆伊犁乌兹别克人和
                                                        南西伯利亚图瓦人中也有发现,发生频率为
                                                        1.0%-3.4%。N9a1 也低频出现在日本人和韩
                                                        国人中,韩国人的发生频率为 0.9%,日本南
                                                        部鸟取县人为 1.1%,日本中部人为 0.3%。
                                                             N9a-16172 及其主要分支: 从孔庆鹏等
                                                        2006 年论文中可以看到 N9a-16172 分成 3 个
                                                        分支,    N9a2、N9a4 和 N9a5[8]。N9a4 和 N9a5
                                                        有明确的高变 1 区突变特征,因此能很清楚
                                                        地把它们划分出来。          但是 N9a2 原始型没有出
图 17. 线粒体 N9a 单倍群高变 1 区中接网络                             现可识别的高变 1 区特征,笔者将其归为
Fig.17 A Median-joining network of mitochondrial        N9a-16172。
haplogroup N9a based on HVS-1 motif
                                                             N9a-16172(不含 N9a4、N9a5): N9a-
    图 17 显示 N9a 有着比 A 系单倍群更多                            16172 在东亚的分布呈现极其离散的状态,
的主要分支和次级分支,显示了非常不同的                                     主要在广西和云南交界地区,海南、安徽、
群体分化历程。其中 N9a-16129 主要在大陆                               陕西和新疆伊犁(乌兹别克人)。N9a-16172 的
上分布,    可与 A4 类比,不过从图上看它几乎                              未定义类型主要分布在中国境内,也以很低
没有形成完整的星状结构。值得注意的是                                      的频率出现日本和韩国。广西西北部的田林
N9a-16129 的下游分支 N9a1 可能发生过规模                            壮族和瑶族中的分布频率大体在 3.1%-4.0%
不大的人口扩张。N9a-16172 主要分布在中                                之间,海南临高人和疍家人中频率分别为
国东南部沿海、日本、韩国等地,可与 A5                                    3.2% 和 2.5% , 其 他 族 群 中 的 发 生 频 率 从
类比。另外 N9a 的下游分支也出现东南亚地                                  1.2%-2.4%不等(图 19)。在日本和韩国人中的
区,包括主要分布在马来西亚和印度尼西亚                                     发生频率分别为 0.5%和 0.7%。
的 N9a6 , 以 及 在 台 湾 原 住 民 中 发 现 的                             N9a2 的分支 N9a2a、N9a2b 和 N9a2c 仅



                                                   26
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                   研究报告


出现在日本和韩国:这三种亚单倍群在日本                                           日本南部宫崎县人的发生频率是 1.0%,日本
都有发现,     在日本南部(鸟取、      宫崎)的总频率                              中部人的频率是 0.3%,        韩国人为 0.4%, 此外
为 1.0%-1.1%;在韩国的分布主要是 N9a2b,                                  在 内 蒙 赤 峰 汉 族 中 也 发 现 1 例
也发现 1 例 N9a2c 样本 K527,总频率为                                    NEIMENG45[9]。  在全部的 N9a5 样本中只有
2.6%[19]。                                                     1 例韩国样本 K250 有附加的 16046 转换突变
    N9a4:分布区域相当分散,高变 1 区谱                                     [19],显示 N9a5 的在东北亚地区的小范围扩
序是 16145-16172-16245-16257A-16261。最                           散是比较晚近的事件。
高发的族群是日本中南部静冈县人                                                   N9a6(含 N9a6a): N9a6 是参照 Hill 等
16.7%[30],其他族群中的频率都不高。在广                                      2006 年论文中的命名[4]。      从高变 1 区特征看,
西东北部富川县的瑶族和平话人的发生频率                                           它是 N9a 祖型再经一步 16292 转换突变所产
分别为 4.2%、3.4%,在粤东澄海人和粤西湛                                      生的亚单倍群。主要分布在东南亚地区,在
江人中的频率为 3.6%、3.3%(图 19)。另外                                    中国广西、云南、福建也可以找到它的踪迹。
N9a4 也低频出现在江苏南京、山东青岛、青                                        N9a6 最高发的族群是印尼苏门答腊巴东人
海藏族、韩国和日本中、西部地区,发生频                                           12.5%和广西金秀县壮族 11.1%,其次是印尼
率在 0.4%-2.0%之间。                                               邦加岛人 8.8%、云南西双版纳 3.8%(图 19)。
    根据高变 1 区特征,N9a4 又可细分为两                                    此外在越南南部(以美国加州越南移民数据
个分支:一支是原始型,仅存在于广东沿海                                           代替)、印尼苏拉威西、泰国清迈和曼谷各发
地区和日本;另一支带有 16092 位点突变的                                       现 1 例。
支系分布较广,在江苏、山东、广西、青海、                                              N9a6 的原始型在云南西双版纳的瑶族
韩国的 N9a4 样本都属于这种类型,          在日本仅                             和基诺族中共发现 3 例,越南南部人、印尼
见 1 例 PD053。对比发现 PD053 仅与韩国样                                  苏拉威西人各发现 1 例,而印尼苏门答腊的
本 K025 共享同一单倍型[6,19]。     这暗示 N9a4                            N9a6 个体全都属于带有 16189 位点转换的同
在历史上曾经发生两次扩张,而日本的 N9a4                                        一单倍型,    其他族群的 N9a6 样本都属于无法
样本主要来自第一次的扩散(图 18)。                                           细分的变异类型。
                                                                  N9a6 还有一个高变 1 区特征谱序为
                                                              16257A-16261-16292-16294 的 次 级 分 支
                                                              N9a6a 。 主 要 分 布 于 马 来 半 岛 , 在 塞 芒 人
                                                              (Semang)、塞诺伊人(Senoi)和土著马来人中
                                                              的发生频率分别为 8.0%、5.8%和 5.2%,此
图 18. 以高变 1 区数据绘制的线粒体 N9a4 亚单倍群                               外在福建南安,以及印尼的爪哇、苏拉威西、
分化树状图 分色示意为:                 橙色—广东,       蓝色—广西,              加里曼丹各发现 1 例 N9a6a 样本。N9a6a 的
浅紫色—华东地区,浅蓝色—青海,绿色—日本,
黄色—韩国。                                                        原始型绝大部分集中在马来半岛上。笔者注
Fig.18 Tree of the mitochondrial haplogroup N9a4              意到福建南安样本 STF13 还有额外的 16092、
individuals. Keys for the colors:orange for Guangdong,
                                                              16136 和 16192 位点变异,是所有 N9a6a 样
blue for Guangxi, purple for East China, cyan for
Qinghai, green for Japan, and yellow for Korea.               本中变异位点最多的,而且从高变 1 区特征
                                                              看与其他样本没有关联[10]。所以,N9a6a 的
  从图中还可以看到一个有趣的现象,即                                           分化存在两种可能性:一种是 N9a6a 最早产
距起源地最近的广西富川 N9a4 个体反而处                                        生于中国西南地区,        而后和 N9a6 一起向东南
在分化末端。最有可能的解释是:N9a4 早期                                        亚迁徙,而福建 STF13 属于早期境内分化的
类型在第一次扩散时就已分离出去,而起源                                           一支;另一种是 N9a6a 起源于东南亚地区,
地产生后来又出新的变异型,并发生了二次                                           而后扩散到福建一带。从 STF13 高变 1 区特
扩散。                                                           征与东南亚 N9a6a 样本特征差异较大来分
  N9a5:主要分布在日本和韩国,高变 1                                        析,笔者认为第一种可能性最大。
区谱序为 16172-16189-16209-16257A-16261,



                                                         27
REPORT                                                        COM. on C. A. 3:e3, 2009




 图 19. 线粒体 N9a 单倍群发生频率地理分布图
 Fig.19 Distributions of the mitochondrial haplogroups N9a.



                                                       28
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                    研究报告


     除了上述已定义的分支外,还有 2 个样                       在湘鄂渝交界以及湘粤交界地区有两处空
本 总 数 在 10 例 以 上 的 N9a 未 定 义 分 支               白,从位置看似乎是更晚期 A4 和 N9a1 的扩
N9a-r16261 和 N9a-16311,16390。                  张的结果。
     N9a-r16261: 主要发现于台湾原住民
中,并且只有一种单倍型。其特征是 16261
位点发生 T→C 回复突变,在高变 1 区只剩
一个可识别特征突变 16257A。          此分支在现居
台湾东部沿海地区的阿美族中最高发,发生
频率 7.1%。在东南部台东县的卑南族和中北
部的泰雅族,发生频率分别为 1.9%、1.8%。
值得一提的是,笔者发现梧州瑶 YWU02 和
湖南 Le874 样本也带有 16261 回复突变
[23,31]。这说明台湾的 N9a-r16261 分支并非
孤立存在,起源地点很可能就在湘粤桂交界
地区。
     N9a-16311,16390:此分支主要分布在广
西与贵州交界地区,最高发的群体是广西环                            图 20. 线粒体 N9a 单倍群原始型扩散层次分析图
                                               蓝色代表 N9a 原始型,红色代表 N9a 未定义类型。
江县毛南族 12.5%,其次是广西融水县五色                         Fig.20 Diffusion of the mitochondrial haplogroup N9a.
人 6.1%。此外,在贵州天柱县和广西三江县                         Blue stands for the ancestral type, and red for the
                                               unclassified type.
侗族、广西富川县和罗城县平话人,及广西
贺州壮族群体中也有发现,            频率在 1.3%-3.6%               笔者发现在空间分布上 N9a 的原始型和
之间。                                            未定义类型存在某种联系,当把两者的分布
                                               图叠加起来后(图 20),可以看到 N9a 的早期
3.3. N9a 的原始型和未定义类型的地理分布                       扩张痕迹被华中地区所发生的晚期扩张挤向
     N9a 原始型: N9a 的原始型的分布区域                    周边。这解释了 N9a 早期类型离散分布以及
极其分散。最高发的地点是在越南北部,在                            很少出现在华中地区的原因。N9a 未定义类
10 个样本中就有 1 例,发生频率 10.0%;在                     型主要由细小分支构成,显示 N9a 的起源历
临近越南的云南和广西也有分布,包括西双                            史相当古老。以下简要介绍这些小分支的情
版纳基诺族 5.6%和傣族 1.8%,        广西南部防城              况。
港高栏人 3.3%及西北部隆林俫人 3.3%;           在中                N9a*(16311):虽然 16311 位点是个高突
国东南和东部沿海地区呈带状分布,包括广                            变位点,无法确定是否有并行突变的情况,
东南澳人、福建南安人、上海人、山东青岛                            不过它的分布比较集中,所以笔者还是把它
人、  辽宁凤城人,    发生频率 1.8%-4.2%(图 19)。            视为单独的分支来分析。最高发的人群是靠
在青海西宁和四川维城汉族、湘西苗族中也                            近中越边境的广西崇左壮族和那坡夜郎人,
有发现,频率分别为 2.3%、1.4%和 1.0%。                     发生频率分别为 16.7%和 6.7%。其次是福建
另外 N9a 原始型在泰国清迈人和韩国人低频                         莆田人 2.8%,    云南文山苗族 2.6%,   越南中部
出现,频率为 0.4%和 0.1%。                             顺化京族 2.3%(图 19)。此外在广西金秀拉珈
     N9a 未定义类型: 在去除 N9a-16129、                 人、福建长汀客家人、湘西土家族、湖南长
N9a-16172、 N9a6、N9a-r16261 和 N9a-16311,        沙人、山东泰安人以及中都有发现,频率为
16390 等主要分支之后,笔者将余下的 N9a                       1.1-1.9%;也低频出现于泰国北部清迈人中,
样本归为未定义类型。         从图 19 可以看到未定                为 0.4%。总体看来,N9a*(16311)与 N9a 原
义类型的分布主要集中在越南和广西交界地                            始型在分布特点上比较接近,显示了 N9a 早
区、越南南部和华中地区,在华北地区和南                            期分化扩散的信息。即从广西和越南交界地
西伯利亚也有少量分布。此外,还可以看到                            区开始,沿南北两条主要的路线迁徙:一条


                                          29
REPORT                                                                      COM. on C. A. 3:e3, 2009


是走东北路线进入东亚腹地和东南沿海地                              显示出明确的扩散中心。为此笔者再次尝试
区;另一条路线是沿越南走廊向南迁移。                              扩散效应分析(图 21 和图 22)。
     N9a*(16189):在湖南西南部过山瑶、广
东怀集普标人、        广西田林汉族中各发现 1 例,
发生频率 2.9%-4.2%。在泰国北部清迈人中
低频存在,频率 0.4%。从分布地域看可能也
和 N9a*(16311)一样属于早期起源分支。             此外
在南西伯利亚阿尔泰人中也有发现,频率为
1.8%, 但不清楚与南方的 N9a*(16189)是否同
源。
     N9a-16184:这是个很小的分支。在广西
富川、贺州、武宣的平话人中各发现 1 例;
在富川的瑶族群体发现 3 例;在福建长汀客                           图 21. 线粒体 N9a-16129 单倍群扩散效应分析图。
家人中发现 1 例。这个结果显示了瑶族、平                           蓝色显示发生频率的分布,红色显示群体内部变异
                                                频率的分布。
话人和客家人在母系遗传方面的密切联系。                             Fig.21    Diffusion of the mitochondrial haplogroup
值得注意的是 N9a-16184 的原始型出现在广                       N9a-16129. Blue stands for the haplogroup frequency,
                                                and red for the mutation rate within the population.
西东北部富川、贺州地区的个体中,表明这
一带就是 N9a-16184 的起源和分化地点。
     N9a-16248,16311:这个分支存在于南西
伯 利 亚 托 发 拉 尔 人 (6.9%) 和 阿 尔 泰 人 中
(2.7%),从上述样本看只有一种单倍型。
     N9a-16291:这是个仅见于日韩的小分
支。在韩国人中发现 3 例,发生频率 0.4%;
在日本人中发现 1 例,频率 0.2%。
     N9a-16176:属于 2 个北部湾地区的个
体,越南北部人 Viet206 和海南杞黎 HL42,
其中越南样本属于 N9a-16176 原始型。可能
反映了海南原住民中的 N9a-16176 成分自越
                                                图 22. 线粒体 N9a1 单倍群扩散效应分析图 颜色
南北部起源的历史[11]。                                   示意与图 21 同。
     N9a-16111:由呼和浩特蒙古族 HHT34                   Fig.22 Diffusion of the mitochondrial haplogroup N9a1.
                                                Keys for the colors are the same as in Fig.21.
和日本中部人 PD0118 组成,表明两者的共
祖关系。不过两例样本都不是原始型,所以
                                                    N9a-16129: N9a-16129 原始型发生频
                                                              从
无法确定迁徙路线[6,32]。
                                                率和群体内部变异频率分布叠加图上可以看
     N9a-16051 : 仅 有 两 个 样 本 , 辽 宁 人
                                                到,N9a-16129 的扩散中心应该在湖北东部,
LIAONING13 和河北人 Le1014[9,31]。
                                                此外在云南东北部似乎还发生过一次小规模
     N9a-16166C,16173,r16261,16324 : 包 括
                                                的迁徙。
贵州仡佬族 G06 和湖北武汉人 WH6972,两
                                                N9a1:虽然从分布图上看 N9a1 最高发地点
个样本都不是原始型,似乎是在华中和西南
                                                在湖南南部,但是扩散效应分析却显示 N9a1
地区发展的小分支[22,27]。另外,此分支存
                                                的扩散中心更有可能在湖北东部。N9a1 叠加
在 16261 位点回复突变,所以不能排除是
                                                图还显示出三个次级扩散中心,分别是云南
N9a-r16261 次级分支的可能性。
                                                西双版纳、内蒙东部至辽宁南部及青海东北
                                                部地区。
3.4. N9a-16129 和 N9a1 扩散效应分析
      N9a-16129 和 N9a1 的频率分布图未能
                                                3.5. N9a 的迁徙路线


                                           30
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                            研究报告


  重建的路线图显示,N9a*自越南北部起                                       24。此外,N9a6 主要分布于东南亚地区,
源后,除少数支系向东南亚迁徙外,其主体                                         N9a-r16261 集中在台湾,两者的样本在中国
向北进入中国境内,见图 23。一部分向东迁                                       南方也有发现,因而迁徙过程比较清楚。
至粤东、闽南沿海一带,另一部分进入华中
地区,在湖北东部地区再次发生扩散。扩散                                         3.6. Y 单倍群中接网络分析
区域主要包括华北、华东地区,也波及到日
本和韩国。




                                                            图 25. 线粒体 Y 单倍群高变 1 区中接网络
                                                            Fig.25 A Median-joining network of mitochondrial
                                                            haplogroup Y based on HVS-1 motif

                                                                 图 25 展现了线粒体 Y 单倍群的中接网
                                                            络。由于 Y 下游分支的高变 1 区特征位点较
                                                            少, 因此保留了突变率较高的 16189 和 16311
                                                            位点以便区别 Y1a1 和 Y2。另外为了区分其
图 23. 推测的线粒体 N9a 单倍群部分分支迁徙路线
示意图 Fig.23 Conjectural migration routes of several          他一些分支,笔者还在中接网络中加入了
branches of mitochondrial haplogroup N9a.                   16384 和 16399 等位点的数据。
                                                                 值得一提的是,     笔者在 Y 的序列数据中
                                                            找到了不少发生回复突变的特征位点,包括
                                                            16126、16223、16231、16319 等。由于 Y 的
                                                            样本数比 A 和 N9a 的样本数少得多,这些回
                                                            复突变的存在给中接网络的构建增加了很大
                                                            的难度。以上中接网络是笔者根据系统树多
                                                            次调整所得到的最为准确的图形。
                                                                 可以看到 Y 中接网络的“空心化”特征
                                                            十分明显。经过一系列分析笔者最终确定在
                                                            样本中很可能不存在真正的 Y*根部类型。               起
图 24. 推测的线粒体 N9a-16129 和 N9a-16172 单倍
群分支迁徙路线示意图
                                                            初,笔者在有关序列中发现有 2 个湖南长沙
Fig.24 Conjectural migration routes of mitochondrial        样本 C208、C209 共享相同的高变 1 区突变
haplogroup N9a-16129 and N9a-16172.
                                                            特征 16126-16223-16231,很象是 Y 的原始
                                                            型。但是在后来的数据比对中,发现湖南个
    N9a 的主要分支 N9a-16129、N9a-16172、
                                                            体 C208 和天津个体 Le310 具有相同的高变 1
N9a6、N9a-r16261 等应该都是在北部湾一带
                                                            区特征 16126-16223-16231-16384[30,31]。鉴
分化出来的。    他们沿着大体相似的路线迁徙,
                                                            于 Le310 在原文中被细分为 Y1b,而又缺少
同样在湖北东部一带发生分化,向东迁入日
                                                            Y1 的 16266 突变特征,   可以确定 Le310 是带
本和韩国,向西直达新疆伊犁和喀什,见图
                                                            有 16266 回复的 Y1 下游分支 Y1-r16266。这

                                                       31
REPORT                                                                             COM. on C. A. 3:e3, 2009




图 26. 根据东亚和北亚人全序列绘制的 Y 单倍群系统发生树。未列出非特征的插入和删除变异。
Fig.26 Phylogenesis of the haplogroup Y according to the whole mitochondrial genome of East Asians and North
Asians. Non-specific insertions and deletions were not displayed.


样看来,   具有相同特征的湖南 C208 还有其他                               化细节和迁移路线提供了重要线索[8]。
2 个 湖 南 样 本 (C208 、 C209) 应 该 也 是                             Y1: 在系统树中可以看到,Y1 形成了
Y1-r16266[30]。在下文的分析中,笔者大体                               3 个主要分支 Y1a、Y1b 和 Y1-16399。Y1a
确定了 Y 的起源年代十分古老,         而且起源地                           的下游分支就是中接网络中标出的 Y1a1,沿
应该在北部湾一带而不是湖南。                                           用了 Derenko 等 2007 年论文中的定义[20]。
Y 的中接网络结构很简单,表明 Y 在扩张规                                   Y1b 的特征位点包括 10097、15221、15460,
模上比 A 和 N9a 小得多。   不过 Y 在亚洲的扩                            参考了 Tanaka 等 2004 年论文和孔庆鹏等
张范围却是最大的,向北到达北极地区,向                                      2006 年论文中的定义。Y1b 没有高变 1 区特
南则深入东南亚岛屿。从上述特点分析,Y                                      征突变,已知的全序列样本包括新疆汉族
应该比 A、N9a 有着更为久远的分化历史。Y                                  XJ8426 和日本人 KA097,  新疆汉族样本处于
只产生了两个主要的分支 Y1 和 Y2,        由于 Y1                        Y1b 根部位置,而日本 KA097 多出 3 个额外
在大陆上扩张而 Y2 主要在东南亚地区发展,                                   突变,显示日本的 Y1b 可能源自中国大陆
所以在数量和突变距离上 Y1 分支都大大超                                    [6,8]。此外,笔者在 Ji 等 2007 年论文中又发
过 Y2 分支。从高变 1 区特征还可以分辨出                                  现 3 个中国大陆个体属于 Y1b,包括四川人
Y1 的两个次级分支 Y1a1 和 Y1-16399。   Y1a1                       Le1261、广东人 Le1361 和天津人 Le310[31]。
主要分布在远东地区,其末端分支                                          Y1-16399 分支在中接网络中也可以看到,不
Y1a1-16292 主要分布在尼夫赫人和日本阿伊                                过全序列样本只有 1 个汗尼干人 Kam6,      所以
努人中。                                                     无法确定此分支编码区的特征位点[20]。
                                                              Y2:重庆綦江人 QJ183 处于根部位置,
3.7. Y 单倍群全序列分析                                          而青海汉族 QH9510、    汗尼干人 Kam2 和日本
     因 Y 单倍群的高变 1 区特征较少,笔者                               人 HN249 都是独立分化的个体。      只有日本人
尝试以的全序列数据构建系统发生树,见图                                      ND088 和布里亚特人 Br621 是共享 338 转换
26。完成后的 Y 系统树展现了更多的分支细                                   的同一分支[6,8,20]。笔者还找到了带有 338
节,笔者幸运地从全序列中找到了 Y1 和 Y2                                  位点突变的 2 个韩国样本 K335、K525,表明
的根部类型样本,内蒙达斡尔族 DW35 和重                                   这个 Y2 支系应该是在东北亚地区形成的[19]。
庆綦江县人 QJ183,这为确定 Y 单倍群的分                                 因没有高变 1 区特征出现,笔者把它暂命名


                                                    32
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                   研究报告


为 Y2a。遗憾的是,笔者没有在已发表文献                         仡佬族 G14 则共享 16176 突变[19,23,27,31]。
中找到东南亚地区的 Y2 全序列,所以无法确
定东南亚 Y2 的分类地位。                                3.9. Y1 的原始型和未定义类型
                                                   Y1 原始型: 图 27 显示,Y1 原始型在
3.8. Y 分支的地理分布                                东亚内陆的分布比较分散,但在中国南方呈
                  Y1
      研究结果显示, 主要分布在东亚、              东         现连续分布的状态。最高发的是广西东北部
北亚和远东滨海地区。 则主要分布在东南Y2                         三江侗族和湖南长沙人,频率分别为 2.8%和
亚族群和台湾原住民中,只以很低的频率出                           2.4%。在甘肃汉族、新疆汉族、新疆乌兹别
现在东亚、北亚和东北亚部分群体中。由于                           克族、内蒙东北部达斡尔族、南西伯利亚布
大量样本仅见高变 1 区数据,所以有一部分                         里亚特人、广西罗城平话人、福建长汀客家
缺乏高变 1 区特征的 Y1b 样本无法完全细分                      人中也有发现,发生频率在 1.1%-2.2%之间。
出来。                                                  Y1
                                              此外, 原始型在日本人和韩国人中低频存
     Y1a(含 Y1a1):在上文的全序列分析中,                  在,频率分别为 0.2%、0.4%。根据上述分布
笔者确定了 Ingman 等 2007 年论文数据中的                   特点来分析,      笔者推断 Y1 最早的分化地点很
蒙古人 Mg221 属于 Y1a 的原始型[16]。除此                  可能在广西境内。
之外,Y1a 主要分布在俄罗斯远东滨海地区                              Y1 未定义类型:与 Y1 原始型的分布不
的族群中,在北西伯利亚泰梅尔半岛的恩加                           同,Y1 未定义类型的高发区域比较连续。其
纳桑人(Nganasan)中也有分布。       笔者发现绝大              中有一条从湖南至闽粤沿海的高发带, Y1          在
多数 Y1a 样本都属于 Y1a1。      另有 4 个样本属             原始型的分布图上也可以看到,应该是早期
于带有 16304 突变的小分支 Y1a-16304,其                  迁徙留下的痕迹。在广东潮州人中最高发,
中远东地区乌德盖人和乌尔奇人各 2 例,频                         发生频率为 7.7%,其次是俄远东的乌德盖人
率为 4.3%和 2.3%。                                (Udegey)4.3%,广东汕头澄海人 3.7%,和西
      Y1a1 在 尼夫 赫 人 (Nivkh) 与 乌 尔 奇 人         双版纳哈尼族 3.0%(图 27)。 未定义类型在
                                                                   Y1
(Ulchi)最高发,发生频率分别为 39.3%、                     俄远东的乌尔奇人中的频率为 2.3%;在华北
29.9%;其次是恩加纳桑人 21.2%,阿伊努人                     的内蒙赤峰、辽宁凤城、山东泰安和青岛、
19.6%和科里雅克人(Koryak)13.6%。在伊捷                  陕西西安的汉族群体中也有发现,频率
尔缅人中的频率为 4.3%。从图 27 看,Y1a                     1.9%-2.6%; 在西南地区的云南会泽和四川维
分化和扩散地点是在俄罗斯境内阿穆尔河                            城汉族群体中的频率为 1.7%、1.4%;在广西
(黑龙江)下游一带。另外,Y1a1 中还可以划                       壮族中的频率为 1.2%。
分出一个末端分支 Y1a1-16292,多见于阿伊                           笔者发现在未定义类型还存在不少可
努人和尼夫赫人,        频率分别为 16.1%、    13.7%,        识别的细小分支,      有助于判断 Y1 的分化过程
在乌尔奇人和科里雅克人中也有少量发现。                           和迁徙路线。
不难看出阿伊努人的 Y1a1 成分中的应来自                             Y1-16325:广西壮族 ZH32 和广东澄海
远东族群的混杂。                                      人 STB2 样本共享 16325 转换,而且 STB2
     Y1-16399: Y1-16399 的地理分布呈现               比 ZH32 多一个 16051 突变,所以广东 STB2
离散的状态。最高发的族群是南西伯利亚的                           很可能源自广西[10,33]。
索约特人 3.3%和贵州东北部道真县仡佬族                              Y1-16218:陕西西安 SHANNXI29 和山
3.2%。Y1-16399 也低频出现在山东泰安人、                    东泰安 SD10347 样本是共享 16218 位点突变
湘西苗族、布里亚特人、汗尼干人、日本南                           的同一单倍型,表明属同一分支[9,34]。
部宫崎人和韩国人中,发生频率为                               Y1-16172 : 有 2 个 四 川 个 体 (Le 1261 、
0.9%-1.3%(图 27)。另外在北京和广东也各见                   SICHUAN43)共享 16172 转换突变。不过其
1 例(Le1200、Le1328)[31]。笔者还发现韩国                中的 Le1261 似乎并不带有 Y1 的 16266 突变
人 K401 和湘西苗族 MHN71 样本都带有相同                    特征。由于在原文中 Le1261 被划分为 Y1b,
的 16220C 颠换突变,而广东 Le1200 和贵州                  所以可以确定 Le1261 是发生 16266 回复突变



                                         33
REPORT                                                                            COM. on C. A. 3:e3, 2009


的 Y1 样本[9,31]。                                                  很可能源自华北地区[22,35]。
    Y1-r16266,16384 : 笔 者 发 现 湖 南 长 沙                                Y2:无论从变异特征还是从地理分布方
C208 和天津 Le310 样本共享 16384 转换。       并                           面分析,Y2 单倍群都有着不可思议的特性。
且两者都缺少 Y1 的 16266 突变特征。         考虑到                             比较一下 Y1 和 Y2 的特征位点可以发现:            在
Le310 在原文中被分型为 Y1b,而且 16384                                     编码区特征上,排除掉 5417 回复突变后,所
位点突变率很低,可以断定他们都是带有                                              有 Y2 样本还共享 5 个位点突变构成的谱序
16266 回复突变的 Y1 下游分支[30,31]。                                     (482-6941-7859-14914-15244);而 Y1 样本主
Y1-16193:山东青岛 QD8151 和 1 个图瓦个                                   要分为 Y1a 和 Y1b 分支,两者只共享 3834
体共享 16193 转换突变。表明图瓦人的 Y1                                        位点突变。在高变 1 区特征上,在全部 Y2




图 27. 线粒体 Y 单倍群发生频率地理分布图
Fig.27 Distributions of the mitochondrial haplogroups Y.



                                                           34
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                               研究报告


样本中原始型(16126-16223-16231-16311)的          表明它很可能被后来南下的N9a6群体排挤到
比重高达 78.3%; Y1 样本中原始型的比重
               而                          更边远的地区。
仅为 20.5%。                                     无独有偶,N9a6 和 Y2 也同时出现在台
                 Y2
     在地理分布上, 集中分布在东南亚岛                    湾海峡两岸:N9a6a 出现在闽南沿海地区,
屿和台湾原住族群中(图 27)。在印尼苏门答                    而 Y2 分布在台湾岛北部,N9a-r16261 和
腊岛北部棉兰(Medan)人中出现频率最高,          达         N9a-16129 出现在台湾的中东部沿海和南部
16.7%,其次是菲律宾马尼拉人 11.5%。Y2                 地区。这种分布关系提示我们,Y2 应该是最
在 印 尼 苏 门答腊 岛 中部北 干 巴 鲁                   早通过东山陆桥进入台湾的 N 系单倍群,随
(Pekanbaru)、南部巴邻旁(Palembang)以及邦           后才是 N9a-r16261 和 N9a-16129。笔者查阅
加岛居民中也比较高发,发生频率约在                         资料后发现,末次冰期时台湾通过东山陆桥
3.6%-5.9%之间。Y2 在台湾的赛夏族和泰雅                 与大陆相通,而与菲律宾和日本没有陆桥相
族中的发生频率差异较大,分别为 9.5%和                     连[36,37]。由此可确定台湾 Y2 和 N9a 很可
3.1%。                                     能都是由华南沿海一带移入的(参见讨论章
           Y2
     此外, 也以较低的频率出现在东亚和                    节的内容)。
东北亚地区。大陆上最高发的族群是重庆綦
江县人 3.9%,其次是南西伯利亚的汗尼干人
2.0%,青海汉族 1.1%。在布里亚特人、韩国
人和日本中的发生频率都在 0.3%左右。在山
东人中也发现 1 例 Le1159[31]。另外笔者发
现在文波等 2004 年论文的数据中有 1 例来自
湖南长沙的 M*样本 HUNAN07[9]。从高变 1
区特征(16126-16223-16231-16311)来看与 Y2
完全吻合,鉴于湖南长沙样本中有 Y1 存在,
而笔者也没有在其他数据中找到特征突变相
似的 M*样本,因此 HUNAN07 很可能是被
错误检测的 Y2 个体。
              Y2
     这样看来, 在漫长的形成过程中可能
一直保持着较小的群体规模。按照 Derenko
等 2007 年论文中的年代测定结果,Y2 的分
                                          图 28. 线粒体 Y2 和 N9a 单倍群在东南亚地区的分布
化年代为 8,567±3,831 年前[20]。   不过这个年
                                          叠加图 Y2 以红色表示,N9a6 以蓝色表示。
代测定值是有疑问的。笔者根据台湾原住民                       Fig.28 Distributions of the mitochondrial haplogroups
中 Y2 和 N9a 分支的分布位置关系推测 Y2                 Y2 and N9a in Southeast Asia. Blue stands for Y2, and
                                          red for N9a6.
的分化年代不会晚于 2.0 万年前(参见讨论章
节的内容)。                                              Y2
                                              照此分析, 在东南亚和台湾的分布现
                                          状很可能是在 N9a 后期扩张的推动下形成
3.10. Y 的迁徙路线                             的。从 Y 和 N9a 同为 N9 的两大分支,我们
      虽然在以上的分析中未能确定 Y 的最初                 不难得出以下的结论:Y 和 N9a 的起源地很
起源和分化地点,    不过笔者在比较 Y2 和 N9a              可能都在北部湾一带, 首先从 N9 中分化出
                                                        Y
在东南亚的分支时找到了有关的线索。                         来,并向周边地区扩散;其后 N9a 也分化出
当我们把N9a6和Y2在东南亚的分布图叠加                     来,它的扩散对 Y 形成了挤出效应,把 Y 推
后(图28),可以看到N9a6在东南亚主要分布                   向更远的地区。如果比较一下 Y 和 N9a 在东
的地区包括马来半岛及苏门答腊岛中西部,                       亚和北亚的分布区域也能看到相同的情况,
而Y2不见于马来半岛而是散布在东南亚岛屿                      N9a 主要分布在东亚和东北亚地区,而 Y 的
上,高发区域在苏门答腊岛北部和菲律宾,                       一些支系远达西伯利亚和远东滨海地区。


                                     35
REPORT                                                                           COM. on C. A. 3:e3, 2009


    根据以上分析结果笔者绘出了最为可                                        祖型多出一个 14259 突变,因此 Nanai157 代
能的 Y 的迁徙路线,见图 29。Y 在东亚的扩                                    表了较早期的分支类型。
散范围偏向东部地区,    这一特点与 N9a 和 A5                                     后来笔者又在 Starikovskaya 等 2004 年
十分相似。与 N9a 和 A5 所不同的是,Y 的                                   论文中找到了更多的远东 N9b 样本[7]。在此
扩散范围更大:向南深入东南亚岛屿的边缘                                         文 的 列 表 中 给 出 了 属 于 N9( 不 包 括 Y) 的
地带,向北直达远东鄂霍茨克海沿岸。表明                                         RFLPs 和高变 1 区数据。除去其中带有 N9a
Y 的主体分化时间比 A5 和 N9a 更早。在后                                   特征突变 16257A 和 16261 的单倍型外,           其余
期 A 和 N9a 支系的扩张和挤压下,大陆上的                                    3 种单倍型应属于 N9b。
Y 支系被迫进行了再分布,导致 Y 早期扩散                                          单倍型 1:RFLPs -5742 HpaII,HVS-1
信息变得十分模糊。不过重建的路线图还是                                         16189; 单倍型 2:    RFLPs -5742 HpaII,HVS-1
显示出在华中地区存在一个扩散中心,笔者                                         16129-16189-16311; 单倍型 3:    RFLPs -14258
估计大体上应是在湖南长沙一带。此外,重                                         BamHI,HVS-1 16519。
建的路线图还显示出:    大陆上非常少见的 Y2                                        RFLPs 检测结果为 N9b 的细分提供了重
基本上是沿着与 Y1 相同的路线迁徙的,Y2                                      要依据:不难看出前两种单倍型都表现出
在东南亚的扩散则是后来的一次独立事件。                                         RFLPs 多态性-5742 HpaII,应属同一 N9b 分
                                                            支,其样本均来自乌尔奇人;单倍型 3 显然
                                                            是发生了 16189 回复的 N9b,检测出-14258
                                                            BamHI,与 Nanai157 的 14259 突变吻合,所
                                                            以它们构成了另一 N9b 分支。此分支由乌尔
                                                            奇人、乌德盖人和那乃人的样本组成。
                                                                 Tanaka 等 2004 年论文中的系统树表明
                                                            日本的 N9b 分成几个主要分支[6]。不过这些
                                                            分支中找不到远东族群的 RFLPs 多态性特
                                                            征,说明日本和远东的 N9a 在分化早期就已
                                                            隔离。  在韩国人中也发现 2 例 N9b 样本 K517、
                                                            K280,不过从高变区特征很难确定其来源
                                                            [19]。另外,Tanaka 等 2004 论文显示阿伊努
                                                            人中至少存在 1 例 N9b,笔者据此在日本文
                                                            献中找到了高变 1 区突变特征为 16189、
                                                            16519 的阿伊努个体 Ainu162,        与日本的 3 个
                                                            N9b 样本 ON032、HN179、ND216 属同一单
                                                            倍型,   所以这个样本很可能就是 N9b。             另有 2
图 29. 推测的线粒体 Y 单倍群分支迁徙路线示意图                                 个阿伊努样本 Ainu27、       Ainu92 的突变位点特
Fig.29 Conjectural migration routes of mitochondrial
haplogroup Y.                                               征为 16189、   16356、16519, 可能也属于 N9b,
                                                            不过仅凭高变 1 区数据无法确认。有关文献
3.11. N9b 的主要支系                                             还表明琉球人和台湾汉族中也发现有少量
     N9b 是 N9 最小的下游单倍群。    现有文献                             N9b[38,39]。从地理上来分析可能都直接或间
显示它存在于日本人、韩国人和阿伊努人的                                         接来自日本 N9b 的扩散。
母系遗传中。不过笔者后来的发现证明 N9b
的起源地应该在远东阿穆尔河下游地区。                                          3.12. N9b 的地理分布
      笔者起初在 Ingman 等 2007 年论文中找                                   分析结果表明 N9b 只有一个高发中心,
到一个那乃人全序列,也就是上文中提到的                                         位置在远东阿穆尔河下游地区,表明这一带
Nanai157(EU007856)[16]。通过与系统树的比                             就是 N9b 的早期分化地(图 30)。统计显示,
对,  发现此样本是带有 10607 回复突变的 N9b                                N9b 在乌德盖人中的发生频率高达 66.7%,
样本。   除此之外,   Nanai157 在编码区只比 N9b

                                                       36
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                               研究报告


乌尔奇人的频率为 13.6%。而那乃人仅见 1                                     岛(库页岛)与大陆和北海道连为一体时,    自北
个 N9b 样本,群体发生频率不详。N9b 在日                                    方进入日本列岛的,参见图 38。日本和远东
本中部人与韩国人中的发生频率分别为 2.9%                                      的 N9b 属于不同的分支,所以 N9b 很可能是
和 0.3%,在阿伊努人和琉球人中的分布频率                                      一次性迁入日本,随后两者在地理隔绝的状
不低于 2.0%。                                                   态下独立发展。考虑到地理上的接近性,韩
                                                            国人中低频出现的 N9b 很可能源自历史上与
                                                            日本居民的基因交流。

                                                            4.N 系单倍群分化年代分析
                                                                 表 1 所列的就是亚洲东部 N 系单倍群的
                                                            分化年代。     其中多数采用高变 1 区数据测定,
                                                            仅对于部分有疑问或不准确年代测定结果改
                                                            用更为可靠的编码区数据进行测算。笔者测
                                                            定东亚地区 N*单倍群的分化年代约 6.6 万
                                                            年,这个数值与 Macaulay 等 2005 年论文附
                                                            件中 6.3-6.4 万年的测定值基本接近,此文献
                                                            还给出了 N 在中国的奠基年代约为 5.27 万
图 30. 线粒体 N9b 单倍群发生频率地理分布图                                  年,这表明亚洲东部 N 系单倍群的内部分化
Fig.30 Distribution of the mitochondrial haplogroups
N9b.                                                        早在他们进入亚洲之前就已开始[5]。
                                                                 另外必须说明的是 Y2 年代测定值的问
3.13. N9b 的迁徙路线                                             题。  笔者在以编码区数据测算 Y2 分化年代时
      笔者发现 N9b 和与 Y1 的两个分支                                  没有找到东南亚的 Y2 全序列数据,        所以这个
Y1a1、Y1a-16304 都集中分布于远东阿穆尔                                  5100 年的年代值应该是不准确的。从 Y2 和
河下游族群中[35]。    N9b 和 Y 同属 N9 的下游                            N9a 下游分支在台湾海峡和东南亚岛屿的分
单倍群,    因此笔者推测 N9b 可能是从伴随 Y1                                布位置关系来看,它的实际分化年代不会晚
迁徙的一个 N9*(pre-N9b)演变出来的。这次                                  于 2.0 万年(参见讨论章节的有关内容)。
长途迁徙过程显然极富戏剧性,因为从 N9                                             在尽可能准确地测算 N 系单倍群分化年
的起源地越南北部到 N9b 的分化地阿穆尔河                                      代的基础上,笔者重建了其在亚洲东部的大
下游地区仅直线距离就超过 4000 公里!                                       体迁徙扩散过程,见图 32。这对破解 N 系单
                                                            倍群起源之谜以及确定其归属南方还是北方
                                                            特征单倍群至关重要。以下简要说明笔者的
                                                            分析结果。
                                                                 5.0 万年前: 从本文和其他相关文献的
                                                            年代测定可知,N 系人群大约在 6-8 万年前
                                                            从非洲出发沿亚洲南部海岸线向东迁徙,大
                                                            约 在 5.5 万 年 前 已 经 到 达 中 南 半 岛 南 部
                                                            [5,41]。随后在泰国湾分为南北两支:北支沿
                                                            中南半岛海岸线前行,经越南走廊北上,大
                                                            约在 5.3 万年前抵达北部湾地区;而南支顺
                                                            马来半岛南下,穿越东南亚西部岛屿,其中
图 31. 推测的线粒体 N9b 单倍群迁徙路线示意图                                 一些支系进入巴布亚新几内亚和澳大利亚。
Fig.16 Conjectural migration routes of mitochondrial
haplogroup N9b.                                             距今 6.0-5.0 万年前正处于上一个冰川期,气
                                                            候寒冷而干旱,海平面较低。那时,早期现
  N9b 自远东滨海地区开始的分化过程相                                       代人可能划着独木舟横渡变得狭窄的海域进
对比较清晰。它应该是在末次冰期当萨哈林                                         入巴布亚新几内亚,再通过陆桥进入澳大利

                                                       37
REPORT                                                             COM. on C. A. 3:e3, 2009


   表 1. 亚洲东部 N 系单倍群的分化年代 Tab.1 Estimated ages for the superhaplogroups N branches.

    线粒体单倍群                      样本来源                突变数据          分化年代(千年)
    N*                          东亚                  高变 1 区        66.0±11.3
    N21                         中国、东南亚              高变 1 区        42.6±21.4
    N9                          亚洲东部                编码区(9 例)      40.5±6.7
    N-16111,16172,16189,16362   中国、东南亚              高变 1 区        40.4±19.6
    A                           亚洲东部、印度东北部          高变 1 区        39.6±13.2
    N9a                         亚洲东部                高变 1 区        36.3±9.1
    A5                          中国、日韩、北亚            编码区(13 例)     25.7±7.4
    Y                           东亚、日韩、北亚、远东         编码区(17 例)     23.9±6.2
    N9a-16172                   中国、日韩、北亚            高变 1 区        23.7±6.9
    A4                          亚洲东部、印度东北部          高变 1 区        23.5±4.1
    N9b                         远东、日本               高变 1 区        22.6±9.7
    N9a6                        中国、东南亚              高变 1 区        21.9±12.4
    N-16263,16274,16343,16357   东南亚                 高变 1 区        21.9±14.4
    A2                          远东                  高变 1 区        21.2±11.7
    N9a-16129                   中国、日韩、北亚            高变 1 区        20.5±12.4
    A8                          日韩、北亚、远东            编码区(2 例)      18.0±6.8
    N22                         东南亚                 高变 1 区        17.7±8.7
    A5b                         中国、日韩、北亚            高变 1 区        16.5±9.4
    A4b                         北亚、远东               编码区(3 例)      15.4±6.2
    A5a                         中国、日韩               编码区(9 例)      15.4±4.9
    Y1                          东亚、日韩、北亚、远东         编码区(10 例)     13.9±4.2
    A4a                         北亚、中国、日本            编码区(6 例)      9.4±4.3
    N9a1                        亚洲东部                高变 1 区        8.0±2.3
    Y1a                         北亚、远东               编码区(6 例)      7.7±3.1
    A-16234,16293C              亚洲东部                高变 1 区        7.2±3.8
    N9a2                        亚洲东部                高变 1 区        6.5±2.4
    Y2                          东亚、日韩、北亚            编码区(7 例)      5.1±1.9
    A4-16274                    亚洲东部                高变 1 区        3.6±1.6
    A5c                         中国、日韩、北亚            高变 1 区        3.6±2.1
    A4-16124                    亚洲东部                高变 1 区        3.4±1.7
   注:1.以上年代测定值是按各单倍群内部差异计算的。2.平均取代率:高变 1 区突变按 16090-16365 位点每 20180 年
   发生 1 次取代计,编码区突变按 577-16023 位点每 5138 年发生 1 次取代计[40,41]。


亚东北部地区。                                       适应。A5 约在 2.6 万年前出现,不过最初的
   4.5-4.0 万年前: 这一时期气温比 5 万年                  扩张规模和范围可能极为有限。
前明显回升,但仍比现在要低。当时的泰国                               2.5-2.0 万年前: 这是东亚 N 系单倍群
湾和北部湾不仅土地富饶,而且面积比现在                           发展最重要的时期,虽然气温持续下降,但
要大,很可能是当时人口增殖最快的地区。                           是在这个时期人类征服自然环境的能力大大
此时 N-16111,16172,16189,16362(图中标注             提高。N 在东亚常见的分支——A4、A5、
为 N-16111,16172)和 N9 在北部湾,N21 在               N9a-16172、N9a-16129、Y 和 N9b 单倍群都
泰国湾开始了最初的分化。                                  已出现。 产生后不久, 就从 A4 中分离
                                                      A4          A2
   4.0-3.5 万年前: 东亚大陆上两个主要的                    出来,  踏上了前往白令海地区的漫漫旅程。          Y、
单倍群 A 和 N9a 开始出现,但是扩张范围仍                      N9b 也从 N9*中分化出来,结伴向远东滨海
然局限于北部湾周边地区。经测算它们的内                           地区长途迁徙。另外,重建的分化迁徙路线
部分化时间分别为 4.0 万年前和 3.6 万年前。                    显示了一个有趣的现象:N9a 的分化扩张在
因此 A 比 N9a 率先向东亚内陆扩展,这个扩                      很大程度上阻挡了 A 沿越南走廊南下,笔者
张顺序对它们后来的发展具有重大的影响。                           认为这可能就是 A 单倍群没有分布到东南亚
   3.5-2.5 万年前: 气温再次下降,N 系人                   岛屿的原因。不过还是有极少量的 A 系分支
群没有取得明显的进展。可能是因为征服内                           穿越云贵高原进入了泰国北部。另外,A 系
陆地区需要完全不同于以往的新生产方式相                           单倍群在西南和华中地区的扩张也在一定程


                                         38
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                            研究报告




图 32. 推测的线粒体 N 系单倍群在亚洲东部迁徙扩散示意图
Fig.32 Conjectural migration routes of mitochondrial haplogroups N in East Asia.


度上遏制了 N9a 的北上,而使自己在东亚获                                      续的冻土带,渤海和黄海大陆架露出海平面
得了巨大的发展空间。此时 N 系人群的扩张                                       的部分则形成大片的沙漠。台湾与大陆连接
范围已达华中大部分地区,       部分支系(A2、Y、                               在一起,成为一座横亘在东海之滨、最高峰
N9b)可能已深入华北和东北一带。                                           达海拔 4000 米的巨大雪山。韩国南部和日本
    2.0-1.3 万年前: 此时正处于末次冰川                                  之间形成了陆桥,可供史前动物群和人类通
期,大约 1.8 万年前达到最盛期。北方气候                                      行[42]。这一时期 N 系人群显然已完全适应
非常寒冷干旱。华北平原和黄土高原大部分                                         了东亚大陆的地理环境。A*和 A5 的分支在
变成了干草原,内蒙和东北亚地区形成了连                                         西南、  华中和华东地区小规模扩张, A5a、
                                                                               A8、


                                                       39
REPORT                                                                   COM. on C. A. 3:e3, 2009


A5b,可能还有 A5c 的祖先通过陆桥进入韩                     K。事实上在线粒体 N 单倍群的早期分支(如
国和日本。     A4b 从 A4 中分化出来,   迁徙至内            N21、N22 和 S)分布的马来半岛、太平洋西
蒙东部地区。N 在东南亚的一些古老支系(如                       部岛屿、巴布亚新几内亚和澳洲,也是 Y 染
N22),在南下人群的压力下从中南半岛、马                       色体 K 系单倍群主要分布的地域[1,45]。
来半岛向东南亚西部岛屿迁徙。从有关文献                             但是具体分析 N 系主要分支 A、N9a 和
的年代测定来看:至 1.4 万年前,Y 和 N9b                   Y 在中国境内的分布,可以发现湖北、湖南
可能已迁徙至北亚和远东地区, 则已抵达      A2                 两省是其分化最重要的地区,这些地区是古
白令海,并由陆桥进入美洲大陆[6,21]。重建                     代苗蛮民族的势力范围。此外 N 系单倍群在
后的迁徙路线显示,此时的 N 系人群在大陆                       广西西北部、云南东部和南部等地也比较常
上的主体扩张可能仍集中在气候环境条件适                         见,这些地区也均有苗瑶族群分布。笔者初
宜的东亚东部地区,而很少涉足西部内陆地                         步判断东亚的 N 系单倍群在后来的发展中很
区。 不过 A4 的扩张主体此时已转向湖北西部                     可能成为苗瑶族群的母系遗传成分之一。
和重庆一带发展,这将为它之后在西部地区
的大举扩张赢得先机。
    近 1.0 万年以内: 从 1.0 万年前开始,
气温上升,气候变得相当温暖适宜。A4 开始
了 大 规 模 的 人 口 扩 张 。 A4a 、 A4-16274 、
A4-16124,还有 A 的分支 A-16234,16293C
都是在最近 1.0 万年内大举向中国西部地区
和北亚地区扩展的,A-16234,16293C 还进入
了泰国北部和印度东北部地区。此时
N9a-16129 及其主要支系 N9a1 也已进入湖
南、湖北一带,并向周边地区扩散。N9a2 和
A5c 在日本和韩国发生扩张,A5c 还一直分                     图 33. 苗瑶族群母系线粒体遗传第一主成分地理分
                                            布图         Fig.33     Distribution of the mitochondrial
布到贝加尔湖东部的部分族群中。Y1a 在远                       diversity principal component 1 of Hmong-Mien.
东阿穆尔河下游一带产生出 Y1a1,并向北迁
徙到鄂霍次克海沿岸和堪察加半岛,向南经                             为了解 N 系单倍群在苗瑶族群母系遗传
萨哈林岛进入日本。总体而言,N 系单倍群                        中的地位,笔者搜集了苗瑶族群以及可能与
向西藏、西北、北亚、远东地区的主体扩张                         其有血缘交流的周边汉族和泰国北部人的线
发生在比较晚近的时期。                                 粒体 DNA 分型数据[9-11,18,23,46],使用
    综上所述,尽管 N 系单倍群在 5.0 万年                  SPSS 13.0 软件进行母系线粒体遗传主成分
前已经到达中南半岛和东南亚地区,不过从                         分析,并绘制地理分布图,见图 33。从比对
重建的迁徙过程看,进入东亚腹地并发生大                         结果看只有第一主成分(占信息量的 51.5%)
规模扩张的时间却迟至 2.5-2.0 万年前。                     的分布具有明确的含义:苗瑶族群母系遗传
                                            第一主成分与 B5a 的分布特点十分近似,而
5.东亚 N 系单倍群族属初探                             与 A 和 N9a 的分布有较大的出入,这意味着
   从以上的大量分析中,笔者大致确定了                        B5a 才是苗瑶系民族中分布最普遍的单倍群
N 在东亚大陆上的主要分支 A、N9a 和 Y 均                   (图 34)。从各族群线粒体遗传中提取到的第
属北部湾地区起源。这意味着 N 系人群无疑                       一主成分信息量来看,是以瑶族群体最多,
属于南方起源的族群。   以往的研究结果显示,                     苗族其次,    华中汉族第三。所以笔者认为 B5a
在东亚南部线粒体 R 系单倍群 B、F 主要伴                     应该是瑶族母系的主体成分,而湖南、湖北
随着 Y 染色体 O 系单倍群[11,23,43,44]。笔              两省比较高发的 A、N9a 则很可能是当地历
者由此推断,  作为线粒体 R 单倍群祖先的 N,                   史上苗蛮族群母系的主体成分。除此之外,
很可能也伴随着 Y 染色体 O 单倍群的祖先                      笔者还注意到 B5a 有一个姊妹分支 B5b,在


                                       40
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                           研究报告




 图 34. 线粒体 A、N9a、B5a 和 B5b 单倍群发生频率地理分布图
 Fig.34 Distributions of the mitochondrial haplogroups A, N9a, B5a, and B5b.

江西南昌人中最高发,而且在日本人、韩国                                              接着笔者继续用 SPSS 13.0 软件进行因
人和琉球人中均有发现。        李辉等 2007 年论文                              子分析以验证上述观点。研究对象为苗瑶族
显示江西商代吴城遗址出土遗骨经检测 Y 染                                        群及其周边的一些汉族和少数民族群体,仅
色 体 类 型 属 于 苗 瑶 族 群 中 常 见 的 O2a 和                            选取其中与苗瑶族群相关的线粒体 N 系和
O3*[47]。由此可见 B5b 也应属于苗瑶族群的                                   B5 系单倍群分型数据用于分析,重点了解这
母系遗传成分,而且很可能对应着一个已消                                          两类苗瑶特征单倍群在现代族群中的分布情
失的苗瑶支系——古代吴人。                                                况(图 35)。可以看到它们聚为三个组团:位
                                                             于中部上方的 N 系单倍群、左下方的 B5a 和
                                                             右下方的 B5*和 B5b,显然对应苗瑶族内部
                                                             的三个主要支系,与笔者的判断非常吻合。
                                                                 图 36 所示为苗瑶族系及周边族群线粒
                                                             体单倍群的分析因子分析结果。主成分 1 区
                                                             分出了母系遗传混杂度较高(靠右)和成分比
                                                             较单一(靠左)的群体,  而主成分 2 区分出了 N
                                                             系及 B5 系单倍群的优势群体。图上半部分
                                                             是 B5 系单倍群优势群体, 包括了全部 5 个瑶
                                                             族群体;下半部分是 N 系单倍群优势群体,
                                                             出乎意料的是其中多数是华中、华东、华南
图 35. N 系和 B5 系单倍群因子分析二维散点图                                  地区的汉族群体而不是现代苗族群体。其中
Fig.35 Principal component plot of mitochondrial             湖北武汉汉族、广东南澳人、安徽合肥汉族、
haplogroups N and B5.



                                                        41
REPORT                                                                            COM. on C. A. 3:e3, 2009




图 36. 苗瑶族系及周边族群线粒体单倍群因子分析二维散点图 X—苗语族群,Y—瑶族,W—土家族,_—
壮侗族群,^—汉族,d—客家和闽南(含潮汕)语人。MHN—湘西苗族,MWS—云南文山苗族,THN—湘西
土家族,YWZ—广西梧州瑶,YBP—广东八排瑶,YGS—湖南过山瑶,YT—广西土瑶,YJM—云南金蒙瑶,
BN—广西布努瑶,DES—湖北恩施侗族,DTZ—贵州侗族,TYH—贵州土家族,DBN—云南傣族,HZJ—广
东湛江汉族,NAO—广东南澳岛民,CHS—广东潮汕人,MIN—福建闽南人,HAK—福建长汀客家,HYN—
云南汉族,HTL—广西田林汉族,HHZ—浙江杭州汉族,HHF—安徽合肥汉族,HNJ—江苏南京汉族,HCS
—湖南长沙汉族,HWH—湖北武汉汉族,HWC—四川维城汉族,HNC—江西南昌汉族,HSH—上海汉族,
MQ—上海马桥宕傣,HAY—河南安阳汉族,HTA—山东泰安汉族
Fig.36 Principal component plot of Hmong-Mien and neighboring populations based on mitochondrial diversity.

湖南长沙汉族的 N 系单倍群频率最高发,大                                    线粒体因子分析还揭示出南澳岛居民(N 系频
体在 18.4%-26.2%之间,表明原苗蛮族群的                                率 24.1%,B5 系频率 3.4%)和闽南人(N 系
母系成分大量流入了华中汉族和一些华东、                                      13.3%, 系 1.3%)之间的密切联系,
                                                                B5                   两者的
华南汉族群体中。                                                 N 系单倍群更高发,显示融合了大量原苗蛮
    统计显示:在苗语支的族群中,湘西苗                                    族群的母系成分。与此形成对照的是,福建
族 N 系单倍群发生频率为 12.6%,居然低于                                 长汀客家人(N 系 7.4%, 系 9.3%)和潮汕人
                                                                          B5
很多周边汉族的水平。而且湘西苗族与土家                                      (N 系 6.8%, 系 6.8%)的 N 系和 B5 系发生
                                                                   B5
族和部分周边汉族群体聚在一起,似乎暗示                                      频率大体接近,显示母系成分中同时包含苗
湘西苗族在历史上与土家族、汉族有着复杂                                      蛮和瑶族两种成分。
的互动关系。云南文山苗族和广西大化布努
瑶都是 B5 系单倍群的频率更高,   说明他们在
离开苗蛮民族原居地向西南地区迁徙过程中
                                                         结论
吸收了较多瑶族的母系遗传成分。另外,湖                                        N 系单倍群频率的地理分布研究显示,
北恩施侗族的母系成分中 N 系和 B5 系单倍                                  母系遗传并非杂乱无章、无规律可循地在各
群的发生频率高达 30%和 20%,其母系遗传                                  族群间大范围迁移。尽管经历了历史上无数
更接近苗瑶群体而不是壮侗群体,表明在其                                      次的民族迁徙、分化与融合,但是在细分单
发展历史中融合吸收了大量苗瑶民族成分。                                      倍型的基础上,仍能通过地理分布和变异频


                                                    42
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                         研究报告


率分析重建其迁徙流动的主体方向和路线。                伊努人中也发现 1 例 A4 原始型样本 A38,  暗
具体来说,A、N9a、Y 和 N9b 都是由北部湾          示迁入日本的年代已很久远。
一带起源,然后在大约 2.5-2.0 万年前进入华            而在日本中部的 2 个 A4 样本均非原始
中地区再向其他地区扩散的,因而它们最早                型:日本 KA021 和江苏 JIANGSU15 均属同
应该都是同一史前族群的母系遗传成分。苗                一单倍型 A4-16179,16311,显示此类型应为
瑶及周边族群母系遗传因子分析再次证实了                华东起源;日本 ON125 属于 A4a,鉴于 A4a
以往研究得出重要结论:母系线粒体遗传通                在华东地区仅存在 1 例江苏 JIANGSU28,而
常与地理位置有着更密切的联系。换言之,                在韩国样本中没有发现,所以日本的 A4a 很
位置接近(而族属未必相同)的族群通常具有               可能也来自华东地区的移民[6,9]。 A4 非原
                                                         从
相似的母系遗传结构。这一特点与有关研究                始型分布的地理局限性以及 A4a 的分化时间
所得出的父系 Y 染色体遗传结构主要与民族
和语言属性密切相关的结论完全不同
[46,48]。鉴于 N 系单倍群与华中地区历史上
苗蛮族系有着密切的联系,可将东亚 N 世系
所属的史前族群称为“原始苗人”      。
     统计显示,N 系单倍群在湖南苗族中的
发生频率并不比其他一些周边民族的发生频
率更高,可以推断已消失的“原始苗人”的
遗传基因不仅被现代苗族所继承,而且也被
晚期扩张和迁入的其他民族大量吸收。由于
现代苗族母系遗传中还有其他外族成分的融
入,所以不能视为“原始苗人”的直系后裔,
                                   图 37. 线粒体 A4 和 A5a 单倍群在日本和韩国的分布
而只是其众多的继承者之一。      这清楚地表明,
                                   红色代表大陆上常见的 A4,蓝色代表日韩地区常见
在现代民族和史前族群之间存在着极大的差                的 A5a。
异。  现代民族其实是在父系遗传或强势语言、             Fig.37 Distributions of the mitochondrial haplogroups
                                   A4 and A5a in Japan and Korea. Red stands for the
文化因素的主导下,由若干个史前族群经过                haplogroup A4 common in mainland, and blue for the
长期同化与融合所形成。                        A5a common in Korea and Japan.



讨论
A4 和 A5a 在日韩人中所展现的移民层次
    笔者在分析数据时发现,A 单倍群在日
本和朝韩人中的分布层次似乎显示了一些未
知的人群迁徙和扩散事件。 37 是根据日本
                图
人、韩国人、朝鲜人(以内蒙阿荣旗朝鲜族数
据代替)和阿伊努人的 A 样本中 A4 和 A5a 所
占比例所绘制的分布图。
    从高变 1 区特征看,日本九州(宫崎县)
和韩国 A4 样本都是以原始类型居多:   日本九
州的 4 例 A4 样本都是原始型; 韩国人 A4 个
体中原始型占 64%。而在华东汉族(江苏、安
徽、浙江、辽宁)的 14 例 A4 样本中仅有 3 例        图 38. 冰河时期的日本 黄色区域代表现在的陆地,
为原始型,比例 21.4%。显然日本九州居民             浅黄色区域显示了冰期时扩展的陆地。
在母系遗传上与韩国人更为接近。此外,阿                Fig.38 Japan in Ice Age. Yellow stands for the present
                                   land, and light yellow for the extended land in Ice Age.



                              43
REPORT                                                             COM. on C. A. 3:e3, 2009


约 9400 年前来看, 这似乎是一次相对晚近的                 传方面,除发现了 B5a 外,还发现了 N 系的
移民事件。                                    下游分支 Y2 和 N9a-16129、N9a-r16261。而
     笔者还发现在日本中部人和北朝鲜人 A                  在海峡对岸闽南和粤东一带出现的 N 系分支
样 本 中 A5a 比 例 很 高 , 分 别 为 79.2% 和        完 全 不 同 , 包 括 Y1 和 N9a 原 始 型 、
57.1%。由于 A5a 在大陆上极为罕见,所以                 N9a*(16311)、N9a1、N9a4、N9a6a,显示台
这应该是一次日韩本地人口扩张事件的遗                       湾原住民并不是晚近时期来自大陆的移民。
迹。日本人中也发现有 A5b 和 A5c,不过发                     笔者查阅了相关地质资料,结果发现有
生频率较低,无法为分析提供足够的信息。                      一处地理构造是决定台湾海峡两岸移民分布
     考虑到在冰川期时日本南部和朝鲜半                    的决定性因素,即东山陆桥和台湾浅滩(图
岛之间的大陆架会露出海面并最终接合形成                      39)。东山陆桥是由台湾海峡中南部海平面下
陆桥(图 38),所以大体可以确定从南方进入                   的一些浅滩组成。      西起福建南部东山岛东南,
的移民首先会抵达日本西部地区,再向中部                      向东延伸至海峡中部的台湾浅滩,而后再经
地区扩散。据此可推测出日韩 A 系下游单倍                    南澎湖浅滩、北澎湖浅滩和台西浅滩至台西
群向日本移民的最有可能的次序:最早发生                      附近。其深度一般在 40 米上下。有关研究显
的是 A4 原始型的迁入和在日本列岛和朝鲜                    示,在 2.3-1.2 万年前末次冰期时,这里的海
半岛的扩散,而后是 A5a 在日本和朝鲜半岛                   平面最多可下降约 120 米,东山陆桥大部分
产生的人口扩张,最后是 A4 非原始型(包括                   成为陆地,可供史前人类通行[36,37]。东山
A4a)自华东地区向日本中部的移民。                       岛海域 “东山人”化石及台湾左镇人化石的
                                         发现,充分说明史前移民是从福建东山岛启
线粒体 A5 单倍群与 Y 染色体 O2b 单倍群的               程,经东山陆桥进入台湾西南部地区[52]。
密切关联
    总体而言,在日本人的母系成分中 A4
频率很低,而 A5a 频率较高。鉴于 A5a 在大
陆上非常罕见,笔者认为日本的 A5a 主要与
Y 染色体 O2b 单倍群尤其是 O2b1 有着密切
的关联。有关文献表明,在大陆上有 A5b 和
A5c 分布的一些地方,比如闽南、华东和泰
国等地,  也同时发现有 Y 染色体 O2b 单倍群
存在[49-51]。这显示了在东亚和东北亚地区
线粒体 A5 单倍群与 Y 染色体 O2b 单倍群之
间的密切关联,看起来两者很可能是作为同
一族群的父系和母系成分一道迁徙的。不过
在东南亚岛屿(如印尼、   菲律宾)一带的情况有
所不同,这里存在父系 O2b 单倍群,但并不
伴随出现母系 A5 单倍群,甚至连 A*和 A4                 图 39. 台湾岛周边海洋深度分色示意图
都不存在。因此,对于东南亚 Y 染色体 O2b                  Fig.39 The relief map of the seabed around Taiwan
                                         Island.
单倍群究竟对应何种母系成分仍需要进一步
研究。                                          图 40 显示了台湾原住民中 Y2 和 N9a 单
                                         倍群的大体分布区域。不难判断,应该是位
东山陆桥与史前台湾的移民层次                           置最靠北的 Y2 最先进入台湾,   其次是中东部
    在台湾原住民的来源中,笔者发现无论                    沿海分布的 N9a-r16261,最后才是南部的
父系还是母系遗传上都存在少量的原苗瑶族                      N9a-16129。从年代测算结果看,N9a-16129
系的成分。苗瑶族群中常见的 Y 染色体单倍                    的分化年代约为 2.0 万年前,而海峡对岸大
群 O2a、O2a1 和 O3*都有发现。在线粒体遗               陆居民中存在的 Y1 和 N9a1 分化时间分别为


                                    44
陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化                                                                                                              研究报告


                                                                             3. Hill C, Soares P, Mormina M, Macaulay V, Clarke D,
                                                                               Blumbach P, Vizuete-Forster M, Forster P, Bulbeck D,
                                                                               Oppenheimer S, Richards M (2007) A Mitochondrial
                                                                               Stratigraphy for Island Southeast Asia. Am J Hum Genet
                                                                               80:29-43.
                                                                             4. Hill C, Soares P, Mormina M, Macaulay V, Meehan W,
                                                                               Blackburn J, Clarke D, Raja JM, Ismail P, Bulbeck D,
                                                                               Oppenheimer S, Richards M (2006) Phylogeography and
                                                                               ethnogenesis of aboriginal Southeast Asians. Mol Biol Evol
                                                                               23:2480-2491.
                                                                             5. Macaulay V, Hill C, Achilli A, Rengo C, Clarke D, Meehan W,
                                                                               Blackburn J, Semino O, Scozzari R, Cruciani F, Taha A, Shaari
                                                                               NK, Raja JM, Ismail P, Zainuddin Z, Goodwin W, Bulbeck D,
                                                                               Bandelt HJ, Oppenheimer S, Torroni A, Richards M (2005)
                                                                               Single, rapid coastal settlement of Asia revealed by analysis of
                                                                               complete mitochondrial genomes. Science 308:1034-1036.
                                                                             6. Tanaka M, Cabrera VM, González AM, Larruga JM, Takeyasu
                                                                               T, Fuku N, Guo LJ, Hirose R, Fujita Y, Kurata M, Shinoda K,
                                                                               Umetsu K, Yamada Y, Oshida Y, Sato Y, Hattori N, Mizuno Y,
                                                                               Arai Y, Hirose N, Ohta S, Ogawa O, Tanaka Y, Kawamori R,
                                                                               Shamoto-Nagai M, Maruyama W, Shimokata H, Suzuki R,
图 40. 线粒体 Y2 和 N9a 单倍群在台湾原住民中的分
                                                                               Shimodaira H (2004) Mitochondrial genome variation in eastern
布叠加图 红色—Y2,蓝色—N9a-r16261,绿色—                                                   Asia and the peopling of Japan. Genome Res 14:1832-1850.
N9a-16129。                                                                   7. Starikovskaya EB, Sukernik RI, Derbeneva OA, Volodko NV,
Fig.40 Distributions of the mitochondrial haplogroups                          Ruiz-Pesini E, Torroni A, Brown MD, Lott MT, Hosseini SH,
Y2 and N9a in Taiwan aborigines. Red:Y2, blue:                                 Huoponen K, Wallace DC (2004) Mitochondrial DNA diversity
N9a-r16261, green:N9a-16129.                                                   in indigenous populations of the southern extent of Siberia, and
                                                                               the origins of Native American haplogroups. Ann Hum Genet
                                                                               69:67-89.
1.39 万年前和 8000 年前。这个结果与地质学                                                   8. Kong QP, Bandelt HJ, Sun C, Yao YG, Salas A, Achilli A, Wang
研究结果基本一致,      说明台湾原住民中的“原                                                     CY, Zhong L, Zhu CL, Wu SF, Torroni A, Zhang YP (2006)
                                                                               Updating the East Asian mtDNA phylogeny: a prerequisite for
始苗人”成分应该就是在 2.3-1.2 万年前海平                                                      the identification of pathogenic mutations. Hum Mol Genet
                                                                               15:2076-2086.
面较低的时期经由东山陆桥进入台湾的。而
                                                                             9. Wen B, Li H, Lu D, Song X, Zhang F, He Y, Li F, Gao Y, Mao
在陆桥不通但台湾浅滩露出海平面的时期,                                                            X, Zhang L, Qian J, Tan J, Jin J, Huang W, Deka R, Su B,
                                                                               Chakraborty R, Jin L (2004) Genetic evidence supports demic
这里也能为史前人类提供丰富的海洋食物来                                                            diffusion of Han culture. Nature 431:302-305.
源。笔者认为这很可能是 N 系各分支类型在                                                        10. Li X, Su M, Huang H, Li H, Tian D, Gao Y (2007) mtDNA
                                                                               evidence: Genetic background associated with related
粤东、闽南沿海地区集中分布的重要原因。                                                            populations at high risk for esophageal cancer between Chaoshan
                                                                               and Taihang Mountain areas in China. Genomics 90:474–481.
                                                                             11. Li H, Cai X, Winograd-Cort ER, Wen B, Cheng X, Qin Z, Liu
致谢                                                                             W, Liu Y, Pan S, Qian J, Tan CC, Jin L(2007) Mitochondrial
  对兰海先生在资料搜集方面的协助以及李辉博士的答疑表                                                    DNA Diversity and Population Differentiation in Southern East
示诚挚的谢意!                                                                        Asia. Am J Phys Anthropol 134:481–488.
                                                                             12. Gan RJ, Pan SL, Mustavich LF, Qin ZD, Cai XY, Qian J, Liu
附件                                                                             CW, Peng JH, Li SL, Xu JS, Jin L, Li H; Genographic
附表 1.各族群 mtDNA 数据来源文献与数据库信息一览表                                                 Consortium (2008) Pinghua population as an exception of Han
Supplementary table 1. Resources for the mtDNA data of                         Chinese's coherent genetic structure. J Hum Genet 53, 303–313.
population samples                                                           13. Yao YG, Kong QP, Wang CY, Zhu CL, Zhang YP (2004)
http://COMonCA.org.cn/PDF/2009/COMONCA03-003S.doc
                                                                               Different matrilineal contributions to genetic structure of ethnic
网上资源                                                                           groups in the silk road region in china. Mol Biol Evol
                                                                               21:2265-2280.
GenBank, http://www.ncbi.nlm.nih.gov/Genbank/
                                                                             14. Palanichamy MG, Sun C, Agrawal S, Bandelt HJ, Kong QP,
CLC Free Workbench 4.5.1, http://www.clcbio.com/index.php?id=28
                                                                               Khan F, Wang CY, Chaudhuri TK, Palla V, Zhang YP (2004)
Network 4.5.0.0, http://www.fluxus-engineering.com/sharenet.htm
                                                                               Phylogeny of mitochondrial DNA macrohaplogroup N in India,
Sufer 8.0, http://www.goldensoftware.com/products/surfer/surfer.shtml
                                                                               based on complete sequencing: implications for the peopling of
参考文献                                                                           South Asia. Am J Hum Genet 75:966-978.
                                                                             15.孔庆鹏,张亚平 (2008) 人类线粒体DNA 世系的系统发育关
1. Hudjashov G, Kivisild T, Underhill PA, Endicott P, Sanchez JJ,
                                                                               系研究. 生命科学 20:540-548.
  Lin AA, Shen P, Oefner P, Renfrew C, Villems R, Forster P
                                                                             16. Ingman M, Gyllensten U (2007) Rate variation between
  (2007) Revealing the prehistoric settlement of Australia by Y
                                                                               mitochondrial domains and adaptive evolution in humans. Hum
  chromosome and mtDNA analysis. Proc Natl Acad Sci USA
                                                                               Mol Genet 16:2281-2287.
  104:8726-8730.
                                                                             17. Kong QP, Yao YG, Sun C, Bandelt HJ, Zhu CL, Zhang YP
2. Metspalu M, Kivisild T, Bandelt HJ, Richards M, Villems R
                                                                               (2003) Phylogeny of east Asian mitochondrial DNA lineages
  (2006) The pioneer settlement of modern humans in Asia. In:
                                                                               inferred from complete sequences. Am J Hum Genet 73:671-676.
  Bandelt HJ, Macaulay V, Richards M (eds) Human
                                                                             18. Wen B, Xie X, Gao S, Li H, Shi H, Song X, Qian T, Xiao C,
  mitochondrial DNA and the evolution of Homo sapiens.
                                                                               Jin J, Su B, Lu D, Chakraborty R, Jin L (2004) Analyses of
  Springer-Verlag, 181–199.



                                                                        45
REPORT                                                                                                       COM. on C. A. 3:e3, 2009


 Genetic Structure of Tibeto-Burman Populations Reveals                     inferences drawn from ancient DNA. Mol Biol Evol 20:214-219.
 Sex-Biased Admixture in Southern Tibeto-Burmans. Am J Hum                 35. Derenko MV, Grzybowski T, Malyarchuk BA, Dambueva IK,
 Genet 74:856–865.                                                          Denisova GA, Czarny J, Dorzhu CM, Kakpakov VT,
19. Lee HY, Yoo JE, Park MJ, Chung U, Kim CY, Shin KJ (2006)                Miścicka-Sliwka D, Woźniak M, Zakharov IA (2003) Diversity
 East Asian mtDNA haplogroup determination in Koreans:                      of mitochondrial DNA lineages in South Siberia. Ann Hum
 Haplogroup-level coding region SNP analysis and                            Genet 67:391-411.
 subhaplogroup-level control region sequence analysis.                     36. 林 观 得 (1982) 台 湾 海 峡 海 底 地 貌 的 探 讨 . 台 湾 海 峡
 Electrophoresis 27:4408-4418.                                              1(2):58-63.
20. Derenko M, Malyarchuk B, Grzybowski T, Denisova G,                     37. 蔡保全 (2002) 晚玉木冰期台湾海峡成陆的证据. 海洋科
 Dambueva I, Perkova M, Dorzhu C, Luzina F, Lee HK, Vanecek                 学 26(6):51-54.
 T, Villems R, Zakharov I (2007) Phylogeographic analysis of               38. Tajima A, Hayami M, Tokunaga K, Juji T, Matsuo M, Marzuki
 mitochondrial DNA in northern Asian populations. Am J Hum                  S, Omoto K, Horai S (2004) Genetic origins of the Ainu inferred
 Genet 81:1025–1041.                                                        from combined DNA analyses of maternal and paternal lineages.
21. Volodko NV, Starikovskaya EB, Mazunin IO, Eltsov NP,                    J Hum Genet 49:187-193.
 Naidenko PV, Wallace DC, Sukernik RI (2008) Mitochondrial                 39. Horai S, Murayama K, Hayasaka K, Matsubayashi S, Hattori Y,
 genome diversity in arctic Siberians, with particular reference to         Fucharoen G, Harihara S, Park KS, Omoto K, Pan IH (1996)
 the evolutionary history of Beringia and Pleistocenic peopling of          mtDNA polymorphism in East Asian Populations, with special
 the Americas. Am J Hum Genet 82:1084-1100.                                 reference to the peopling of Japan. Am J Hum Genet 59:579-590.
22. Yao YG, Kong QP, Bandelt HJ, Kivisild T, Zhang YP (2002)               40. Forster P, Harding R, Torroni A, Bandelt HJ (1996) Origin and
 Phylogeographic differentiation of mitochondrial DNA in Han                evolution of Native American mtDNA variation: a reappraisal.
 Chinese. Am J Hum Genet 70:635-651.                                        Am J Hum Genet 59:935-945.
23.Wen B, Li H, Gao S, Mao X, Gao Y, Li F, Zhang F, He Y,                  41. Mishmar D, Ruiz-Pesini E, Golik P, Macaulay V, Clark AG,
 Dong Y, Zhang Y, Huang W, Jin J, Xiao C, Lu D, Chakraborty R,              Hosseini S, Brandon M, Easley K, Chen E, Brown MD, Sukernik
 Su B, Deka R, Jin L(2004) Genetic Structure of Hmong-Mien                  RI, Olckers A, Wallace DC (2003) Natural selection shaped
 Speaking Populations in East Asia as Revealed by mtDNA                     regional mtDNA variation in humans. Proc Natl Acad Sci USA
 Lineages. Mol Biol Evol 22:725–734.                                        100:171-176.
24. 王青峰,常城 (2008) 我国藏族人群线粒体DNA系统发育基                                        42. 施雅风,崔之久,苏珍 (2006)中国第四纪冰川与环境变化.石
 因组学研究.兰州大学2008届硕士学位论文.                                                     家庄:河北科学技术出版社. 566-567,602-604.
25. Kong QP, Yao YG, Liu M, Shen SP, Chen C, Zhu CL,                       43. Su B, Xiao J, Underhill P, Deka R, Zhang W, Akey J, Huang
 Palanichamy MG, Zhang YP (2003) Mitochondrial DNA                          W, Shen D, Lu D, Luo J, Chu J, Tan J, Shen P, Davis R,
 sequence polymorphisms of five ethnic populations from                     Cavalli-Sforza L, Chakraborty R, Xiong M, Du R, Oefner P,
 northern China. Hum Genet 113:391-405.                                     Chen Z, Jin L (1999) Y-Chromosome evidence for a northward
26. Reddy BM, Langstieh BT, Kumar V, Nagaraja T, Reddy AN,                  migration of modern humans into Eastern Asia during the last Ice
 Meka A, Reddy AG, Thangaraj K, Singh L (2007)                              Age. Am J Hum Genet 65:1718-1724.
 Austro-Asiatic tribes of Northeast India provide hitherto missing         44. Xue Y, Zerjal T, Bao W, Zhu S, Shu Q, Xu J, Du R, Fu S, Li P,
 genetic link between South and Southeast Asia. PLoS ONE                    Hurles ME, Yang H, Tyler-Smith C (2006) Male demography in
 2(11):e1141.                                                               East Asia: a north-south contrast in human population expansion
27. 李彬彬, 钟复光, 易红生, 王先然, 李良芳, 王丽兰, 齐晓                                        times. Genetics 172:2431-2439.
 岚, 吴立甫 (2007) 贵州侗族、仡佬族、土家族和彝族人群线                                          45. Kayser M, Brauer S, Cordaux R, Casto A, Lao O, Zhivotovsky
 粒体DNA 多态性研究. 遗传学报 34: 800-811.                                             LA, Moyse-Faurie C, Rutledge RB, Schiefenhoevel W, Gil D,
28. Saillard J, Forster P, Lynnerup N, Bandelt HJ, Nørby S (2000)           Lin AA, Underhill PA, Oefner PJ, Trent RJ, Stoneking M (2006)
 mtDNA variation among Greenland Eskimos: the edge of the                   Melanesian and Asian origins of Polynesians: mtDNA and Y
 Beringian expansion. Am J Hum Genet 67:718-726.                            chromosome gradients across the Pacific. Mol Biol Evol
29. Trejaut JA, Kivisild T, Loo JH, Lee CL, He CL, Hsu CJ, Lee              23:2234-2244.
 ZY, Lin M (2005) Traces of archaic mitochondrial lineages                 46. 文波,金力(2004)Y染色体、mtDNA多态性与东亚人群的遗
 persist in Austronesian-speaking Formosan populations. PLoS                传结构. 复旦大学2004年遗传学专业博士论文.
 Biol 3(8):e247.                                                           47. Li H, Huang Y, Mustavich LF, Zhang F, Tan JZ, Wang LE,
30. Oota H, Kitano T, Jin F, Yuasa I, Wang L, Ueda S, Saitou N,             Qian J, Gao MH, Jin L (2007) Y chromosomes of prehistoric
 Stoneking M.(2002)Extreme mtDNA Homogeneity in                             people along the Yangtze River. Hum Genet 122:383-388.
 Continental Asian Populations. Am J Phys Anthropol                        48. 高嵩,金力 (2004) 东亚人群线粒体遗传多态研究. 复旦大
 118:146–153.                                                               学人类生物学2004年毕业论文.
31. Ji Y, Zhang AM, Jia X, Zhang YP, Xiao X, Li S, Guo X,                  49. Lin SJ, Tanaka K, Leonard W, Gerelsaikhan T, Dashnyam B,
 Bandelt HJ, Zhang Q, Yao YG (2008) Mitochondrial DNA                       Nyamkhishig S, Hida A, Nakahori Y, Omoto K, Crawford MH,
 haplogroups M7b1'2 and M8a affect clinical expression of leber             Nakagome Y (1994) A Y-associated allele is shared among a few
 hereditary optic neuropathy in Chinese families with the                   ethnic groups of Asia. Jpn J Hum Genet 39:299-304.
 m.11778G→A mutation. Am J Hum Genet 83:760-768.                           50. Jin HJ, Kwak KD, Hammer MF, Nakahori Y, Shinka T, Lee
32. Cheng B, Tang W, He L, Dong Y, Lu J, Lei Y, Yu H, Zhang J,              JW, Jin F, Jia X, Tyler-Smith C, Kim W (2003) Y-chromosomal
 Xiao C (2008) Genetic imprint of the Mongol: signal from                   DNA haplogroups and their implications for the dual origins of
 phylogeographic analysis of mitochondrial DNA. J Hum Genet                 the Koreans. Hum Genet 114:27-35.
 53:905–913.                                                               51. Lu C, Zhang J, Li Y, Xia Y, Zhang F, Wu B, Wu W, Ji G, Gu
33. Yao YG, Nie L, Harpending H, Fu YX, Yuan ZG, Zhang YP                   A, Wang S, Jin L, Wang X (2007) The b2/b3 subdeletion shows
 (2002) Genetic relationship of Chinese ethnic populations                  higher risk of spermatogenic failure and higher frequency of
 revealed by mtDNA sequence diversity. Am J Phys Anthropol                  complete AZFc deletion than the gr/gr subdeletion in a Chinese
 118:63-76.                                                                 population. Hum Mol Genet 18:1122-1130.
34. Yao YG, Kong QP, Man XY, Bandelt HJ, Zhang YP (2003)                   52. 蔡保全 (1997) “东山陆桥”与台湾最早人类. 漳州师院学
 Reconstructing the evolutionary history of China: a caveat about           报 (3):31-36.




                                                                      46

Haplogroup N research

  • 1.
     15(S):13-46 ª 现代人类学通讯 第三卷 2009 年 Communication on Contemporary Anthropology COM. on C. A. 3:e3, 2009 Vol. 3 研究报告 东亚人群线粒体 N 系单倍群的迁徙分化 陈致勇 中国恐龙网论坛, 上海 200085 摘要:线粒体 N 系单倍群是东亚人母系线粒体遗传 M、N 和 R 三大系统之一。本文在汇总大量亚洲东部族群线 粒体 N 系单倍群序列和数据的基础上,通过重建系统发生学关系,明确了东亚人的 N 世系(A、N9a、Y、N9b 等)直接源自北部湾地区,应为东南亚起源而非中亚起源。年代测算表明 N 系单倍群很可能在 5.0 万年前已到 达东南亚地区,在东亚大陆大规模扩张的时间大致始于 2.5-2.0 万年前。地理分析显示,华中地区是 N 系下 游单倍群 A、N9a 和 Y 扩散分化和集中分布的主要地区,暗示 N 系单倍群可能与苗瑶族系,特别是与古代的苗 蛮民族有着密切的联系。因而可将 N 系单倍群所属的史前族群视为“原始苗人”。但进一步的分析显示 N 系单 倍群的成分不仅存在于湖南苗族的母系遗传中,也大量流入了周边汉族和其他少数民族群体中。表明在母系 遗传上湖南苗族不是史前“原始苗人”的唯一直系后裔,而只是分享其母系遗传的众多后继者之一。 关键词:线粒体;N 系;单倍群;东亚;北部湾;迁徙;苗瑶 Migration and Diversification of Mitochondrial Haplogroup N in East Asians CHEN Zhiyong China Dinasour Forum, Shanghai 200085 China Abstract:Mitochondrial superhaplogroup N is one of the three dominant haplogroups M, N and R in the East Asians. Here published sequences and data of haplogroup N in East Asia were collected and the phylogenesis was reconstructured. The origin of the N lineage of East Asians (A, N9a, Y, N9b, etc.) was found to be beside Tonkin Bay, not in Central Asia but in Southeast Asia. Time estimates suggested that superhaplogroup N most probably arrived in Southeast Asia 50 thousand years ago, and started to expand in mainland of East Asia around 25-20 thousand years ago. Geographic analyses showed that middle China was the diffusion center of the downstream haplogroups A, N9a, and Y, indicating haplogroup N might be associated to Hmong-Mien, especially to the ancient “Miao Man”. Therefore, the ancient population with the haplogroup N might be defined as “proto-Hmong”. Further analyses showed that haplogroup N distributes not only in Hmong from Hunan but also in the neighboring Han Chinese and other minorities. Present Hmong is not the only descendant of “proto-Hmong” but one of those descendant sharing haplogroup N. Key words: Mitochondria; Haplogroup N; East Asia; Tonkin Bay; Migration; Hmong-Mien 系统性的分析。结果显示东亚线粒体 N 世系 前言 同样属于南方起源,东亚人的祖先主要由南 笔者早先在研究东亚母系线粒体遗传 方(南亚和东亚南部)沿海路线迁徙而来。 地理分布时, 发现线粒体 M 系和 R 系的早期 此外,由于在不同族群融合时经常出现 类型都明确地显示出在中国南方集中分布的 性别偏向性,史前族群的大部分父系遗传结 迹象,表明均属于南方起源,与一些文献的 构经常被晚近时期强势民族的父系标记所掩 研究结果基本吻合[1,2]。但是对 N 系单倍群 盖。而母系遗传结构则忠实地记录了历史上 (A、N9a 和 Y 等)早期类型单倍群地理分布的 不同的移民层次,对于追寻远古族群的迁徙 研究却没能为追溯起源提供更多的线索,现 历史来说是非常理想和有效的工具。因此充 有文献对此也是语焉不详。笔者认为其中主 分、准确地解读东亚人母系线粒体遗传所携 要的问题在于对线粒体单倍群细分不够和研 带的丰富信息,将有助于我们最终破解东亚 究深入程度不够。因此广泛搜集亚洲东部 N 民族远古起源之谜。 系单倍群的序列和样本对其进行最为完整和 收稿日期:2009 年 3 月 8 日 修回日期:2009 年 4 月 21 日 联系人:陈致勇 nickchen1@vip.sina.com 2009 年 4 月 22 日 http://COMonCA.org.cn/Abs/2009/003.htm 13 ©上海人类学学会 Shanghai Society of Anthropology
  • 2.
    REPORT COM. on C. A. 3:e3, 2009 共计 1173 条。其中 N*序列 41 条, 序列 552 A 材料与方法 条,N9a 序列 296 条,Y 序列 199 条,N9b 样本的搜集 序列 41 条,N21 序列 36 条,N22 序列 8 条。 本次研究的序列和数据主要来自以往 另外,许多带有 16189 位点突变的序列 文献及 GenBank 数据库,来源详见附件。鉴 也极易在高变 1 区 16181-16193 片段上发生 于 N 系单倍群的起源地很可能在境外,而且 更多的关联突变。考虑到对分型价值不大, 分布范围远及东南亚岛屿、印度东北部、北 在主要分析中对上述片段中的插入、删除以 亚、北极等广大地区,因此本次研究在亚洲 及突变为 C 的颠换等非特征变异均予以排 东部范围内全面搜集蒙古人种各群体 N 系单 除。 倍群的高变 1 区序列和全序列数据,以及可 转化为序列的高变 1 区突变数据,用于分布 主要分析方法 频率分析。图 1 显示了本文主要数据采样点 1.全序列分析 的分布情况。 对于线粒体 DNA 研究来说,最准确和 最有效的方法就是进行全序列的比对分析。 不过由于测试费用太高等原因,现在公开发 表的国内和东南亚的 mtDNA 全序列还很少。 所以目前主要还是采取高变 1 区分析为主、 全序列分析为辅的方式。 2.高变 1 区中接网络分析 本次研究综合了多种分析方法。首先, 在参考有关文献根据 mtDNA 全序列研究所 得到的系统发生树的前提下,使用 Network 4.5.0.0 系统发生学软件构建线粒体高变 1 区 中接网络(Median-joining Network),Network 软件可以从纷繁复杂的序列数据中归纳出线 粒体单倍群的分化结构,并提供高频突变位 图 1. 本文数据主要采样点的位置分布图 点的信息。 Fig.1 Distribution of the population samples analyzed 3.单倍群发生频率的地理分布分析 in this paper. 在充分分析中接网络和分类数据的基 数据预处理 础上,再使用 Sufer 8.0 三维成像软件分别将 首先从样本或可转换数据中筛选出包 研究对象的分型数据,包括主要分支、原始 含比较完整的高变 1 区特征突变的数据,用 类型和未定义类型的发生频率数据绘制成直 于分布频率和变异频率分析。对错误的数据 观的地理分布图。其中原始型和未定义类型 能采取两种处理方式:对于错误分型或未细 的频率分布图可以为我们提供此单倍群早期 分但特征突变特别清楚的数据进行重新分 分化和晚期扩散的重要信息。 型;对于突变数据明显有误且特征突变不清 本文所说的某线粒体单倍群的原始型, 晰 的 直 接 剔 除 。 而 后 使 用 CLC Free 就是在高变 1 区特征上与系统发生树推导出 Workbench 4.5.1 生物信息软件将其中完整或 的单倍群祖型完全一致的单倍型。而未定义 基本完整的数据统一处理为 16024-16383 位 类型指的是在该单倍群的高变 1 区数据中剔 点、长度为 360bp 片段,用于高变 1 区中接 除原始型及其主要分支后余下的单倍型。 网络分析。对于没有分型的高变 1 区序列, 4.扩散效应分析 根据可靠的低突变位点或者联合多个位点特 在分析过程中笔者发现:由于人口数量 征进行最终确认,不能确认的予以排除。最 较少史前人类经常是整个族群一起迁移,沿 后选用的 N 系单倍群高变 1 区序列(或数据) 途通常只留下少量且不连续的痕迹;或者早 14
  • 3.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 期迁徙事件遗留下来的少量痕迹可能受到后 显然,出现上述第一种情况的区域是早 期其他迁徙事件的冲刷和扭曲,这些都使我 期扩散中心的可能性很大。即使分布频率只 们难以对早期分化迁徙过程作出准确的判 留下很少的遗迹,我们仍然可以通过高变异 断。现有的分子人类学分析方法无法有效地 频率找到远古人群扩散的重要线索。 解决这个难题。为此笔者尝试使用一种新的 分析方法——扩散效应分析。原理在于不同 未定义单倍群的命名 的扩散模式会在地理分布和遗传分布上出现 在下面的分析中,为了避免在命名编号 不同的特征,我们可以综合这两方面的信息 的问题上与其他文献发生冲突,笔者对于已 推断出扩散模式、起始地点、迁移路线等重 有定义的亚单倍群将遵从最权威的命名,而 要结果。 对未定名的亚单倍群只标注高变 1 区特征位 这种分析需要一个新的指标来度量和 点,这样直观易懂而且不会引起歧义。 分析族群内部变异的积累程度, 可称之为“群 体内部变异频率” 。计算方法为:首先在作为 研究对象的某个单倍群高变 1 区数据中去除 结果和分析 原始型和所有或大或小的分支,筛选出无法 1.线粒体 N 单倍群 细分的样本,这些样本可以为我们提供各群 N 系单倍群在亚洲东部广大地区都有分 体内部遗传分化的信息。然后,统计出每个 布,在已定义分支中:A 和 N9a 主要分布在 采样群体中无法细分样本的特异突变位点的 东亚和北亚地区,N21 和 N22 分布在东南亚 总数(注意在相同位点上同时出现转换和颠 地区[3-5],N9b 分布在东北亚和西伯利亚远 换可计数 2 次) 用这个突变位点数除以该群 。 东滨海地区[6,7],而 Y 在东南亚、东亚和东 体的样本总数,就得到群体内部变异频率。 北亚地区都能找到。 接下来将使用 Sufer 软件绘出群体内部 与上述已定义的下游单倍群不同的是, 分化度的地理分布图。对比某一单倍群分布 N 未定义类型的分布极为有限。在笔者所搜 频率和内部变异频率的地理分布图,会发现 集到的全部序列和数据中:N*集中分布于北 主要有三种情况出现: 部湾地区,包括越南北部、中国广西自治区 (1)某一区域内单倍群发生频率和变异频 和海南;也分布在中国南方地区和东南亚部 率都比较高。这通常是群体大规模扩散的迹 分地区;低频出现在中国北方少数地区。但 象。大规模扩散是一个长期的过程,人口大 在境外的北亚、中亚和北极地区一例都没有 量增殖带来遗传突变几率的增加,在较长的 发现。 时间跨度内群体内部必然有大量新的变异型 出现。 1.1. N 单倍群高变 1 区中接网络 (2)某一区域内的变异频率较高,而单倍 图 2 就是根据亚洲东部线粒体 N 系单倍 群发生频率不高。这可能是小群体迁徙的迹 群数据绘制的高变 1 区中接网络。笔者参考 象。在遗传漂变的作用下,新的变异类型有 以往文献中的系统发生树去除了其中冗余的 时会偶然获得在迁徙群体内部扩大其比例的 连线[2,8],排除了一些可能由高突变位点所 机会,迁徙距离越长则群体内部积累的变异 形成的网状拓扑结构。另外,笔者在数据中 越多。又称为瓶颈效应或奠基者效应。 发现 2 个可能属于西部欧亚 N 世系 N1c 和 W (3)某一区域内单倍群发生频率较高,而 的陕西样本 SHANNXI11、 SHANNXI13(陕西 变异频率不高。有可能是族群整体迁徙,群 标准拼写应为 Shaanxi,原文有误),也予以 体内部新产生的变异很难获得扩大比例的机 排除[9]。网络中还加入了 N 系在东亚的主要 会,导致变异频率没有显著增加。或者是晚 分支 A 和 N9a 的原始型样本,以便更清楚地 近时期环境和生存条件改善而导致短期内人 展现亚洲东部 N 系单倍群的全貌。不过笔者 口大量增长,但是由于某种原因只持续了较 没有在数据中找到真正的 Y 原始型,而 N9b 短的时间并未大规模扩散。 原始型的高变 1 区特征太少, 极易与其他 N* 15
  • 4.
    REPORT COM. on C. A. 3:e3, 2009 混淆,所以 Y 和 N9b 的原始型都没有加入。 切来源,不过从北亚和北极地区未发现独立 从 N 单倍群中接网络可以发现一些东亚 发展的 N*世系看,他们仍很可能属南方起 N 世系从南方起源的迹象: 源。 (1)整个网络呈现“空心化”的结构。中 从网络中还可以看到,N 在东亚的主要 心节点特别小, 是由 1 个广东潮阳样本 STC8 支系 A、N9a 主要分布在东亚大陆和北部湾 和 1 个印度尼西亚样本 PAD09 组成[4,10]。 周边地区, 只有少数支系分布在东南亚地区。 由于笔者在构建网络时删除了一些高突变的 A*:直接与起始节点相连,另有一个与 位点,所以上述样本并不是 N*的原始类型, 之相连的海南疍家样本 DG12[11],这个样本 而是分别带有 16189 或 16311 位点突变的最 有 16290 突变而缺少 16319 突变,因此难以 接近根部的类型。事实上真正的无高变区特 判断它是否属于未细分的带有 16319 回复突 征的 N*原始型在样本中没有找到。 变的 A 个体。 N9a* : 它 通 过 一 个 越 南 北 部 人 样 本 VN302 与起始节点相连。下文中的全序列分 析确定了 VN302 是个罕见的 Pre-N9a 个体, 笔者判断 N9a 是北部湾一带起源的单倍群。 N 在东南亚地区也分布着几个支系,其 中 N21、N22 和 N-16263,16274,16343,16357 很 可 能 是 东 南 亚 本 地 起 源 , 而 N-16111, 16172,16189,16362 似乎是北部湾地区起源。 N21:其高变 1 区特征是 16193 转换变 异。它是 N 在东南亚地区最大的分支,主要 分布在马来西亚、印尼、泰国部分地区,在 中国云南汉族中也发现一例 YUNNAN37[9]。 从高变 1 区特征看 2 个印尼人样本 PAL06、 BAL40 属于 N21 原始型[3,4]。N21 在马来半 图 2. 根据高变 1 区数据绘制的 N 单倍群简化中接网 岛产生了一个人数众多的分支 N21-16223, 络 节点分色示意:红色—北部湾地区,绿色—中国 带有高变 1 区谱序 16193-16223- 16291。 泰国 南方,橙色—中国北方,蓝色—东南亚地区。 Fig.2 A simplified Median-joining Network of 和云南汉族的 N21 样本则属于带有 16182 转 haplogroup N based on mitochondrial HVS-1 Keys for 换变异的另一支系 N21-16182。 the colors: Red for the Tonkin Bay area, Green for South China, Orange for North China, and Blue for N22:这是个很小的单倍群,样本中包 Southeast Asia. 括 4 例马来土著人和 4 例印尼松巴岛人。其 中 2 个马来土著样本属于 N22 原始型。 (2)在北部湾地区的 N*样本中,有一些与 N-16263,16274,16343,16357:图中标注 东南亚样本共享同一分支,也有与华南样本 为 N-16263,16274。这个未定义单倍群包括 7 的共存的情况出现。后面的进一步分析显示 4 个印尼爪哇人、 个印尼邦加岛(Bangka)人和 北部湾的 N*更多地流向了东亚南部而不是 1 个泰国人 C075 样本。其中 1 个爪哇人和 4 东南亚地区。 个邦加岛人属于原始型。 (3)数据中没有发现来自境外北亚和北极 N-16111,16172,16189,16362 :图中标注 地区的 N*样本。 在排除了可能源自西部欧亚 为 N-16111,16172。 这是个很小的未定义单倍 的 N 世系的样本后, 中国北方(也包括北方少 群,样本中包括 1 个广西拉珈人 MI459、1 数民族)的 N*样本共 5 例,比中国南方和北 个新疆乌兹别克人 Uzb26、1 个马来人和 4 部湾地区的样本少得多。在这 5 例样本中, 个印尼人[12,13]。其中只有拉珈人 MI459 属 有 2 个通过中国南方、北部湾或者东南亚的 于该单倍群的原始型,而 5 个东南亚的样本 节点与根部相连,可能是南方起源。只有 3 都属于带有 16311 转换突变的分支。因而此 个北方样本直接与根部相连,无法确定其确 16
  • 5.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 单倍群的起源地很可能在北部湾周边一带。 和澳洲 N 世系系统发生树的全面比对,没有 发现 VN9B 与以上世系共祖的迹象。有趣的 1.2. N*及 N9a 全序列分析 是,笔者发现 VN9B、西部欧亚的 W,以及 在搜集到的亚洲东部地区 mtDNA 全序 澳洲土著 N12 的一个分支类型都带有编码区 列中,以日本的数据最多,而在 N*集中的东 5460 位点转换,不过从系统发生树看显然属 亚南部和中南半岛北部,全序列显得尤为稀 于发展中各自独立发生的并行突变[1,14]。 少和珍贵。笔者很幸运地在 GenBank 数据库 VN302(DQ834255):起初未发现此样本 中找到了越南科学技术学院用于病理研究的 具备 N9*的 5417 特征突变,笔者将其归为 10 个越南北部人全序列,分型结果显示其中 N*的未定义类型。但是进一步的比对发现它 存在许多古老类型。其中属于 N 系单倍群的 带有 N9a 的部分特征突变, 包括 150、12358、 样本有 3 个: 他们分属于 N*、 和 pre-N9a。 N9a 12372 和 16261 转换突变。从 Tanaka 等 2004 年论文中 N 的系统树看[6], 5417 是个高突变 率的编码区位点, 基本可以确定 VN302 属于 发生 5417 回复突变的 pre-N9a。笔者也考虑 过它是否可能属于发生了一系列回复突变的 N9a 个体, 不过 5231 属于突变率很低的位点, 而且 16257A 颠换再次发生回复的概率极小, 所以基本上可以排除这种可能性。 VN79 (DQ834258):此序列具备 N9a 的 所有特征。 除了 16261 和 16257A 突变外, 未 见其他高变 1 区位点突变,应该是较早的分 化类型。 需要指出的是:笔者发现上述 3 个越南 北部人全序列都存在编码区 14766 转换,还 有 VN302 和 VN79 样本在编码区上也存在相 同的 4856 转换。 从以往文献中 N 的系统发生 树看,14766、4856 位点不可能是 N 或 N9 下游分支的特征突变[2,8]。还有,在 VN9B 和 VN302 序列中存在一些很少见的突变为 G 的颠换。笔者认为这些奇怪的突变可能都是 测序错误造成的[15]。 图 3 是在参考有关文献系统树资料基础 上,按最可能的情形绘出的系统发生树。其 中还加入了那乃人 Nanai157(EU007856)和广 东湛江 GD7834 作为参考样本,以生成较完 整的分化树形[16,17]。尽管存在测序错误的 可能性,越南北部人全序列还是比较清晰地 展现了 N9a 的早期分化过程。从全序列分析 图 3. 根据越南北部人全序列绘制的 N*和 N9 系统发 生树 去除了与 MELAS 症有关的 3243A→G 突变和 我们可以得出一个重要结论:越南北部存在 一些有疑问的突变。 独立发展的 N*世系, 并且很可能是 N9 和 N9a Fig.3 Phylogenesis of N* and N9 according to the whole genome sequence of north Vietnamese samples. 的起源地。 The MELAS associated 3243A→G and some doubted mutations were excluded. 1.3. N 未定义类型的地理分布 VN9B(DQ826448):属于一个 MELAS 综 合症患者的 N*个体。经过与西部欧亚、印度 17
  • 6.
    REPORT COM. on C. A. 3:e3, 2009 话 个 体 PH126 和 2 个 湘 西 土 家 族 个 体 TUJIA0142、TUJIA0151[12,18]。 N-16172,16291A,16298:此分支由江苏 人 JIANGSU16、上海人 SHANGHAI11 和福 建惠安人 STF4 共 3 个样本组成, 其中江苏和 上海样本还共享 16069 位点突变[9,10]。似乎 表明华东地区是 N-16172,16291A,16298 迁徙 的终点。 图 5 是根据序列分析结果绘制的北部湾 地区 N*世系的扩散图。 可以看出: N*扩散的 主要方向是向北进入东亚大陆而不是向南进 图 4. N 未定义类型发生频率地理分布图 Fig. 4 The frequency distributions of unclassified N* 入东南亚地区,而且主要分布于华南地区、 华中地区以及东部沿海部分地区。 N 未定义类型集中分布在北部湾周边地 区(图 4)[11]。发生频率最高的族群是越南北 2. 线粒体 A 单倍群 部人 10.0%,广东潮阳人 5.3%。其次是广西 线粒体 A 单倍群是东亚 N 系单倍群中最 防城港高栏人 3.3%, 海南杞黎 2.9%、海南疍 大的分支。广泛分布在东亚、东北亚、北亚、 家 2.5%。N*在华中、华东、西北地区的部分 北极地区,A 的一些支系如也伴随着一些北 汉族群体中,以及内蒙鄂伦春族中都有少量 亚和乌拉尔族群的西迁一直分布到中亚、东 分布,发生频率在 1.0%-2.4%之间。此外在 欧和北欧部分地区。A2 在大约 1.4 万年前经 印尼巴东人(Padang)和马来西亚哥打基纳 北极白令海地区迁入美洲。A 在东南亚地区 巴卢人中也各发现 1 例。 的分布极为有限,除了泰国有一定比例的分 布外,也低频出现在印度东北部南亚语部族 中和马来人(Melayu)[4],但在东南亚岛屿和 台湾原住民族中均没有发现。笔者认为 A 单 倍群之所以在东南亚分布稀少,是因为在扩 张时受到其他单倍群的竞争,比如同属 N 系 分支而且早期扩散地点更靠南的 N9a 单倍 群。 2.1. A 单倍群高变 1 区中接网络 图 6 是依据 A 单倍群高变 1 区数据绘制 的简化中接网络。为方便观察 A 网络的基本 架构,合并了一些细小的末端分支。图中以 图 5. 推测为北部湾起源的线粒体 N*单倍群支系扩 黑色标识的就是 A*网络的起始节点, 可以看 散示意图 椭圆形代表主要的扩散中心,下同。 Fig.5 Conjectural origin of mitochondrial haplogroup 到 A*产生了两个巨大的分支: 一支是主要在 N* beside Tonkin Bay and its diffusion. The ellipse 东亚大陆发展的 A4, 另一支是主要分布于中 stands for the origin area in this and the following maps. 国东南沿海、日本和韩国的 A5*。处于 A*左 上方的大节点就是 A4*, 它与 A*祖型只差一 由于 N*记录了早期人类迁徙的宝贵信 步 16362 突变,但却产生出一个巨大的星形 息,笔者参照中接网络分析结果对 N*继续作 结构,表明在相对晚近时期曾发生过剧烈的 全面的细分,得到更多未定义的细小分支。 分化扩散。A*右上方稍小的节点是 A5a,以 N-16381:这是个由低突变率 16381 位点 及它姊妹支系 A5b 和 A5c。鉴于 A 系单倍群 转换所确定的小分支,包括 1 个广西贺州平 的完整网络过于复杂,下面我们将把它拆分 18
  • 7.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 成 A*(A5)和 A4 两部分来研究。 特征,无法确定其中是否存在个别 A5*早期 类型。 此外,在网络中还可以看到 A8 和其他 未命名的小分支,这些分支的数据携带着 A* 迁徙分化的重要信息。 2.3. A5 分支的地理分布 A5a:A5a 样本中绝大部分来自日本和朝 鲜半岛,以 16187 转换突变为特征。据本次 研究统计,内蒙古阿荣旗朝鲜族(近代北朝鲜 移民)最高发,48 个样本中就发现 4 例,发生 频 率 高 达 8.3% 。 以 下 依 次 为 日 本 中 部 人 6.1%, 日本南部宫崎县人 3.5%, 韩国人 3.3%。 但在阿伊努人中没有发现 A5a。 图 6. 线粒体 A 单倍群高变 1 区简化中接网络 Fig.6 A simplified Median-joining network of 东亚大陆上的 A5a 样本极为罕见。笔者 mitochondrial haplogroup A based of HVS-1 motif 发现河南安阳人 STE36 带有 16187 特征突 变, 可能是 A5a 个体[10]。 还有孔庆鹏等 2006 年论文附件显示云南昆明人 YC29 属于 A5a, 2.2. A*和 A5 高变 1 区中接网络 从编码区特征看应为早期分支[8]。 有趣的是, 在参考以往文献中系统发生树的基础 笔者发现河南 STE36 和韩国 Kor68 都发生了 上,笔者去除 A*和 A5 中接网络中一些高突 16223 回复突变,而云南 YC29 和韩国 K216 变率的位点数据(16189、16311 等)和冗余连 共享 16270 突变[19]。这暗示 A5a 的起源地 线,得到了比较完整、清晰的高变 1 区中接 很可能是在中国境内,而不是日本和韩国。 网络图(图 7)。 A5b:A5b 的高变 1 区特征是 16126 和 16235 位点转换。从高变 1 区数据看 A5b 似 乎存在两个主要分支。一个是 A5b 的早期类 型,最高发的是福建惠安人,发生频率为 2.7%,海南疍家 2.5%,其次是日本鸟取县人 2.1%和上海人 1.8%。另一个是 A5b-16234, 最高发的是广东南澳岛居民 3.6%,其次是湘 西土家族 3.1%、 福建莆田人 3.0%。 此外在新 疆回族、辽宁大连人、湘西苗族和韩国人中 也有发现(图 8)。 A5c:这是个很罕见的 A5 下游分支,高 图 7. 线粒体 A*和 A5 单倍群高变 1 区中接网络 Fig.7 A Median-joining network of mitochondrial 变 1 区特征为 16129 和 16213 转换。仅分布 haplogroup A* and A5 based on HVS-1 motif 在日本人、韩国人、琉球人、新巴尔虎旗蒙 古族,以及南西伯利亚的布里亚特人和汗尼 可以看到,网络中的 A5 主要分为三个 干人(Khamnigan)中(图 8)。在安徽汉族中也 分支 A5a、A5b 和 A5c。在对日本的 mtDNA 发现 1 例 ANHUI19[9]。 全序列进行充分研究后,笔者发现其中 A5 样本都可以归结为上述三个亚单倍群,没有 A5*早期类型出现。 但对于来自亚洲其他地区 2.4. A*分支的地理分布 仅见高变 1 区数据的 A*样本来说, A5*祖 因 A-16234,16293C:这是以往文献中未见 型的形成只经过两步编码区突变(8563 和 命名的亚单倍群,由于它集中分布在云贵高 11536 转换),而没有出现可识别的高变 1 区 19
  • 8.
    REPORT COM. on C. A. 3:e3, 2009 图 8. 线粒体 A*和 A5 系单倍群发生频率地理分布图 Fig.8 Distributions of the mitochondrial haplogroups A* and A5 subgroups. 原的藏彝系民族中,因此可以确定是有着共 母系遗传中,而后再随着彝族迁徙再进入周 同起源的亚单倍群。其中云南西双版纳彝族 边族群的母系成分中的。 和贵州赫章县彝族最高发, 比例分别为 12.5% A8:A8 的定义引自俄罗斯学者 Derenko 和 10%。在云南藏族、白族、普米族、纳西 等 2007 年论文[20]。文中以 2 个北亚全序列 族 以 及 西 藏藏族 中 的发生 频 率为 共享的 64、146、16242 位点突变来定义 A8。 2.2%-4.7%(图 8)。另外,在云南汉族、泰国 但是笔者在查找文献后发现, A2 定义中也 在 曼谷人、北疆蒙古族、以及印度东北部南亚 有同样的 64 和 146 两个高变 2 区并行突变, 语部族中各发现 1 例。 A-16234,16293C 的 从 只有高变 1 区 16242 突变频率最低。在 分布特点不难看出:它应该是首先进入彝族 Volodko 等 2008 年论文所给出系统树也显示 20
  • 9.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 只有 16242 突变是识别此分支的可靠标记 化出去,日本、韩国的样本构成另一较长分 [21]。A8 最高发的族群是北西伯利亚的凯特 支, 日本 TC48 是由韩国 K245 的单倍型再经 人(Ket),发生频率为 10.0%。其次是堪察加 146 突变所形成[6,19,22]。这个结果实际上追 半岛伊捷尔缅人(Itelmen)6.5%、托发拉尔人 溯了日本和韩国的 A7 自中国西南部地区的 (Tofalar)5.2%和日本阿伊努人 2.0%(图 8)。在 起源。 图瓦人、布里亚特人和韩国人中的发生频率 由于对 A*的原始型和未定义类型的频 较低,分别为 1.1%、0.3%、0.3%。从高变 1 率分布研究没有得到最初起源和分化明确结 区数据分析,只有韩国人和阿伊努人的 A8 果,接下来笔者尝试运用扩散效应分析来提 是原始型, 表明 A8 早期分化的地点应该在韩 取 A*早期分化的信息。 国和日本南部一带。 2.6. 线粒体 A*单倍群扩散效应分析 2.5. A 的原始型和未定义类型的地理分布 A 原始型:据本次统计,A 原始型分布 频率最高的族群是广东潮阳人 5.3%,其次是 广西东北部的富川瑶族 3.2%和罗城仫佬族 2.6%,以及湖北汉族 2.4%和内蒙古阿荣旗朝 鲜族 2.1%(图 8)。 原始型在东亚的分布呈分 A 散的点状,在江苏汉族、呼和浩特蒙古族、 广西拉珈人、泰国曼谷人、本土日本人、韩 国人中都有发现。 A 未定义类型:A 的未定义类型比 A*原 始型的分布更广。最高发的族群是西藏藏族 8.6%,及广东南澳岛居民 7.1%。其次是上海 汉族 5.4%, 西双版纳白族 5.2%, 湖北武汉人 图 10. 线粒体 A 单倍群扩散效应分析图 蓝色显示 4.8%,以及内蒙古东部的蒙古族 4.2%。A* 发生频率分布,红色显示群体内部变异频率分布。 的未定义类型在日本人和韩国人中的频率不 Fig.10 Diffusion of the mitochondrial proto-A haplogroup. 高,大约在 0.2%-1.0%之间(图 8)。 Blue clines stand for the total frequency, and red clines stand for the mutation rate within the population. 值得注意的是,根据Metspalu等2007年论 文, 我们还在A未定义类型中找到了一个很小 图 10 是在 A 单倍群原始型发生频率上 的分支A7[2]。包括韩国、日本、武汉汉族样 叠加 A 单倍群群体内部变异频率得到的叠加 本各1例,见图9。 分析图。可以看到在中国境内单倍群分布频 率和内部变异频率重叠高发的区域有两个: 一是广西东北部地区,据统计这里内部变异 频率最高的族群是罗城仫佬族 7.4%,临近的 广东怀集标人更高达 8.8%;二是湖北东部地 区,武汉人的内部变异频率是 4.8%。 在境外, 图 9. 线粒体 A7 单倍群个体的分化树状图 日本南部和泰国南部地区也有重叠的次高发 Fig.9 Tree of the mitochondrial haplogroup A7 individuals. 区,日本宫崎县人的内部变异频率是 5.6%, 泰国曼谷人的变异频率是 3.0%,显然都不如 他们都带有控制区特征谱序 16051— 广西东北部和广东西部一带的变异频率高。 16129—16189—235。此外,论文附件提及云 据此我们基本上可将 A 单倍群的最初分化地 南汉族 YN271 只有 16051 转换而未见 16129、 点锁定在广西东北部一带。 16189 位点变异,可能是更早期的分支。从 从图中还可以发现一些有趣的现象。比 重构的网络来看:武汉样本 WH6956 较早分 如粤东沿海地区 A 原始型的频率很高,但是 21
  • 10.
    REPORT COM. on C. A. 3:e3, 2009 变异频率却不高,笔者起初无法理解,后来 析绘制的 A*和 A5 迁徙路线图。从重建的迁 在查阅了一些地理、气候资料时才偶然发现 徙路线来看,两者主体迁移路线基本相似, 这与冰期时“台湾浅滩”的存在有关(参见讨 很可能是从广西东北部地区开始,一部分进 论章节的内容)。此外,我们还能在云南西双 入粤东、闽南一带,另一部分迁移到华中地 版纳看到一个变异频率高发点,统计显示这 区而后分散开,再进入华北、日本和韩国。 里白族的内部变异频率高达 7.7%, A 原始 而 看起来似乎是伴随迁徙的单倍群。唯一的不 型的发生频率并不高, 说明其母系线粒体 A* 同点在于:A*的下游分支 A-16234,16293C 成分在历史上可能经历过瓶颈效应或是族群 还分布到藏彝系民族、北疆蒙古族和印度南 人口减少的事件,笔者推测这可以与云南复 亚语部族中。从年代测定结果来看,有可能 杂多变的地理与气候环境等原因有关。 是 较 晚 时 期 与 A4 的 西 迁 的 一 些 分 支 ( 如 A4-16274、A4-16124)一起分化出去的。 2.7. 推测的 A*和 A5 的迁徙路线 2.8. A4 的高变 1 区中接网络 图 11. 推测的线粒体 A*单倍群分支迁徙路线示意图 Fig.11 Conjectural migration routes of mitochondrial haplogroup A*. 图 13. 线粒体 A4 单倍群高变 1 区中接网络 Fig.13 A Median-joining network of mitochondrial haplogroup A4 based on HVS-1 motif A4 单倍群高变 1 区的网络结构呈现为巨 大、单核的“太阳”形,这个核心向四周辐 射出众多大小不一的节点(图 13)。值得注意 的是,大部分节点与分化核心的突变距离不 超过两步,而且次级节点的分支较少,表明 A4 的主体分化应该发生在比较晚近的时期。 结合一些文献中基于 mtDNA 全序列所 给出的系统树,我们可以识别出北亚和北极 地区常见的亚单倍群 A4a、A4b、A2。另外, 在网络中还有其他几个未定名的亚单倍群。 图 12. 推测的线粒体 A5 单倍群分支迁徙路线示意 2.9. A4 的主要分支 图 虚线表示中间过程不太确定的路线,下同。 Fig.12 Conjectural migration routes of mitochondrial A4-16274:A4-16274 是 A4 在中国境内 haplogroup A5. Broken lines stand for the uncertain 最大的支系, 主要集中在云南藏彝系民族中, routes in this and the following maps. 其 中 频 率 最 高 的 是 怒 族 30.0% , 傈 僳 族 图 11 和图 12 就是笔者综合多种数据分 16.2%,其次是普米族 8.3%和撒尼人(彝族支 22
  • 11.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 系)6.5%。在湘西过山瑶中的频率是 4.2%, 多出一步 16189 突变。主要发现于俄罗斯远 在云南、青海藏族中的比例为 3.6%-4.0%。 东地区的埃文基人(5.6%)以及乌拉尔地区的 A4-16274 在华中、华东汉族中低频出现,发 欧亚混血民族曼西人(3.4%),也低频存在于 生频率从 1.3%至 2.4%不等(图 14)。此外,在 布里亚特人中(0.3%)。笔者从孔庆鹏等 2003 青海土族、云南傣族、江西汉族、广西平话 年论文中也找到了与埃文基人、曼西人属于 人、北疆汉族和回族,以及南西伯利亚的图 同一单倍型的 2 个鄂伦春人 A4b 样本 Oro13 瓦人和汗尼干人中也有发现。 和 Oro19[25], 无论从地理还是族源的接近性 A4-16124:A4-16124 在西部藏彝系民族 来看他们无疑是 A4b(图 14)。照此计算,鄂 中也比较常见,与 A4-16274 的分布特点非 伦 春 人 A4b 发 生 频 率 应 为 4.5% 。 根 据 常相似,只是发生频率相对较低。最高发的 Derenko 等 2007 年论文中的系统树,相距遥 是云南傈僳族,比例为 13.2%,其次是贵州 远的埃文基人和曼西人 A4b 样本有着很近的 赫章县彝族 5.0%, 湖北汉族 4.0%, 云南撒尼 亲缘的关系,而布里亚特样本 Br442 反而最 人 3.2%,云南藏族 2.9%和西藏藏族 2.9%(图 早分化出去[20]。 这可能反映了史前乌拉尔语 14)。另外在湘西苗族、云南傣族、云南汉族、 部落穿越西伯利亚向西长途迁徙的历程。 江苏汉族中各发现 1 例。值得注意的是,大 A2: 的高变 1 区特征是 16111 位点转 A2 部分 A4-16124 样本都属于原始型, 只有湘西 换。在亚洲主要分布在北极白令海地区,是 苗族 MHN33 和西藏藏族 Tibet4651 属于特征 N 系单倍群中迁徙最远的、唯一进入美洲的 谱 序 为 16093-16124-16290-16293T- 下游支系。根据以往的研究,A2 及其亚洲分 16319-16362 的单倍型[23,24]。 暗示 A4-16124 支 A2a、A2b 主要存在于楚克奇人、爱斯基 是在华中地区形成的,而且向西南地区的迁 摩人及已消失的尤卡吉尔人的母系遗传中。 徙发生在较为晚近的时期。 统计表明 A2a 和 A2b 在楚克奇人中的发生频 从 总 体 分 布 特 点 看 , A4-16124 和 率分别为 33.7%和 13.9%, 在爱斯基摩各部落 A4-16274 很象是伴随迁徙的 A4 下游分支。 中 的 频 率 分 别 为 16.7%-72.0% 和 两者的不同之处在于:A4-16274 的样本比 18.0%-70.8%不等。 在堪察加半岛北部的科里 A4-16124 样本更多,而且一直向北扩展到南 雅克人中也发现 1 例 A2b 样本 Krk39[20]。 西伯利亚的一些族群中。 A4-16129,16284:分布在几个相距遥远 A4a:A4a 是 A4 祖型经 16249 位点转换 的族群中,分别是印度东北部操南亚语的 产生的亚单倍群。主要分布在北亚族群中。 Bhoi 人 4.9%[26],呼和浩特蒙古族 1.9%,泰 最高发的是青海蒙古族, 15 个样本中发现 在 国清迈人 1.2%。所有的南亚 Bhoi 样本都属 2 例,发生频率达 13.3%(图 14)。在南西伯利 于附加 16260 转换突变的同一单倍型,而泰 亚的布里亚特人和阿尔泰人、新疆乌兹别克 国清迈样本全都共享 16136 转换变异,这似 人、俄罗斯人、日本人(ON125)中也有发现 乎暗示 A4-16129,16284 在向泰国和印度东北 [6]。此外,笔者还在云南纳西族和江苏汉族 部经历了显著的瓶颈效应。 中各找到 1 例带有 16249 突变的 A4 样本 A4-16192:主要分布在内蒙正蓝旗蒙古 NAXI12、 JIANGSU28, 由于 16249 属于突变 族(6.3%),及俄罗斯阿尔泰共和国 Tubalar 人 率很低的位点,可以确认这 2 个样本应该也 中(11.1%)。笔者以其中一个样本 Tub3 的全 是 A4a[9,18]。此外,Derenko 等 2007 年论文 序列 EU482374 与系统树中同样具有 16192 中的北亚人 mtDNA 全序列系统树透露了更 突变的 A2b 单倍群进行比对,结果发现两者 多的信息:布里亚特人和阿尔泰基什人 属于不同的 A4 分支[21]。 (Altaians-Kizhi)的 4 个 A4a 样本属于共享编码 区 4928 位点突变的同一支系,被命名为 2.10. A4 原始型和未定义类型 A4a1;俄罗斯人和日本人的 A4a 个体则属于 A4 原始型: A4 原始型分布范围很广, 早期分支[20]。 并且呈现相当离散的状态,表明早期分化历 A4b:A4b 是个很小的群体,比 A4 祖型 史已很久远。 从图 14 中可以看到分布最密集 23
  • 12.
    REPORT COM. on C. A. 3:e3, 2009 图 14. 线粒体 A4 单倍群发生频率地理分布图 Fig.14 Distributions of the mitochondrial haplogroups A4. 的地区是在中国东南沿海和日本南部一带, 4.0%。A4 原始型也见于韩国人中(2.3%),但 这可能就是 A4 第一波扩张所及范围。其他分 在日本中部人中没有找到。值得注意的是, 布较多的地区在图中呈现为灰色,这些可能 A4 原始型出现在百越起源的上海马桥原住 是伴随 A4 其他分支迁徙的原始型所留下的 民中(5.9%),在 51 个阿伊努样本中也发现 1 遗传印迹。据本次研究的结果,A4 原始型最 例 A4 原始型。 这暗示 A4 早期扩张主要走沿 高发的是广东潮州人,发生频率为 8.3%。其 海路线而且年代十分久远。 次是西双版纳彝族 6.3%、福建莆田人 6.1%、 A4 未定义类型: A4 未定义类型主要集 贵州赫章县彝族 5.0%、和日本南部宫崎县人 中在内陆地区特别是华中地区。最高频率出 24
  • 13.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 现在湖北恩施侗族中,高达 30%;以下依次 迁徙的过程和 A*、 并没有没有什么不同。 A5 是 甘 肃 汉 族 15.6% 、 贵 州 沿 河 县 土 家 族 A4 原始型在中国北方和北亚地区的扩张范 10.3%、贵州赫章县彝族 10.0%、索约特人 围和 A4 未定义类型基本重合, 因而很可能反 (Sojot,图瓦人的一支)10.0%, 青海藏族 8.9%。 映了晚近的迁徙事件。值得注意的是,有关 A4 从分布图看, 未定义类型应该是先在华中 文献的年代测定显示 A2 大约在 2.48 万年前 地区(准确地说是在湘鄂渝交界区域)扩散, 再 就从 A4 中分化出去[28]。可能由于族群整体 向西部藏彝走廊和西北地区扩张。 A4 原始 与 A2 迁徙的缘故, 在东亚大陆上基本没有留下 型在沿海地区集中分布的特点完全不同,表 痕迹。因此很难确定它的迁移路线。 明很可能是较晚期的一次大规模扩散留下的 痕迹。 A4 值得注意的是, 未定义类型还包括不 少细小分支, 其中一些有助于确定 A4 的分化 路线。 A4-16104:其中包括 1 个韩国人 K358 和 2 个新巴尔虎旗蒙古族 Mg214、Mg216 样 本,显示了韩国人和东部蒙古族之间的联系 [19,25]。 A4-16157:仅找到 2 例,由韩国 Kor83 和甘肃 GANSU03 组成。 结合 A4-16104 来分 析,韩国的 A4 主要来自中国北方[9,19]。 A4-16179,16311:日本中部人 KA021 和 江苏人 JIANGSU15 都属于此单倍型。 上文中 还 提 到 过 日 本 人 ON125 和 江 苏 人 图 15. 推测的线粒体 A4 单倍群分支早期迁徙路线 JIANGSU28 都属于 A4a[6,9]。显示日本中部 示意图 Fig.15 Conjectural early migration routes of 地区的 A4 个体很可能都源自华东地区。 mitochondrial haplogroup A4. A4-16256: 包括西藏藏族 Tibet4664 和湘 西苗族 MHN66。显示西藏的 A4 来自自华中 地区[23,24]。 A4-16216,16294 : 此 分 支 包 括 江 苏 人 JIANGSU43、贵州东北部土家族 T15、新疆 塔吉克族 Tjk19 和 Tjk18,及布里亚特人 br393[9,20,27]。不难看出这是一次自华中地 区开始的大规模人口扩张的印迹。这些样本 的 来 源 地 距 离 极 其 遥 远 , 暗 示 A4-16216, 16294 早在这次扩散事件之前就已产生。 2.11. A4 的迁徙路线 图 15 和图 16 是笔者依据分析结果绘制 图 16. 推测的线粒体 A4 单倍群分支晚期迁徙路线 示意图 的 A4 迁徙图。图 15 示意了 A4 早期迁徙分 Fig.16 Conjectural late migration routes of mitochondrial 化的情况。 祖型与 A*祖型只差一步高变 1 A4 haplogroup A4. 区 16362 位点突变, 而且 A4 原始型主要分布 图 16 显示了 A4 晚期自华中地区开始的 在东南沿海,这说明 A4 可能在 A*首次扩散 大规模扩张。从重建的路线图看主要是向北 时已经产生出来, 其起源地点很可能和 A*一 方迁徙。这次人口扩张可以说是遍地开花, 样是在广西东北部地区。总体来看,A4 早期 产生了多个分化中心,并波及到北亚、东北 25
  • 14.
    REPORT COM. on C. A. 3:e3, 2009 亚以及泰国和印度东北部地区。 N9a-r16261[3,4,29]。 综上所述,A4 的早期扩散和 A*、A5 扩 3.2. N9a 主要分支的地理分布 散的路线大体相似, 都集中在东南沿海一带, N9a-16129(不含 N9a1): N9a-16129 是 所以早期伴随迁徙的可能性很大,而 A4*的 主要在大陆上扩散的 N9a 下游分支。最高发 大规模扩散无疑是更为晚近的事件。 的族群是台湾南部的排湾人和新疆喀什的哈 萨克人,发生频率都是 4.8%。其次是广西西 3.线粒体 N9 系单倍群 北部的布努瑶 4.0%,新疆喀什的塔吉克人 N9 系单倍群主要包括 3 个下游分支, 3.3%,和云南宁蒗普米族 2.8%。N9a-16129 N9a、Y 和 N9b。在最新的系统发生树中,这 也存在于华中、华东、内蒙古等地区的部分 3 个下游分支仅共享 5417 转换突变,表明下 族群中,发生频率从 1.5-2.4%不等(图 19)。 游单倍群在 N9 形成初期就分化出去。 在分布 N9a-16129 低频出现于韩国人和日本人中, 特点上,N9 系的两大单倍群 N9a 和 Y 不仅 频率分别为 0.7%和 0.3%, 但在东南亚地区没 在大陆上广泛分布而且在东南亚地区也很常 有发现。 见,这与主要分布在大陆上的 A 系单倍群明 N9a1: N9a1 是 N9a-16129 的下游分支, 显不同。 系中最小的分支 N9b 最早是在日 N9 主要分布在华中和内蒙古东部地区。最高发 本人中发现的,不过笔者的研究表明 N9b 早 的族群是湖南西北部永顺土家族 6.7%和广东 期分化地点和最高发区域不是在日本,而是 连 南 八 排 瑶 5.7% , 其 次 是 浙 江 杭 州 汉 族 在远东滨海地区。 4.9%、内蒙赤峰汉族 4.4%、湖南江华过山瑶 4.2%、新巴尔虎旗蒙古族 4.2%、湖南长沙汉 3.1. N9a 单倍群中接网络分析 族 4.1%(图 19)。 N9a1 在广西、 广东沿海和华 东部分族群中,以及新疆伊犁乌兹别克人和 南西伯利亚图瓦人中也有发现,发生频率为 1.0%-3.4%。N9a1 也低频出现在日本人和韩 国人中,韩国人的发生频率为 0.9%,日本南 部鸟取县人为 1.1%,日本中部人为 0.3%。 N9a-16172 及其主要分支: 从孔庆鹏等 2006 年论文中可以看到 N9a-16172 分成 3 个 分支, N9a2、N9a4 和 N9a5[8]。N9a4 和 N9a5 有明确的高变 1 区突变特征,因此能很清楚 地把它们划分出来。 但是 N9a2 原始型没有出 图 17. 线粒体 N9a 单倍群高变 1 区中接网络 现可识别的高变 1 区特征,笔者将其归为 Fig.17 A Median-joining network of mitochondrial N9a-16172。 haplogroup N9a based on HVS-1 motif N9a-16172(不含 N9a4、N9a5): N9a- 图 17 显示 N9a 有着比 A 系单倍群更多 16172 在东亚的分布呈现极其离散的状态, 的主要分支和次级分支,显示了非常不同的 主要在广西和云南交界地区,海南、安徽、 群体分化历程。其中 N9a-16129 主要在大陆 陕西和新疆伊犁(乌兹别克人)。N9a-16172 的 上分布, 可与 A4 类比,不过从图上看它几乎 未定义类型主要分布在中国境内,也以很低 没有形成完整的星状结构。值得注意的是 的频率出现日本和韩国。广西西北部的田林 N9a-16129 的下游分支 N9a1 可能发生过规模 壮族和瑶族中的分布频率大体在 3.1%-4.0% 不大的人口扩张。N9a-16172 主要分布在中 之间,海南临高人和疍家人中频率分别为 国东南部沿海、日本、韩国等地,可与 A5 3.2% 和 2.5% , 其 他 族 群 中 的 发 生 频 率 从 类比。另外 N9a 的下游分支也出现东南亚地 1.2%-2.4%不等(图 19)。在日本和韩国人中的 区,包括主要分布在马来西亚和印度尼西亚 发生频率分别为 0.5%和 0.7%。 的 N9a6 , 以 及 在 台 湾 原 住 民 中 发 现 的 N9a2 的分支 N9a2a、N9a2b 和 N9a2c 仅 26
  • 15.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 出现在日本和韩国:这三种亚单倍群在日本 日本南部宫崎县人的发生频率是 1.0%,日本 都有发现, 在日本南部(鸟取、 宫崎)的总频率 中部人的频率是 0.3%, 韩国人为 0.4%, 此外 为 1.0%-1.1%;在韩国的分布主要是 N9a2b, 在 内 蒙 赤 峰 汉 族 中 也 发 现 1 例 也发现 1 例 N9a2c 样本 K527,总频率为 NEIMENG45[9]。 在全部的 N9a5 样本中只有 2.6%[19]。 1 例韩国样本 K250 有附加的 16046 转换突变 N9a4:分布区域相当分散,高变 1 区谱 [19],显示 N9a5 的在东北亚地区的小范围扩 序是 16145-16172-16245-16257A-16261。最 散是比较晚近的事件。 高发的族群是日本中南部静冈县人 N9a6(含 N9a6a): N9a6 是参照 Hill 等 16.7%[30],其他族群中的频率都不高。在广 2006 年论文中的命名[4]。 从高变 1 区特征看, 西东北部富川县的瑶族和平话人的发生频率 它是 N9a 祖型再经一步 16292 转换突变所产 分别为 4.2%、3.4%,在粤东澄海人和粤西湛 生的亚单倍群。主要分布在东南亚地区,在 江人中的频率为 3.6%、3.3%(图 19)。另外 中国广西、云南、福建也可以找到它的踪迹。 N9a4 也低频出现在江苏南京、山东青岛、青 N9a6 最高发的族群是印尼苏门答腊巴东人 海藏族、韩国和日本中、西部地区,发生频 12.5%和广西金秀县壮族 11.1%,其次是印尼 率在 0.4%-2.0%之间。 邦加岛人 8.8%、云南西双版纳 3.8%(图 19)。 根据高变 1 区特征,N9a4 又可细分为两 此外在越南南部(以美国加州越南移民数据 个分支:一支是原始型,仅存在于广东沿海 代替)、印尼苏拉威西、泰国清迈和曼谷各发 地区和日本;另一支带有 16092 位点突变的 现 1 例。 支系分布较广,在江苏、山东、广西、青海、 N9a6 的原始型在云南西双版纳的瑶族 韩国的 N9a4 样本都属于这种类型, 在日本仅 和基诺族中共发现 3 例,越南南部人、印尼 见 1 例 PD053。对比发现 PD053 仅与韩国样 苏拉威西人各发现 1 例,而印尼苏门答腊的 本 K025 共享同一单倍型[6,19]。 这暗示 N9a4 N9a6 个体全都属于带有 16189 位点转换的同 在历史上曾经发生两次扩张,而日本的 N9a4 一单倍型, 其他族群的 N9a6 样本都属于无法 样本主要来自第一次的扩散(图 18)。 细分的变异类型。 N9a6 还有一个高变 1 区特征谱序为 16257A-16261-16292-16294 的 次 级 分 支 N9a6a 。 主 要 分 布 于 马 来 半 岛 , 在 塞 芒 人 (Semang)、塞诺伊人(Senoi)和土著马来人中 的发生频率分别为 8.0%、5.8%和 5.2%,此 图 18. 以高变 1 区数据绘制的线粒体 N9a4 亚单倍群 外在福建南安,以及印尼的爪哇、苏拉威西、 分化树状图 分色示意为: 橙色—广东, 蓝色—广西, 加里曼丹各发现 1 例 N9a6a 样本。N9a6a 的 浅紫色—华东地区,浅蓝色—青海,绿色—日本, 黄色—韩国。 原始型绝大部分集中在马来半岛上。笔者注 Fig.18 Tree of the mitochondrial haplogroup N9a4 意到福建南安样本 STF13 还有额外的 16092、 individuals. Keys for the colors:orange for Guangdong, 16136 和 16192 位点变异,是所有 N9a6a 样 blue for Guangxi, purple for East China, cyan for Qinghai, green for Japan, and yellow for Korea. 本中变异位点最多的,而且从高变 1 区特征 看与其他样本没有关联[10]。所以,N9a6a 的 从图中还可以看到一个有趣的现象,即 分化存在两种可能性:一种是 N9a6a 最早产 距起源地最近的广西富川 N9a4 个体反而处 生于中国西南地区, 而后和 N9a6 一起向东南 在分化末端。最有可能的解释是:N9a4 早期 亚迁徙,而福建 STF13 属于早期境内分化的 类型在第一次扩散时就已分离出去,而起源 一支;另一种是 N9a6a 起源于东南亚地区, 地产生后来又出新的变异型,并发生了二次 而后扩散到福建一带。从 STF13 高变 1 区特 扩散。 征与东南亚 N9a6a 样本特征差异较大来分 N9a5:主要分布在日本和韩国,高变 1 析,笔者认为第一种可能性最大。 区谱序为 16172-16189-16209-16257A-16261, 27
  • 16.
    REPORT COM. on C. A. 3:e3, 2009 图 19. 线粒体 N9a 单倍群发生频率地理分布图 Fig.19 Distributions of the mitochondrial haplogroups N9a. 28
  • 17.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 除了上述已定义的分支外,还有 2 个样 在湘鄂渝交界以及湘粤交界地区有两处空 本 总 数 在 10 例 以 上 的 N9a 未 定 义 分 支 白,从位置看似乎是更晚期 A4 和 N9a1 的扩 N9a-r16261 和 N9a-16311,16390。 张的结果。 N9a-r16261: 主要发现于台湾原住民 中,并且只有一种单倍型。其特征是 16261 位点发生 T→C 回复突变,在高变 1 区只剩 一个可识别特征突变 16257A。 此分支在现居 台湾东部沿海地区的阿美族中最高发,发生 频率 7.1%。在东南部台东县的卑南族和中北 部的泰雅族,发生频率分别为 1.9%、1.8%。 值得一提的是,笔者发现梧州瑶 YWU02 和 湖南 Le874 样本也带有 16261 回复突变 [23,31]。这说明台湾的 N9a-r16261 分支并非 孤立存在,起源地点很可能就在湘粤桂交界 地区。 N9a-16311,16390:此分支主要分布在广 西与贵州交界地区,最高发的群体是广西环 图 20. 线粒体 N9a 单倍群原始型扩散层次分析图 蓝色代表 N9a 原始型,红色代表 N9a 未定义类型。 江县毛南族 12.5%,其次是广西融水县五色 Fig.20 Diffusion of the mitochondrial haplogroup N9a. 人 6.1%。此外,在贵州天柱县和广西三江县 Blue stands for the ancestral type, and red for the unclassified type. 侗族、广西富川县和罗城县平话人,及广西 贺州壮族群体中也有发现, 频率在 1.3%-3.6% 笔者发现在空间分布上 N9a 的原始型和 之间。 未定义类型存在某种联系,当把两者的分布 图叠加起来后(图 20),可以看到 N9a 的早期 3.3. N9a 的原始型和未定义类型的地理分布 扩张痕迹被华中地区所发生的晚期扩张挤向 N9a 原始型: N9a 的原始型的分布区域 周边。这解释了 N9a 早期类型离散分布以及 极其分散。最高发的地点是在越南北部,在 很少出现在华中地区的原因。N9a 未定义类 10 个样本中就有 1 例,发生频率 10.0%;在 型主要由细小分支构成,显示 N9a 的起源历 临近越南的云南和广西也有分布,包括西双 史相当古老。以下简要介绍这些小分支的情 版纳基诺族 5.6%和傣族 1.8%, 广西南部防城 况。 港高栏人 3.3%及西北部隆林俫人 3.3%; 在中 N9a*(16311):虽然 16311 位点是个高突 国东南和东部沿海地区呈带状分布,包括广 变位点,无法确定是否有并行突变的情况, 东南澳人、福建南安人、上海人、山东青岛 不过它的分布比较集中,所以笔者还是把它 人、 辽宁凤城人, 发生频率 1.8%-4.2%(图 19)。 视为单独的分支来分析。最高发的人群是靠 在青海西宁和四川维城汉族、湘西苗族中也 近中越边境的广西崇左壮族和那坡夜郎人, 有发现,频率分别为 2.3%、1.4%和 1.0%。 发生频率分别为 16.7%和 6.7%。其次是福建 另外 N9a 原始型在泰国清迈人和韩国人低频 莆田人 2.8%, 云南文山苗族 2.6%, 越南中部 出现,频率为 0.4%和 0.1%。 顺化京族 2.3%(图 19)。此外在广西金秀拉珈 N9a 未定义类型: 在去除 N9a-16129、 人、福建长汀客家人、湘西土家族、湖南长 N9a-16172、 N9a6、N9a-r16261 和 N9a-16311, 沙人、山东泰安人以及中都有发现,频率为 16390 等主要分支之后,笔者将余下的 N9a 1.1-1.9%;也低频出现于泰国北部清迈人中, 样本归为未定义类型。 从图 19 可以看到未定 为 0.4%。总体看来,N9a*(16311)与 N9a 原 义类型的分布主要集中在越南和广西交界地 始型在分布特点上比较接近,显示了 N9a 早 区、越南南部和华中地区,在华北地区和南 期分化扩散的信息。即从广西和越南交界地 西伯利亚也有少量分布。此外,还可以看到 区开始,沿南北两条主要的路线迁徙:一条 29
  • 18.
    REPORT COM. on C. A. 3:e3, 2009 是走东北路线进入东亚腹地和东南沿海地 显示出明确的扩散中心。为此笔者再次尝试 区;另一条路线是沿越南走廊向南迁移。 扩散效应分析(图 21 和图 22)。 N9a*(16189):在湖南西南部过山瑶、广 东怀集普标人、 广西田林汉族中各发现 1 例, 发生频率 2.9%-4.2%。在泰国北部清迈人中 低频存在,频率 0.4%。从分布地域看可能也 和 N9a*(16311)一样属于早期起源分支。 此外 在南西伯利亚阿尔泰人中也有发现,频率为 1.8%, 但不清楚与南方的 N9a*(16189)是否同 源。 N9a-16184:这是个很小的分支。在广西 富川、贺州、武宣的平话人中各发现 1 例; 在富川的瑶族群体发现 3 例;在福建长汀客 图 21. 线粒体 N9a-16129 单倍群扩散效应分析图。 家人中发现 1 例。这个结果显示了瑶族、平 蓝色显示发生频率的分布,红色显示群体内部变异 频率的分布。 话人和客家人在母系遗传方面的密切联系。 Fig.21 Diffusion of the mitochondrial haplogroup 值得注意的是 N9a-16184 的原始型出现在广 N9a-16129. Blue stands for the haplogroup frequency, and red for the mutation rate within the population. 西东北部富川、贺州地区的个体中,表明这 一带就是 N9a-16184 的起源和分化地点。 N9a-16248,16311:这个分支存在于南西 伯 利 亚 托 发 拉 尔 人 (6.9%) 和 阿 尔 泰 人 中 (2.7%),从上述样本看只有一种单倍型。 N9a-16291:这是个仅见于日韩的小分 支。在韩国人中发现 3 例,发生频率 0.4%; 在日本人中发现 1 例,频率 0.2%。 N9a-16176:属于 2 个北部湾地区的个 体,越南北部人 Viet206 和海南杞黎 HL42, 其中越南样本属于 N9a-16176 原始型。可能 反映了海南原住民中的 N9a-16176 成分自越 图 22. 线粒体 N9a1 单倍群扩散效应分析图 颜色 南北部起源的历史[11]。 示意与图 21 同。 N9a-16111:由呼和浩特蒙古族 HHT34 Fig.22 Diffusion of the mitochondrial haplogroup N9a1. Keys for the colors are the same as in Fig.21. 和日本中部人 PD0118 组成,表明两者的共 祖关系。不过两例样本都不是原始型,所以 N9a-16129: N9a-16129 原始型发生频 从 无法确定迁徙路线[6,32]。 率和群体内部变异频率分布叠加图上可以看 N9a-16051 : 仅 有 两 个 样 本 , 辽 宁 人 到,N9a-16129 的扩散中心应该在湖北东部, LIAONING13 和河北人 Le1014[9,31]。 此外在云南东北部似乎还发生过一次小规模 N9a-16166C,16173,r16261,16324 : 包 括 的迁徙。 贵州仡佬族 G06 和湖北武汉人 WH6972,两 N9a1:虽然从分布图上看 N9a1 最高发地点 个样本都不是原始型,似乎是在华中和西南 在湖南南部,但是扩散效应分析却显示 N9a1 地区发展的小分支[22,27]。另外,此分支存 的扩散中心更有可能在湖北东部。N9a1 叠加 在 16261 位点回复突变,所以不能排除是 图还显示出三个次级扩散中心,分别是云南 N9a-r16261 次级分支的可能性。 西双版纳、内蒙东部至辽宁南部及青海东北 部地区。 3.4. N9a-16129 和 N9a1 扩散效应分析 N9a-16129 和 N9a1 的频率分布图未能 3.5. N9a 的迁徙路线 30
  • 19.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 重建的路线图显示,N9a*自越南北部起 24。此外,N9a6 主要分布于东南亚地区, 源后,除少数支系向东南亚迁徙外,其主体 N9a-r16261 集中在台湾,两者的样本在中国 向北进入中国境内,见图 23。一部分向东迁 南方也有发现,因而迁徙过程比较清楚。 至粤东、闽南沿海一带,另一部分进入华中 地区,在湖北东部地区再次发生扩散。扩散 3.6. Y 单倍群中接网络分析 区域主要包括华北、华东地区,也波及到日 本和韩国。 图 25. 线粒体 Y 单倍群高变 1 区中接网络 Fig.25 A Median-joining network of mitochondrial haplogroup Y based on HVS-1 motif 图 25 展现了线粒体 Y 单倍群的中接网 络。由于 Y 下游分支的高变 1 区特征位点较 少, 因此保留了突变率较高的 16189 和 16311 位点以便区别 Y1a1 和 Y2。另外为了区分其 图 23. 推测的线粒体 N9a 单倍群部分分支迁徙路线 示意图 Fig.23 Conjectural migration routes of several 他一些分支,笔者还在中接网络中加入了 branches of mitochondrial haplogroup N9a. 16384 和 16399 等位点的数据。 值得一提的是, 笔者在 Y 的序列数据中 找到了不少发生回复突变的特征位点,包括 16126、16223、16231、16319 等。由于 Y 的 样本数比 A 和 N9a 的样本数少得多,这些回 复突变的存在给中接网络的构建增加了很大 的难度。以上中接网络是笔者根据系统树多 次调整所得到的最为准确的图形。 可以看到 Y 中接网络的“空心化”特征 十分明显。经过一系列分析笔者最终确定在 样本中很可能不存在真正的 Y*根部类型。 起 图 24. 推测的线粒体 N9a-16129 和 N9a-16172 单倍 群分支迁徙路线示意图 初,笔者在有关序列中发现有 2 个湖南长沙 Fig.24 Conjectural migration routes of mitochondrial 样本 C208、C209 共享相同的高变 1 区突变 haplogroup N9a-16129 and N9a-16172. 特征 16126-16223-16231,很象是 Y 的原始 型。但是在后来的数据比对中,发现湖南个 N9a 的主要分支 N9a-16129、N9a-16172、 体 C208 和天津个体 Le310 具有相同的高变 1 N9a6、N9a-r16261 等应该都是在北部湾一带 区特征 16126-16223-16231-16384[30,31]。鉴 分化出来的。 他们沿着大体相似的路线迁徙, 于 Le310 在原文中被细分为 Y1b,而又缺少 同样在湖北东部一带发生分化,向东迁入日 Y1 的 16266 突变特征, 可以确定 Le310 是带 本和韩国,向西直达新疆伊犁和喀什,见图 有 16266 回复的 Y1 下游分支 Y1-r16266。这 31
  • 20.
    REPORT COM. on C. A. 3:e3, 2009 图 26. 根据东亚和北亚人全序列绘制的 Y 单倍群系统发生树。未列出非特征的插入和删除变异。 Fig.26 Phylogenesis of the haplogroup Y according to the whole mitochondrial genome of East Asians and North Asians. Non-specific insertions and deletions were not displayed. 样看来, 具有相同特征的湖南 C208 还有其他 化细节和迁移路线提供了重要线索[8]。 2 个 湖 南 样 本 (C208 、 C209) 应 该 也 是 Y1: 在系统树中可以看到,Y1 形成了 Y1-r16266[30]。在下文的分析中,笔者大体 3 个主要分支 Y1a、Y1b 和 Y1-16399。Y1a 确定了 Y 的起源年代十分古老, 而且起源地 的下游分支就是中接网络中标出的 Y1a1,沿 应该在北部湾一带而不是湖南。 用了 Derenko 等 2007 年论文中的定义[20]。 Y 的中接网络结构很简单,表明 Y 在扩张规 Y1b 的特征位点包括 10097、15221、15460, 模上比 A 和 N9a 小得多。 不过 Y 在亚洲的扩 参考了 Tanaka 等 2004 年论文和孔庆鹏等 张范围却是最大的,向北到达北极地区,向 2006 年论文中的定义。Y1b 没有高变 1 区特 南则深入东南亚岛屿。从上述特点分析,Y 征突变,已知的全序列样本包括新疆汉族 应该比 A、N9a 有着更为久远的分化历史。Y XJ8426 和日本人 KA097, 新疆汉族样本处于 只产生了两个主要的分支 Y1 和 Y2, 由于 Y1 Y1b 根部位置,而日本 KA097 多出 3 个额外 在大陆上扩张而 Y2 主要在东南亚地区发展, 突变,显示日本的 Y1b 可能源自中国大陆 所以在数量和突变距离上 Y1 分支都大大超 [6,8]。此外,笔者在 Ji 等 2007 年论文中又发 过 Y2 分支。从高变 1 区特征还可以分辨出 现 3 个中国大陆个体属于 Y1b,包括四川人 Y1 的两个次级分支 Y1a1 和 Y1-16399。 Y1a1 Le1261、广东人 Le1361 和天津人 Le310[31]。 主要分布在远东地区,其末端分支 Y1-16399 分支在中接网络中也可以看到,不 Y1a1-16292 主要分布在尼夫赫人和日本阿伊 过全序列样本只有 1 个汗尼干人 Kam6, 所以 努人中。 无法确定此分支编码区的特征位点[20]。 Y2:重庆綦江人 QJ183 处于根部位置, 3.7. Y 单倍群全序列分析 而青海汉族 QH9510、 汗尼干人 Kam2 和日本 因 Y 单倍群的高变 1 区特征较少,笔者 人 HN249 都是独立分化的个体。 只有日本人 尝试以的全序列数据构建系统发生树,见图 ND088 和布里亚特人 Br621 是共享 338 转换 26。完成后的 Y 系统树展现了更多的分支细 的同一分支[6,8,20]。笔者还找到了带有 338 节,笔者幸运地从全序列中找到了 Y1 和 Y2 位点突变的 2 个韩国样本 K335、K525,表明 的根部类型样本,内蒙达斡尔族 DW35 和重 这个 Y2 支系应该是在东北亚地区形成的[19]。 庆綦江县人 QJ183,这为确定 Y 单倍群的分 因没有高变 1 区特征出现,笔者把它暂命名 32
  • 21.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 为 Y2a。遗憾的是,笔者没有在已发表文献 仡佬族 G14 则共享 16176 突变[19,23,27,31]。 中找到东南亚地区的 Y2 全序列,所以无法确 定东南亚 Y2 的分类地位。 3.9. Y1 的原始型和未定义类型 Y1 原始型: 图 27 显示,Y1 原始型在 3.8. Y 分支的地理分布 东亚内陆的分布比较分散,但在中国南方呈 Y1 研究结果显示, 主要分布在东亚、 东 现连续分布的状态。最高发的是广西东北部 北亚和远东滨海地区。 则主要分布在东南Y2 三江侗族和湖南长沙人,频率分别为 2.8%和 亚族群和台湾原住民中,只以很低的频率出 2.4%。在甘肃汉族、新疆汉族、新疆乌兹别 现在东亚、北亚和东北亚部分群体中。由于 克族、内蒙东北部达斡尔族、南西伯利亚布 大量样本仅见高变 1 区数据,所以有一部分 里亚特人、广西罗城平话人、福建长汀客家 缺乏高变 1 区特征的 Y1b 样本无法完全细分 人中也有发现,发生频率在 1.1%-2.2%之间。 出来。 Y1 此外, 原始型在日本人和韩国人中低频存 Y1a(含 Y1a1):在上文的全序列分析中, 在,频率分别为 0.2%、0.4%。根据上述分布 笔者确定了 Ingman 等 2007 年论文数据中的 特点来分析, 笔者推断 Y1 最早的分化地点很 蒙古人 Mg221 属于 Y1a 的原始型[16]。除此 可能在广西境内。 之外,Y1a 主要分布在俄罗斯远东滨海地区 Y1 未定义类型:与 Y1 原始型的分布不 的族群中,在北西伯利亚泰梅尔半岛的恩加 同,Y1 未定义类型的高发区域比较连续。其 纳桑人(Nganasan)中也有分布。 笔者发现绝大 中有一条从湖南至闽粤沿海的高发带, Y1 在 多数 Y1a 样本都属于 Y1a1。 另有 4 个样本属 原始型的分布图上也可以看到,应该是早期 于带有 16304 突变的小分支 Y1a-16304,其 迁徙留下的痕迹。在广东潮州人中最高发, 中远东地区乌德盖人和乌尔奇人各 2 例,频 发生频率为 7.7%,其次是俄远东的乌德盖人 率为 4.3%和 2.3%。 (Udegey)4.3%,广东汕头澄海人 3.7%,和西 Y1a1 在 尼夫 赫 人 (Nivkh) 与 乌 尔 奇 人 双版纳哈尼族 3.0%(图 27)。 未定义类型在 Y1 (Ulchi)最高发,发生频率分别为 39.3%、 俄远东的乌尔奇人中的频率为 2.3%;在华北 29.9%;其次是恩加纳桑人 21.2%,阿伊努人 的内蒙赤峰、辽宁凤城、山东泰安和青岛、 19.6%和科里雅克人(Koryak)13.6%。在伊捷 陕西西安的汉族群体中也有发现,频率 尔缅人中的频率为 4.3%。从图 27 看,Y1a 1.9%-2.6%; 在西南地区的云南会泽和四川维 分化和扩散地点是在俄罗斯境内阿穆尔河 城汉族群体中的频率为 1.7%、1.4%;在广西 (黑龙江)下游一带。另外,Y1a1 中还可以划 壮族中的频率为 1.2%。 分出一个末端分支 Y1a1-16292,多见于阿伊 笔者发现在未定义类型还存在不少可 努人和尼夫赫人, 频率分别为 16.1%、 13.7%, 识别的细小分支, 有助于判断 Y1 的分化过程 在乌尔奇人和科里雅克人中也有少量发现。 和迁徙路线。 不难看出阿伊努人的 Y1a1 成分中的应来自 Y1-16325:广西壮族 ZH32 和广东澄海 远东族群的混杂。 人 STB2 样本共享 16325 转换,而且 STB2 Y1-16399: Y1-16399 的地理分布呈现 比 ZH32 多一个 16051 突变,所以广东 STB2 离散的状态。最高发的族群是南西伯利亚的 很可能源自广西[10,33]。 索约特人 3.3%和贵州东北部道真县仡佬族 Y1-16218:陕西西安 SHANNXI29 和山 3.2%。Y1-16399 也低频出现在山东泰安人、 东泰安 SD10347 样本是共享 16218 位点突变 湘西苗族、布里亚特人、汗尼干人、日本南 的同一单倍型,表明属同一分支[9,34]。 部宫崎人和韩国人中,发生频率为 Y1-16172 : 有 2 个 四 川 个 体 (Le 1261 、 0.9%-1.3%(图 27)。另外在北京和广东也各见 SICHUAN43)共享 16172 转换突变。不过其 1 例(Le1200、Le1328)[31]。笔者还发现韩国 中的 Le1261 似乎并不带有 Y1 的 16266 突变 人 K401 和湘西苗族 MHN71 样本都带有相同 特征。由于在原文中 Le1261 被划分为 Y1b, 的 16220C 颠换突变,而广东 Le1200 和贵州 所以可以确定 Le1261 是发生 16266 回复突变 33
  • 22.
    REPORT COM. on C. A. 3:e3, 2009 的 Y1 样本[9,31]。 很可能源自华北地区[22,35]。 Y1-r16266,16384 : 笔 者 发 现 湖 南 长 沙 Y2:无论从变异特征还是从地理分布方 C208 和天津 Le310 样本共享 16384 转换。 并 面分析,Y2 单倍群都有着不可思议的特性。 且两者都缺少 Y1 的 16266 突变特征。 考虑到 比较一下 Y1 和 Y2 的特征位点可以发现: 在 Le310 在原文中被分型为 Y1b,而且 16384 编码区特征上,排除掉 5417 回复突变后,所 位点突变率很低,可以断定他们都是带有 有 Y2 样本还共享 5 个位点突变构成的谱序 16266 回复突变的 Y1 下游分支[30,31]。 (482-6941-7859-14914-15244);而 Y1 样本主 Y1-16193:山东青岛 QD8151 和 1 个图瓦个 要分为 Y1a 和 Y1b 分支,两者只共享 3834 体共享 16193 转换突变。表明图瓦人的 Y1 位点突变。在高变 1 区特征上,在全部 Y2 图 27. 线粒体 Y 单倍群发生频率地理分布图 Fig.27 Distributions of the mitochondrial haplogroups Y. 34
  • 23.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 样本中原始型(16126-16223-16231-16311)的 表明它很可能被后来南下的N9a6群体排挤到 比重高达 78.3%; Y1 样本中原始型的比重 而 更边远的地区。 仅为 20.5%。 无独有偶,N9a6 和 Y2 也同时出现在台 Y2 在地理分布上, 集中分布在东南亚岛 湾海峡两岸:N9a6a 出现在闽南沿海地区, 屿和台湾原住族群中(图 27)。在印尼苏门答 而 Y2 分布在台湾岛北部,N9a-r16261 和 腊岛北部棉兰(Medan)人中出现频率最高, 达 N9a-16129 出现在台湾的中东部沿海和南部 16.7%,其次是菲律宾马尼拉人 11.5%。Y2 地区。这种分布关系提示我们,Y2 应该是最 在 印 尼 苏 门答腊 岛 中部北 干 巴 鲁 早通过东山陆桥进入台湾的 N 系单倍群,随 (Pekanbaru)、南部巴邻旁(Palembang)以及邦 后才是 N9a-r16261 和 N9a-16129。笔者查阅 加岛居民中也比较高发,发生频率约在 资料后发现,末次冰期时台湾通过东山陆桥 3.6%-5.9%之间。Y2 在台湾的赛夏族和泰雅 与大陆相通,而与菲律宾和日本没有陆桥相 族中的发生频率差异较大,分别为 9.5%和 连[36,37]。由此可确定台湾 Y2 和 N9a 很可 3.1%。 能都是由华南沿海一带移入的(参见讨论章 Y2 此外, 也以较低的频率出现在东亚和 节的内容)。 东北亚地区。大陆上最高发的族群是重庆綦 江县人 3.9%,其次是南西伯利亚的汗尼干人 2.0%,青海汉族 1.1%。在布里亚特人、韩国 人和日本中的发生频率都在 0.3%左右。在山 东人中也发现 1 例 Le1159[31]。另外笔者发 现在文波等 2004 年论文的数据中有 1 例来自 湖南长沙的 M*样本 HUNAN07[9]。从高变 1 区特征(16126-16223-16231-16311)来看与 Y2 完全吻合,鉴于湖南长沙样本中有 Y1 存在, 而笔者也没有在其他数据中找到特征突变相 似的 M*样本,因此 HUNAN07 很可能是被 错误检测的 Y2 个体。 Y2 这样看来, 在漫长的形成过程中可能 一直保持着较小的群体规模。按照 Derenko 等 2007 年论文中的年代测定结果,Y2 的分 图 28. 线粒体 Y2 和 N9a 单倍群在东南亚地区的分布 化年代为 8,567±3,831 年前[20]。 不过这个年 叠加图 Y2 以红色表示,N9a6 以蓝色表示。 代测定值是有疑问的。笔者根据台湾原住民 Fig.28 Distributions of the mitochondrial haplogroups 中 Y2 和 N9a 分支的分布位置关系推测 Y2 Y2 and N9a in Southeast Asia. Blue stands for Y2, and red for N9a6. 的分化年代不会晚于 2.0 万年前(参见讨论章 节的内容)。 Y2 照此分析, 在东南亚和台湾的分布现 状很可能是在 N9a 后期扩张的推动下形成 3.10. Y 的迁徙路线 的。从 Y 和 N9a 同为 N9 的两大分支,我们 虽然在以上的分析中未能确定 Y 的最初 不难得出以下的结论:Y 和 N9a 的起源地很 起源和分化地点, 不过笔者在比较 Y2 和 N9a 可能都在北部湾一带, 首先从 N9 中分化出 Y 在东南亚的分支时找到了有关的线索。 来,并向周边地区扩散;其后 N9a 也分化出 当我们把N9a6和Y2在东南亚的分布图叠加 来,它的扩散对 Y 形成了挤出效应,把 Y 推 后(图28),可以看到N9a6在东南亚主要分布 向更远的地区。如果比较一下 Y 和 N9a 在东 的地区包括马来半岛及苏门答腊岛中西部, 亚和北亚的分布区域也能看到相同的情况, 而Y2不见于马来半岛而是散布在东南亚岛屿 N9a 主要分布在东亚和东北亚地区,而 Y 的 上,高发区域在苏门答腊岛北部和菲律宾, 一些支系远达西伯利亚和远东滨海地区。 35
  • 24.
    REPORT COM. on C. A. 3:e3, 2009 根据以上分析结果笔者绘出了最为可 祖型多出一个 14259 突变,因此 Nanai157 代 能的 Y 的迁徙路线,见图 29。Y 在东亚的扩 表了较早期的分支类型。 散范围偏向东部地区, 这一特点与 N9a 和 A5 后来笔者又在 Starikovskaya 等 2004 年 十分相似。与 N9a 和 A5 所不同的是,Y 的 论文中找到了更多的远东 N9b 样本[7]。在此 扩散范围更大:向南深入东南亚岛屿的边缘 文 的 列 表 中 给 出 了 属 于 N9( 不 包 括 Y) 的 地带,向北直达远东鄂霍茨克海沿岸。表明 RFLPs 和高变 1 区数据。除去其中带有 N9a Y 的主体分化时间比 A5 和 N9a 更早。在后 特征突变 16257A 和 16261 的单倍型外, 其余 期 A 和 N9a 支系的扩张和挤压下,大陆上的 3 种单倍型应属于 N9b。 Y 支系被迫进行了再分布,导致 Y 早期扩散 单倍型 1:RFLPs -5742 HpaII,HVS-1 信息变得十分模糊。不过重建的路线图还是 16189; 单倍型 2: RFLPs -5742 HpaII,HVS-1 显示出在华中地区存在一个扩散中心,笔者 16129-16189-16311; 单倍型 3: RFLPs -14258 估计大体上应是在湖南长沙一带。此外,重 BamHI,HVS-1 16519。 建的路线图还显示出: 大陆上非常少见的 Y2 RFLPs 检测结果为 N9b 的细分提供了重 基本上是沿着与 Y1 相同的路线迁徙的,Y2 要依据:不难看出前两种单倍型都表现出 在东南亚的扩散则是后来的一次独立事件。 RFLPs 多态性-5742 HpaII,应属同一 N9b 分 支,其样本均来自乌尔奇人;单倍型 3 显然 是发生了 16189 回复的 N9b,检测出-14258 BamHI,与 Nanai157 的 14259 突变吻合,所 以它们构成了另一 N9b 分支。此分支由乌尔 奇人、乌德盖人和那乃人的样本组成。 Tanaka 等 2004 年论文中的系统树表明 日本的 N9b 分成几个主要分支[6]。不过这些 分支中找不到远东族群的 RFLPs 多态性特 征,说明日本和远东的 N9a 在分化早期就已 隔离。 在韩国人中也发现 2 例 N9b 样本 K517、 K280,不过从高变区特征很难确定其来源 [19]。另外,Tanaka 等 2004 论文显示阿伊努 人中至少存在 1 例 N9b,笔者据此在日本文 献中找到了高变 1 区突变特征为 16189、 16519 的阿伊努个体 Ainu162, 与日本的 3 个 N9b 样本 ON032、HN179、ND216 属同一单 倍型, 所以这个样本很可能就是 N9b。 另有 2 图 29. 推测的线粒体 Y 单倍群分支迁徙路线示意图 个阿伊努样本 Ainu27、 Ainu92 的突变位点特 Fig.29 Conjectural migration routes of mitochondrial haplogroup Y. 征为 16189、 16356、16519, 可能也属于 N9b, 不过仅凭高变 1 区数据无法确认。有关文献 3.11. N9b 的主要支系 还表明琉球人和台湾汉族中也发现有少量 N9b 是 N9 最小的下游单倍群。 现有文献 N9b[38,39]。从地理上来分析可能都直接或间 显示它存在于日本人、韩国人和阿伊努人的 接来自日本 N9b 的扩散。 母系遗传中。不过笔者后来的发现证明 N9b 的起源地应该在远东阿穆尔河下游地区。 3.12. N9b 的地理分布 笔者起初在 Ingman 等 2007 年论文中找 分析结果表明 N9b 只有一个高发中心, 到一个那乃人全序列,也就是上文中提到的 位置在远东阿穆尔河下游地区,表明这一带 Nanai157(EU007856)[16]。通过与系统树的比 就是 N9b 的早期分化地(图 30)。统计显示, 对, 发现此样本是带有 10607 回复突变的 N9b N9b 在乌德盖人中的发生频率高达 66.7%, 样本。 除此之外, Nanai157 在编码区只比 N9b 36
  • 25.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 乌尔奇人的频率为 13.6%。而那乃人仅见 1 岛(库页岛)与大陆和北海道连为一体时, 自北 个 N9b 样本,群体发生频率不详。N9b 在日 方进入日本列岛的,参见图 38。日本和远东 本中部人与韩国人中的发生频率分别为 2.9% 的 N9b 属于不同的分支,所以 N9b 很可能是 和 0.3%,在阿伊努人和琉球人中的分布频率 一次性迁入日本,随后两者在地理隔绝的状 不低于 2.0%。 态下独立发展。考虑到地理上的接近性,韩 国人中低频出现的 N9b 很可能源自历史上与 日本居民的基因交流。 4.N 系单倍群分化年代分析 表 1 所列的就是亚洲东部 N 系单倍群的 分化年代。 其中多数采用高变 1 区数据测定, 仅对于部分有疑问或不准确年代测定结果改 用更为可靠的编码区数据进行测算。笔者测 定东亚地区 N*单倍群的分化年代约 6.6 万 年,这个数值与 Macaulay 等 2005 年论文附 件中 6.3-6.4 万年的测定值基本接近,此文献 还给出了 N 在中国的奠基年代约为 5.27 万 图 30. 线粒体 N9b 单倍群发生频率地理分布图 年,这表明亚洲东部 N 系单倍群的内部分化 Fig.30 Distribution of the mitochondrial haplogroups N9b. 早在他们进入亚洲之前就已开始[5]。 另外必须说明的是 Y2 年代测定值的问 3.13. N9b 的迁徙路线 题。 笔者在以编码区数据测算 Y2 分化年代时 笔者发现 N9b 和与 Y1 的两个分支 没有找到东南亚的 Y2 全序列数据, 所以这个 Y1a1、Y1a-16304 都集中分布于远东阿穆尔 5100 年的年代值应该是不准确的。从 Y2 和 河下游族群中[35]。 N9b 和 Y 同属 N9 的下游 N9a 下游分支在台湾海峡和东南亚岛屿的分 单倍群, 因此笔者推测 N9b 可能是从伴随 Y1 布位置关系来看,它的实际分化年代不会晚 迁徙的一个 N9*(pre-N9b)演变出来的。这次 于 2.0 万年(参见讨论章节的有关内容)。 长途迁徙过程显然极富戏剧性,因为从 N9 在尽可能准确地测算 N 系单倍群分化年 的起源地越南北部到 N9b 的分化地阿穆尔河 代的基础上,笔者重建了其在亚洲东部的大 下游地区仅直线距离就超过 4000 公里! 体迁徙扩散过程,见图 32。这对破解 N 系单 倍群起源之谜以及确定其归属南方还是北方 特征单倍群至关重要。以下简要说明笔者的 分析结果。 5.0 万年前: 从本文和其他相关文献的 年代测定可知,N 系人群大约在 6-8 万年前 从非洲出发沿亚洲南部海岸线向东迁徙,大 约 在 5.5 万 年 前 已 经 到 达 中 南 半 岛 南 部 [5,41]。随后在泰国湾分为南北两支:北支沿 中南半岛海岸线前行,经越南走廊北上,大 约在 5.3 万年前抵达北部湾地区;而南支顺 马来半岛南下,穿越东南亚西部岛屿,其中 图 31. 推测的线粒体 N9b 单倍群迁徙路线示意图 一些支系进入巴布亚新几内亚和澳大利亚。 Fig.16 Conjectural migration routes of mitochondrial haplogroup N9b. 距今 6.0-5.0 万年前正处于上一个冰川期,气 候寒冷而干旱,海平面较低。那时,早期现 N9b 自远东滨海地区开始的分化过程相 代人可能划着独木舟横渡变得狭窄的海域进 对比较清晰。它应该是在末次冰期当萨哈林 入巴布亚新几内亚,再通过陆桥进入澳大利 37
  • 26.
    REPORT COM. on C. A. 3:e3, 2009 表 1. 亚洲东部 N 系单倍群的分化年代 Tab.1 Estimated ages for the superhaplogroups N branches. 线粒体单倍群 样本来源 突变数据 分化年代(千年) N* 东亚 高变 1 区 66.0±11.3 N21 中国、东南亚 高变 1 区 42.6±21.4 N9 亚洲东部 编码区(9 例) 40.5±6.7 N-16111,16172,16189,16362 中国、东南亚 高变 1 区 40.4±19.6 A 亚洲东部、印度东北部 高变 1 区 39.6±13.2 N9a 亚洲东部 高变 1 区 36.3±9.1 A5 中国、日韩、北亚 编码区(13 例) 25.7±7.4 Y 东亚、日韩、北亚、远东 编码区(17 例) 23.9±6.2 N9a-16172 中国、日韩、北亚 高变 1 区 23.7±6.9 A4 亚洲东部、印度东北部 高变 1 区 23.5±4.1 N9b 远东、日本 高变 1 区 22.6±9.7 N9a6 中国、东南亚 高变 1 区 21.9±12.4 N-16263,16274,16343,16357 东南亚 高变 1 区 21.9±14.4 A2 远东 高变 1 区 21.2±11.7 N9a-16129 中国、日韩、北亚 高变 1 区 20.5±12.4 A8 日韩、北亚、远东 编码区(2 例) 18.0±6.8 N22 东南亚 高变 1 区 17.7±8.7 A5b 中国、日韩、北亚 高变 1 区 16.5±9.4 A4b 北亚、远东 编码区(3 例) 15.4±6.2 A5a 中国、日韩 编码区(9 例) 15.4±4.9 Y1 东亚、日韩、北亚、远东 编码区(10 例) 13.9±4.2 A4a 北亚、中国、日本 编码区(6 例) 9.4±4.3 N9a1 亚洲东部 高变 1 区 8.0±2.3 Y1a 北亚、远东 编码区(6 例) 7.7±3.1 A-16234,16293C 亚洲东部 高变 1 区 7.2±3.8 N9a2 亚洲东部 高变 1 区 6.5±2.4 Y2 东亚、日韩、北亚 编码区(7 例) 5.1±1.9 A4-16274 亚洲东部 高变 1 区 3.6±1.6 A5c 中国、日韩、北亚 高变 1 区 3.6±2.1 A4-16124 亚洲东部 高变 1 区 3.4±1.7 注:1.以上年代测定值是按各单倍群内部差异计算的。2.平均取代率:高变 1 区突变按 16090-16365 位点每 20180 年 发生 1 次取代计,编码区突变按 577-16023 位点每 5138 年发生 1 次取代计[40,41]。 亚东北部地区。 适应。A5 约在 2.6 万年前出现,不过最初的 4.5-4.0 万年前: 这一时期气温比 5 万年 扩张规模和范围可能极为有限。 前明显回升,但仍比现在要低。当时的泰国 2.5-2.0 万年前: 这是东亚 N 系单倍群 湾和北部湾不仅土地富饶,而且面积比现在 发展最重要的时期,虽然气温持续下降,但 要大,很可能是当时人口增殖最快的地区。 是在这个时期人类征服自然环境的能力大大 此时 N-16111,16172,16189,16362(图中标注 提高。N 在东亚常见的分支——A4、A5、 为 N-16111,16172)和 N9 在北部湾,N21 在 N9a-16172、N9a-16129、Y 和 N9b 单倍群都 泰国湾开始了最初的分化。 已出现。 产生后不久, 就从 A4 中分离 A4 A2 4.0-3.5 万年前: 东亚大陆上两个主要的 出来, 踏上了前往白令海地区的漫漫旅程。 Y、 单倍群 A 和 N9a 开始出现,但是扩张范围仍 N9b 也从 N9*中分化出来,结伴向远东滨海 然局限于北部湾周边地区。经测算它们的内 地区长途迁徙。另外,重建的分化迁徙路线 部分化时间分别为 4.0 万年前和 3.6 万年前。 显示了一个有趣的现象:N9a 的分化扩张在 因此 A 比 N9a 率先向东亚内陆扩展,这个扩 很大程度上阻挡了 A 沿越南走廊南下,笔者 张顺序对它们后来的发展具有重大的影响。 认为这可能就是 A 单倍群没有分布到东南亚 3.5-2.5 万年前: 气温再次下降,N 系人 岛屿的原因。不过还是有极少量的 A 系分支 群没有取得明显的进展。可能是因为征服内 穿越云贵高原进入了泰国北部。另外,A 系 陆地区需要完全不同于以往的新生产方式相 单倍群在西南和华中地区的扩张也在一定程 38
  • 27.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 图 32. 推测的线粒体 N 系单倍群在亚洲东部迁徙扩散示意图 Fig.32 Conjectural migration routes of mitochondrial haplogroups N in East Asia. 度上遏制了 N9a 的北上,而使自己在东亚获 续的冻土带,渤海和黄海大陆架露出海平面 得了巨大的发展空间。此时 N 系人群的扩张 的部分则形成大片的沙漠。台湾与大陆连接 范围已达华中大部分地区, 部分支系(A2、Y、 在一起,成为一座横亘在东海之滨、最高峰 N9b)可能已深入华北和东北一带。 达海拔 4000 米的巨大雪山。韩国南部和日本 2.0-1.3 万年前: 此时正处于末次冰川 之间形成了陆桥,可供史前动物群和人类通 期,大约 1.8 万年前达到最盛期。北方气候 行[42]。这一时期 N 系人群显然已完全适应 非常寒冷干旱。华北平原和黄土高原大部分 了东亚大陆的地理环境。A*和 A5 的分支在 变成了干草原,内蒙和东北亚地区形成了连 西南、 华中和华东地区小规模扩张, A5a、 A8、 39
  • 28.
    REPORT COM. on C. A. 3:e3, 2009 A5b,可能还有 A5c 的祖先通过陆桥进入韩 K。事实上在线粒体 N 单倍群的早期分支(如 国和日本。 A4b 从 A4 中分化出来, 迁徙至内 N21、N22 和 S)分布的马来半岛、太平洋西 蒙东部地区。N 在东南亚的一些古老支系(如 部岛屿、巴布亚新几内亚和澳洲,也是 Y 染 N22),在南下人群的压力下从中南半岛、马 色体 K 系单倍群主要分布的地域[1,45]。 来半岛向东南亚西部岛屿迁徙。从有关文献 但是具体分析 N 系主要分支 A、N9a 和 的年代测定来看:至 1.4 万年前,Y 和 N9b Y 在中国境内的分布,可以发现湖北、湖南 可能已迁徙至北亚和远东地区, 则已抵达 A2 两省是其分化最重要的地区,这些地区是古 白令海,并由陆桥进入美洲大陆[6,21]。重建 代苗蛮民族的势力范围。此外 N 系单倍群在 后的迁徙路线显示,此时的 N 系人群在大陆 广西西北部、云南东部和南部等地也比较常 上的主体扩张可能仍集中在气候环境条件适 见,这些地区也均有苗瑶族群分布。笔者初 宜的东亚东部地区,而很少涉足西部内陆地 步判断东亚的 N 系单倍群在后来的发展中很 区。 不过 A4 的扩张主体此时已转向湖北西部 可能成为苗瑶族群的母系遗传成分之一。 和重庆一带发展,这将为它之后在西部地区 的大举扩张赢得先机。 近 1.0 万年以内: 从 1.0 万年前开始, 气温上升,气候变得相当温暖适宜。A4 开始 了 大 规 模 的 人 口 扩 张 。 A4a 、 A4-16274 、 A4-16124,还有 A 的分支 A-16234,16293C 都是在最近 1.0 万年内大举向中国西部地区 和北亚地区扩展的,A-16234,16293C 还进入 了泰国北部和印度东北部地区。此时 N9a-16129 及其主要支系 N9a1 也已进入湖 南、湖北一带,并向周边地区扩散。N9a2 和 A5c 在日本和韩国发生扩张,A5c 还一直分 图 33. 苗瑶族群母系线粒体遗传第一主成分地理分 布图 Fig.33 Distribution of the mitochondrial 布到贝加尔湖东部的部分族群中。Y1a 在远 diversity principal component 1 of Hmong-Mien. 东阿穆尔河下游一带产生出 Y1a1,并向北迁 徙到鄂霍次克海沿岸和堪察加半岛,向南经 为了解 N 系单倍群在苗瑶族群母系遗传 萨哈林岛进入日本。总体而言,N 系单倍群 中的地位,笔者搜集了苗瑶族群以及可能与 向西藏、西北、北亚、远东地区的主体扩张 其有血缘交流的周边汉族和泰国北部人的线 发生在比较晚近的时期。 粒体 DNA 分型数据[9-11,18,23,46],使用 综上所述,尽管 N 系单倍群在 5.0 万年 SPSS 13.0 软件进行母系线粒体遗传主成分 前已经到达中南半岛和东南亚地区,不过从 分析,并绘制地理分布图,见图 33。从比对 重建的迁徙过程看,进入东亚腹地并发生大 结果看只有第一主成分(占信息量的 51.5%) 规模扩张的时间却迟至 2.5-2.0 万年前。 的分布具有明确的含义:苗瑶族群母系遗传 第一主成分与 B5a 的分布特点十分近似,而 5.东亚 N 系单倍群族属初探 与 A 和 N9a 的分布有较大的出入,这意味着 从以上的大量分析中,笔者大致确定了 B5a 才是苗瑶系民族中分布最普遍的单倍群 N 在东亚大陆上的主要分支 A、N9a 和 Y 均 (图 34)。从各族群线粒体遗传中提取到的第 属北部湾地区起源。这意味着 N 系人群无疑 一主成分信息量来看,是以瑶族群体最多, 属于南方起源的族群。 以往的研究结果显示, 苗族其次, 华中汉族第三。所以笔者认为 B5a 在东亚南部线粒体 R 系单倍群 B、F 主要伴 应该是瑶族母系的主体成分,而湖南、湖北 随着 Y 染色体 O 系单倍群[11,23,43,44]。笔 两省比较高发的 A、N9a 则很可能是当地历 者由此推断, 作为线粒体 R 单倍群祖先的 N, 史上苗蛮族群母系的主体成分。除此之外, 很可能也伴随着 Y 染色体 O 单倍群的祖先 笔者还注意到 B5a 有一个姊妹分支 B5b,在 40
  • 29.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 图 34. 线粒体 A、N9a、B5a 和 B5b 单倍群发生频率地理分布图 Fig.34 Distributions of the mitochondrial haplogroups A, N9a, B5a, and B5b. 江西南昌人中最高发,而且在日本人、韩国 接着笔者继续用 SPSS 13.0 软件进行因 人和琉球人中均有发现。 李辉等 2007 年论文 子分析以验证上述观点。研究对象为苗瑶族 显示江西商代吴城遗址出土遗骨经检测 Y 染 群及其周边的一些汉族和少数民族群体,仅 色 体 类 型 属 于 苗 瑶 族 群 中 常 见 的 O2a 和 选取其中与苗瑶族群相关的线粒体 N 系和 O3*[47]。由此可见 B5b 也应属于苗瑶族群的 B5 系单倍群分型数据用于分析,重点了解这 母系遗传成分,而且很可能对应着一个已消 两类苗瑶特征单倍群在现代族群中的分布情 失的苗瑶支系——古代吴人。 况(图 35)。可以看到它们聚为三个组团:位 于中部上方的 N 系单倍群、左下方的 B5a 和 右下方的 B5*和 B5b,显然对应苗瑶族内部 的三个主要支系,与笔者的判断非常吻合。 图 36 所示为苗瑶族系及周边族群线粒 体单倍群的分析因子分析结果。主成分 1 区 分出了母系遗传混杂度较高(靠右)和成分比 较单一(靠左)的群体, 而主成分 2 区分出了 N 系及 B5 系单倍群的优势群体。图上半部分 是 B5 系单倍群优势群体, 包括了全部 5 个瑶 族群体;下半部分是 N 系单倍群优势群体, 出乎意料的是其中多数是华中、华东、华南 图 35. N 系和 B5 系单倍群因子分析二维散点图 地区的汉族群体而不是现代苗族群体。其中 Fig.35 Principal component plot of mitochondrial 湖北武汉汉族、广东南澳人、安徽合肥汉族、 haplogroups N and B5. 41
  • 30.
    REPORT COM. on C. A. 3:e3, 2009 图 36. 苗瑶族系及周边族群线粒体单倍群因子分析二维散点图 X—苗语族群,Y—瑶族,W—土家族,_— 壮侗族群,^—汉族,d—客家和闽南(含潮汕)语人。MHN—湘西苗族,MWS—云南文山苗族,THN—湘西 土家族,YWZ—广西梧州瑶,YBP—广东八排瑶,YGS—湖南过山瑶,YT—广西土瑶,YJM—云南金蒙瑶, BN—广西布努瑶,DES—湖北恩施侗族,DTZ—贵州侗族,TYH—贵州土家族,DBN—云南傣族,HZJ—广 东湛江汉族,NAO—广东南澳岛民,CHS—广东潮汕人,MIN—福建闽南人,HAK—福建长汀客家,HYN— 云南汉族,HTL—广西田林汉族,HHZ—浙江杭州汉族,HHF—安徽合肥汉族,HNJ—江苏南京汉族,HCS —湖南长沙汉族,HWH—湖北武汉汉族,HWC—四川维城汉族,HNC—江西南昌汉族,HSH—上海汉族, MQ—上海马桥宕傣,HAY—河南安阳汉族,HTA—山东泰安汉族 Fig.36 Principal component plot of Hmong-Mien and neighboring populations based on mitochondrial diversity. 湖南长沙汉族的 N 系单倍群频率最高发,大 线粒体因子分析还揭示出南澳岛居民(N 系频 体在 18.4%-26.2%之间,表明原苗蛮族群的 率 24.1%,B5 系频率 3.4%)和闽南人(N 系 母系成分大量流入了华中汉族和一些华东、 13.3%, 系 1.3%)之间的密切联系, B5 两者的 华南汉族群体中。 N 系单倍群更高发,显示融合了大量原苗蛮 统计显示:在苗语支的族群中,湘西苗 族群的母系成分。与此形成对照的是,福建 族 N 系单倍群发生频率为 12.6%,居然低于 长汀客家人(N 系 7.4%, 系 9.3%)和潮汕人 B5 很多周边汉族的水平。而且湘西苗族与土家 (N 系 6.8%, 系 6.8%)的 N 系和 B5 系发生 B5 族和部分周边汉族群体聚在一起,似乎暗示 频率大体接近,显示母系成分中同时包含苗 湘西苗族在历史上与土家族、汉族有着复杂 蛮和瑶族两种成分。 的互动关系。云南文山苗族和广西大化布努 瑶都是 B5 系单倍群的频率更高, 说明他们在 离开苗蛮民族原居地向西南地区迁徙过程中 结论 吸收了较多瑶族的母系遗传成分。另外,湖 N 系单倍群频率的地理分布研究显示, 北恩施侗族的母系成分中 N 系和 B5 系单倍 母系遗传并非杂乱无章、无规律可循地在各 群的发生频率高达 30%和 20%,其母系遗传 族群间大范围迁移。尽管经历了历史上无数 更接近苗瑶群体而不是壮侗群体,表明在其 次的民族迁徙、分化与融合,但是在细分单 发展历史中融合吸收了大量苗瑶民族成分。 倍型的基础上,仍能通过地理分布和变异频 42
  • 31.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 率分析重建其迁徙流动的主体方向和路线。 伊努人中也发现 1 例 A4 原始型样本 A38, 暗 具体来说,A、N9a、Y 和 N9b 都是由北部湾 示迁入日本的年代已很久远。 一带起源,然后在大约 2.5-2.0 万年前进入华 而在日本中部的 2 个 A4 样本均非原始 中地区再向其他地区扩散的,因而它们最早 型:日本 KA021 和江苏 JIANGSU15 均属同 应该都是同一史前族群的母系遗传成分。苗 一单倍型 A4-16179,16311,显示此类型应为 瑶及周边族群母系遗传因子分析再次证实了 华东起源;日本 ON125 属于 A4a,鉴于 A4a 以往研究得出重要结论:母系线粒体遗传通 在华东地区仅存在 1 例江苏 JIANGSU28,而 常与地理位置有着更密切的联系。换言之, 在韩国样本中没有发现,所以日本的 A4a 很 位置接近(而族属未必相同)的族群通常具有 可能也来自华东地区的移民[6,9]。 A4 非原 从 相似的母系遗传结构。这一特点与有关研究 始型分布的地理局限性以及 A4a 的分化时间 所得出的父系 Y 染色体遗传结构主要与民族 和语言属性密切相关的结论完全不同 [46,48]。鉴于 N 系单倍群与华中地区历史上 苗蛮族系有着密切的联系,可将东亚 N 世系 所属的史前族群称为“原始苗人” 。 统计显示,N 系单倍群在湖南苗族中的 发生频率并不比其他一些周边民族的发生频 率更高,可以推断已消失的“原始苗人”的 遗传基因不仅被现代苗族所继承,而且也被 晚期扩张和迁入的其他民族大量吸收。由于 现代苗族母系遗传中还有其他外族成分的融 入,所以不能视为“原始苗人”的直系后裔, 图 37. 线粒体 A4 和 A5a 单倍群在日本和韩国的分布 而只是其众多的继承者之一。 这清楚地表明, 红色代表大陆上常见的 A4,蓝色代表日韩地区常见 在现代民族和史前族群之间存在着极大的差 的 A5a。 异。 现代民族其实是在父系遗传或强势语言、 Fig.37 Distributions of the mitochondrial haplogroups A4 and A5a in Japan and Korea. Red stands for the 文化因素的主导下,由若干个史前族群经过 haplogroup A4 common in mainland, and blue for the 长期同化与融合所形成。 A5a common in Korea and Japan. 讨论 A4 和 A5a 在日韩人中所展现的移民层次 笔者在分析数据时发现,A 单倍群在日 本和朝韩人中的分布层次似乎显示了一些未 知的人群迁徙和扩散事件。 37 是根据日本 图 人、韩国人、朝鲜人(以内蒙阿荣旗朝鲜族数 据代替)和阿伊努人的 A 样本中 A4 和 A5a 所 占比例所绘制的分布图。 从高变 1 区特征看,日本九州(宫崎县) 和韩国 A4 样本都是以原始类型居多: 日本九 州的 4 例 A4 样本都是原始型; 韩国人 A4 个 体中原始型占 64%。而在华东汉族(江苏、安 徽、浙江、辽宁)的 14 例 A4 样本中仅有 3 例 图 38. 冰河时期的日本 黄色区域代表现在的陆地, 为原始型,比例 21.4%。显然日本九州居民 浅黄色区域显示了冰期时扩展的陆地。 在母系遗传上与韩国人更为接近。此外,阿 Fig.38 Japan in Ice Age. Yellow stands for the present land, and light yellow for the extended land in Ice Age. 43
  • 32.
    REPORT COM. on C. A. 3:e3, 2009 约 9400 年前来看, 这似乎是一次相对晚近的 传方面,除发现了 B5a 外,还发现了 N 系的 移民事件。 下游分支 Y2 和 N9a-16129、N9a-r16261。而 笔者还发现在日本中部人和北朝鲜人 A 在海峡对岸闽南和粤东一带出现的 N 系分支 样 本 中 A5a 比 例 很 高 , 分 别 为 79.2% 和 完 全 不 同 , 包 括 Y1 和 N9a 原 始 型 、 57.1%。由于 A5a 在大陆上极为罕见,所以 N9a*(16311)、N9a1、N9a4、N9a6a,显示台 这应该是一次日韩本地人口扩张事件的遗 湾原住民并不是晚近时期来自大陆的移民。 迹。日本人中也发现有 A5b 和 A5c,不过发 笔者查阅了相关地质资料,结果发现有 生频率较低,无法为分析提供足够的信息。 一处地理构造是决定台湾海峡两岸移民分布 考虑到在冰川期时日本南部和朝鲜半 的决定性因素,即东山陆桥和台湾浅滩(图 岛之间的大陆架会露出海面并最终接合形成 39)。东山陆桥是由台湾海峡中南部海平面下 陆桥(图 38),所以大体可以确定从南方进入 的一些浅滩组成。 西起福建南部东山岛东南, 的移民首先会抵达日本西部地区,再向中部 向东延伸至海峡中部的台湾浅滩,而后再经 地区扩散。据此可推测出日韩 A 系下游单倍 南澎湖浅滩、北澎湖浅滩和台西浅滩至台西 群向日本移民的最有可能的次序:最早发生 附近。其深度一般在 40 米上下。有关研究显 的是 A4 原始型的迁入和在日本列岛和朝鲜 示,在 2.3-1.2 万年前末次冰期时,这里的海 半岛的扩散,而后是 A5a 在日本和朝鲜半岛 平面最多可下降约 120 米,东山陆桥大部分 产生的人口扩张,最后是 A4 非原始型(包括 成为陆地,可供史前人类通行[36,37]。东山 A4a)自华东地区向日本中部的移民。 岛海域 “东山人”化石及台湾左镇人化石的 发现,充分说明史前移民是从福建东山岛启 线粒体 A5 单倍群与 Y 染色体 O2b 单倍群的 程,经东山陆桥进入台湾西南部地区[52]。 密切关联 总体而言,在日本人的母系成分中 A4 频率很低,而 A5a 频率较高。鉴于 A5a 在大 陆上非常罕见,笔者认为日本的 A5a 主要与 Y 染色体 O2b 单倍群尤其是 O2b1 有着密切 的关联。有关文献表明,在大陆上有 A5b 和 A5c 分布的一些地方,比如闽南、华东和泰 国等地, 也同时发现有 Y 染色体 O2b 单倍群 存在[49-51]。这显示了在东亚和东北亚地区 线粒体 A5 单倍群与 Y 染色体 O2b 单倍群之 间的密切关联,看起来两者很可能是作为同 一族群的父系和母系成分一道迁徙的。不过 在东南亚岛屿(如印尼、 菲律宾)一带的情况有 所不同,这里存在父系 O2b 单倍群,但并不 伴随出现母系 A5 单倍群,甚至连 A*和 A4 图 39. 台湾岛周边海洋深度分色示意图 都不存在。因此,对于东南亚 Y 染色体 O2b Fig.39 The relief map of the seabed around Taiwan Island. 单倍群究竟对应何种母系成分仍需要进一步 研究。 图 40 显示了台湾原住民中 Y2 和 N9a 单 倍群的大体分布区域。不难判断,应该是位 东山陆桥与史前台湾的移民层次 置最靠北的 Y2 最先进入台湾, 其次是中东部 在台湾原住民的来源中,笔者发现无论 沿海分布的 N9a-r16261,最后才是南部的 父系还是母系遗传上都存在少量的原苗瑶族 N9a-16129。从年代测算结果看,N9a-16129 系的成分。苗瑶族群中常见的 Y 染色体单倍 的分化年代约为 2.0 万年前,而海峡对岸大 群 O2a、O2a1 和 O3*都有发现。在线粒体遗 陆居民中存在的 Y1 和 N9a1 分化时间分别为 44
  • 33.
    陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 3. Hill C, Soares P, Mormina M, Macaulay V, Clarke D, Blumbach P, Vizuete-Forster M, Forster P, Bulbeck D, Oppenheimer S, Richards M (2007) A Mitochondrial Stratigraphy for Island Southeast Asia. Am J Hum Genet 80:29-43. 4. Hill C, Soares P, Mormina M, Macaulay V, Meehan W, Blackburn J, Clarke D, Raja JM, Ismail P, Bulbeck D, Oppenheimer S, Richards M (2006) Phylogeography and ethnogenesis of aboriginal Southeast Asians. Mol Biol Evol 23:2480-2491. 5. Macaulay V, Hill C, Achilli A, Rengo C, Clarke D, Meehan W, Blackburn J, Semino O, Scozzari R, Cruciani F, Taha A, Shaari NK, Raja JM, Ismail P, Zainuddin Z, Goodwin W, Bulbeck D, Bandelt HJ, Oppenheimer S, Torroni A, Richards M (2005) Single, rapid coastal settlement of Asia revealed by analysis of complete mitochondrial genomes. Science 308:1034-1036. 6. Tanaka M, Cabrera VM, González AM, Larruga JM, Takeyasu T, Fuku N, Guo LJ, Hirose R, Fujita Y, Kurata M, Shinoda K, Umetsu K, Yamada Y, Oshida Y, Sato Y, Hattori N, Mizuno Y, Arai Y, Hirose N, Ohta S, Ogawa O, Tanaka Y, Kawamori R, Shamoto-Nagai M, Maruyama W, Shimokata H, Suzuki R, 图 40. 线粒体 Y2 和 N9a 单倍群在台湾原住民中的分 Shimodaira H (2004) Mitochondrial genome variation in eastern 布叠加图 红色—Y2,蓝色—N9a-r16261,绿色— Asia and the peopling of Japan. Genome Res 14:1832-1850. N9a-16129。 7. Starikovskaya EB, Sukernik RI, Derbeneva OA, Volodko NV, Fig.40 Distributions of the mitochondrial haplogroups Ruiz-Pesini E, Torroni A, Brown MD, Lott MT, Hosseini SH, Y2 and N9a in Taiwan aborigines. Red:Y2, blue: Huoponen K, Wallace DC (2004) Mitochondrial DNA diversity N9a-r16261, green:N9a-16129. in indigenous populations of the southern extent of Siberia, and the origins of Native American haplogroups. Ann Hum Genet 69:67-89. 1.39 万年前和 8000 年前。这个结果与地质学 8. Kong QP, Bandelt HJ, Sun C, Yao YG, Salas A, Achilli A, Wang 研究结果基本一致, 说明台湾原住民中的“原 CY, Zhong L, Zhu CL, Wu SF, Torroni A, Zhang YP (2006) Updating the East Asian mtDNA phylogeny: a prerequisite for 始苗人”成分应该就是在 2.3-1.2 万年前海平 the identification of pathogenic mutations. Hum Mol Genet 15:2076-2086. 面较低的时期经由东山陆桥进入台湾的。而 9. Wen B, Li H, Lu D, Song X, Zhang F, He Y, Li F, Gao Y, Mao 在陆桥不通但台湾浅滩露出海平面的时期, X, Zhang L, Qian J, Tan J, Jin J, Huang W, Deka R, Su B, Chakraborty R, Jin L (2004) Genetic evidence supports demic 这里也能为史前人类提供丰富的海洋食物来 diffusion of Han culture. Nature 431:302-305. 源。笔者认为这很可能是 N 系各分支类型在 10. Li X, Su M, Huang H, Li H, Tian D, Gao Y (2007) mtDNA evidence: Genetic background associated with related 粤东、闽南沿海地区集中分布的重要原因。 populations at high risk for esophageal cancer between Chaoshan and Taihang Mountain areas in China. Genomics 90:474–481. 11. Li H, Cai X, Winograd-Cort ER, Wen B, Cheng X, Qin Z, Liu 致谢 W, Liu Y, Pan S, Qian J, Tan CC, Jin L(2007) Mitochondrial 对兰海先生在资料搜集方面的协助以及李辉博士的答疑表 DNA Diversity and Population Differentiation in Southern East 示诚挚的谢意! Asia. Am J Phys Anthropol 134:481–488. 12. Gan RJ, Pan SL, Mustavich LF, Qin ZD, Cai XY, Qian J, Liu 附件 CW, Peng JH, Li SL, Xu JS, Jin L, Li H; Genographic 附表 1.各族群 mtDNA 数据来源文献与数据库信息一览表 Consortium (2008) Pinghua population as an exception of Han Supplementary table 1. Resources for the mtDNA data of Chinese's coherent genetic structure. J Hum Genet 53, 303–313. population samples 13. Yao YG, Kong QP, Wang CY, Zhu CL, Zhang YP (2004) http://COMonCA.org.cn/PDF/2009/COMONCA03-003S.doc Different matrilineal contributions to genetic structure of ethnic 网上资源 groups in the silk road region in china. Mol Biol Evol 21:2265-2280. GenBank, http://www.ncbi.nlm.nih.gov/Genbank/ 14. Palanichamy MG, Sun C, Agrawal S, Bandelt HJ, Kong QP, CLC Free Workbench 4.5.1, http://www.clcbio.com/index.php?id=28 Khan F, Wang CY, Chaudhuri TK, Palla V, Zhang YP (2004) Network 4.5.0.0, http://www.fluxus-engineering.com/sharenet.htm Phylogeny of mitochondrial DNA macrohaplogroup N in India, Sufer 8.0, http://www.goldensoftware.com/products/surfer/surfer.shtml based on complete sequencing: implications for the peopling of 参考文献 South Asia. Am J Hum Genet 75:966-978. 15.孔庆鹏,张亚平 (2008) 人类线粒体DNA 世系的系统发育关 1. Hudjashov G, Kivisild T, Underhill PA, Endicott P, Sanchez JJ, 系研究. 生命科学 20:540-548. Lin AA, Shen P, Oefner P, Renfrew C, Villems R, Forster P 16. Ingman M, Gyllensten U (2007) Rate variation between (2007) Revealing the prehistoric settlement of Australia by Y mitochondrial domains and adaptive evolution in humans. Hum chromosome and mtDNA analysis. Proc Natl Acad Sci USA Mol Genet 16:2281-2287. 104:8726-8730. 17. Kong QP, Yao YG, Sun C, Bandelt HJ, Zhu CL, Zhang YP 2. Metspalu M, Kivisild T, Bandelt HJ, Richards M, Villems R (2003) Phylogeny of east Asian mitochondrial DNA lineages (2006) The pioneer settlement of modern humans in Asia. In: inferred from complete sequences. Am J Hum Genet 73:671-676. Bandelt HJ, Macaulay V, Richards M (eds) Human 18. Wen B, Xie X, Gao S, Li H, Shi H, Song X, Qian T, Xiao C, mitochondrial DNA and the evolution of Homo sapiens. Jin J, Su B, Lu D, Chakraborty R, Jin L (2004) Analyses of Springer-Verlag, 181–199. 45
  • 34.
    REPORT COM. on C. A. 3:e3, 2009 Genetic Structure of Tibeto-Burman Populations Reveals inferences drawn from ancient DNA. Mol Biol Evol 20:214-219. Sex-Biased Admixture in Southern Tibeto-Burmans. Am J Hum 35. Derenko MV, Grzybowski T, Malyarchuk BA, Dambueva IK, Genet 74:856–865. Denisova GA, Czarny J, Dorzhu CM, Kakpakov VT, 19. Lee HY, Yoo JE, Park MJ, Chung U, Kim CY, Shin KJ (2006) Miścicka-Sliwka D, Woźniak M, Zakharov IA (2003) Diversity East Asian mtDNA haplogroup determination in Koreans: of mitochondrial DNA lineages in South Siberia. Ann Hum Haplogroup-level coding region SNP analysis and Genet 67:391-411. subhaplogroup-level control region sequence analysis. 36. 林 观 得 (1982) 台 湾 海 峡 海 底 地 貌 的 探 讨 . 台 湾 海 峡 Electrophoresis 27:4408-4418. 1(2):58-63. 20. Derenko M, Malyarchuk B, Grzybowski T, Denisova G, 37. 蔡保全 (2002) 晚玉木冰期台湾海峡成陆的证据. 海洋科 Dambueva I, Perkova M, Dorzhu C, Luzina F, Lee HK, Vanecek 学 26(6):51-54. T, Villems R, Zakharov I (2007) Phylogeographic analysis of 38. Tajima A, Hayami M, Tokunaga K, Juji T, Matsuo M, Marzuki mitochondrial DNA in northern Asian populations. Am J Hum S, Omoto K, Horai S (2004) Genetic origins of the Ainu inferred Genet 81:1025–1041. from combined DNA analyses of maternal and paternal lineages. 21. Volodko NV, Starikovskaya EB, Mazunin IO, Eltsov NP, J Hum Genet 49:187-193. Naidenko PV, Wallace DC, Sukernik RI (2008) Mitochondrial 39. Horai S, Murayama K, Hayasaka K, Matsubayashi S, Hattori Y, genome diversity in arctic Siberians, with particular reference to Fucharoen G, Harihara S, Park KS, Omoto K, Pan IH (1996) the evolutionary history of Beringia and Pleistocenic peopling of mtDNA polymorphism in East Asian Populations, with special the Americas. Am J Hum Genet 82:1084-1100. reference to the peopling of Japan. Am J Hum Genet 59:579-590. 22. Yao YG, Kong QP, Bandelt HJ, Kivisild T, Zhang YP (2002) 40. Forster P, Harding R, Torroni A, Bandelt HJ (1996) Origin and Phylogeographic differentiation of mitochondrial DNA in Han evolution of Native American mtDNA variation: a reappraisal. Chinese. Am J Hum Genet 70:635-651. Am J Hum Genet 59:935-945. 23.Wen B, Li H, Gao S, Mao X, Gao Y, Li F, Zhang F, He Y, 41. Mishmar D, Ruiz-Pesini E, Golik P, Macaulay V, Clark AG, Dong Y, Zhang Y, Huang W, Jin J, Xiao C, Lu D, Chakraborty R, Hosseini S, Brandon M, Easley K, Chen E, Brown MD, Sukernik Su B, Deka R, Jin L(2004) Genetic Structure of Hmong-Mien RI, Olckers A, Wallace DC (2003) Natural selection shaped Speaking Populations in East Asia as Revealed by mtDNA regional mtDNA variation in humans. Proc Natl Acad Sci USA Lineages. Mol Biol Evol 22:725–734. 100:171-176. 24. 王青峰,常城 (2008) 我国藏族人群线粒体DNA系统发育基 42. 施雅风,崔之久,苏珍 (2006)中国第四纪冰川与环境变化.石 因组学研究.兰州大学2008届硕士学位论文. 家庄:河北科学技术出版社. 566-567,602-604. 25. Kong QP, Yao YG, Liu M, Shen SP, Chen C, Zhu CL, 43. Su B, Xiao J, Underhill P, Deka R, Zhang W, Akey J, Huang Palanichamy MG, Zhang YP (2003) Mitochondrial DNA W, Shen D, Lu D, Luo J, Chu J, Tan J, Shen P, Davis R, sequence polymorphisms of five ethnic populations from Cavalli-Sforza L, Chakraborty R, Xiong M, Du R, Oefner P, northern China. Hum Genet 113:391-405. Chen Z, Jin L (1999) Y-Chromosome evidence for a northward 26. Reddy BM, Langstieh BT, Kumar V, Nagaraja T, Reddy AN, migration of modern humans into Eastern Asia during the last Ice Meka A, Reddy AG, Thangaraj K, Singh L (2007) Age. Am J Hum Genet 65:1718-1724. Austro-Asiatic tribes of Northeast India provide hitherto missing 44. Xue Y, Zerjal T, Bao W, Zhu S, Shu Q, Xu J, Du R, Fu S, Li P, genetic link between South and Southeast Asia. PLoS ONE Hurles ME, Yang H, Tyler-Smith C (2006) Male demography in 2(11):e1141. East Asia: a north-south contrast in human population expansion 27. 李彬彬, 钟复光, 易红生, 王先然, 李良芳, 王丽兰, 齐晓 times. Genetics 172:2431-2439. 岚, 吴立甫 (2007) 贵州侗族、仡佬族、土家族和彝族人群线 45. Kayser M, Brauer S, Cordaux R, Casto A, Lao O, Zhivotovsky 粒体DNA 多态性研究. 遗传学报 34: 800-811. LA, Moyse-Faurie C, Rutledge RB, Schiefenhoevel W, Gil D, 28. Saillard J, Forster P, Lynnerup N, Bandelt HJ, Nørby S (2000) Lin AA, Underhill PA, Oefner PJ, Trent RJ, Stoneking M (2006) mtDNA variation among Greenland Eskimos: the edge of the Melanesian and Asian origins of Polynesians: mtDNA and Y Beringian expansion. Am J Hum Genet 67:718-726. chromosome gradients across the Pacific. Mol Biol Evol 29. Trejaut JA, Kivisild T, Loo JH, Lee CL, He CL, Hsu CJ, Lee 23:2234-2244. ZY, Lin M (2005) Traces of archaic mitochondrial lineages 46. 文波,金力(2004)Y染色体、mtDNA多态性与东亚人群的遗 persist in Austronesian-speaking Formosan populations. PLoS 传结构. 复旦大学2004年遗传学专业博士论文. Biol 3(8):e247. 47. Li H, Huang Y, Mustavich LF, Zhang F, Tan JZ, Wang LE, 30. Oota H, Kitano T, Jin F, Yuasa I, Wang L, Ueda S, Saitou N, Qian J, Gao MH, Jin L (2007) Y chromosomes of prehistoric Stoneking M.(2002)Extreme mtDNA Homogeneity in people along the Yangtze River. Hum Genet 122:383-388. Continental Asian Populations. Am J Phys Anthropol 48. 高嵩,金力 (2004) 东亚人群线粒体遗传多态研究. 复旦大 118:146–153. 学人类生物学2004年毕业论文. 31. Ji Y, Zhang AM, Jia X, Zhang YP, Xiao X, Li S, Guo X, 49. Lin SJ, Tanaka K, Leonard W, Gerelsaikhan T, Dashnyam B, Bandelt HJ, Zhang Q, Yao YG (2008) Mitochondrial DNA Nyamkhishig S, Hida A, Nakahori Y, Omoto K, Crawford MH, haplogroups M7b1'2 and M8a affect clinical expression of leber Nakagome Y (1994) A Y-associated allele is shared among a few hereditary optic neuropathy in Chinese families with the ethnic groups of Asia. Jpn J Hum Genet 39:299-304. m.11778G→A mutation. Am J Hum Genet 83:760-768. 50. Jin HJ, Kwak KD, Hammer MF, Nakahori Y, Shinka T, Lee 32. Cheng B, Tang W, He L, Dong Y, Lu J, Lei Y, Yu H, Zhang J, JW, Jin F, Jia X, Tyler-Smith C, Kim W (2003) Y-chromosomal Xiao C (2008) Genetic imprint of the Mongol: signal from DNA haplogroups and their implications for the dual origins of phylogeographic analysis of mitochondrial DNA. J Hum Genet the Koreans. Hum Genet 114:27-35. 53:905–913. 51. Lu C, Zhang J, Li Y, Xia Y, Zhang F, Wu B, Wu W, Ji G, Gu 33. Yao YG, Nie L, Harpending H, Fu YX, Yuan ZG, Zhang YP A, Wang S, Jin L, Wang X (2007) The b2/b3 subdeletion shows (2002) Genetic relationship of Chinese ethnic populations higher risk of spermatogenic failure and higher frequency of revealed by mtDNA sequence diversity. Am J Phys Anthropol complete AZFc deletion than the gr/gr subdeletion in a Chinese 118:63-76. population. Hum Mol Genet 18:1122-1130. 34. Yao YG, Kong QP, Man XY, Bandelt HJ, Zhang YP (2003) 52. 蔡保全 (1997) “东山陆桥”与台湾最早人类. 漳州师院学 Reconstructing the evolutionary history of China: a caveat about 报 (3):31-36. 46