Haplogroup N research

2,614 views

Published on

Haplogroup N research

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,614
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Haplogroup N research

  1. 1.  15(S):13-46 ª 现代人类学通讯 第三卷 2009 年 Communication on Contemporary Anthropology COM. on C. A. 3:e3, 2009 Vol. 3 研究报告 东亚人群线粒体 N 系单倍群的迁徙分化 陈致勇 中国恐龙网论坛, 上海 200085 摘要:线粒体 N 系单倍群是东亚人母系线粒体遗传 M、N 和 R 三大系统之一。本文在汇总大量亚洲东部族群线 粒体 N 系单倍群序列和数据的基础上,通过重建系统发生学关系,明确了东亚人的 N 世系(A、N9a、Y、N9b 等)直接源自北部湾地区,应为东南亚起源而非中亚起源。年代测算表明 N 系单倍群很可能在 5.0 万年前已到 达东南亚地区,在东亚大陆大规模扩张的时间大致始于 2.5-2.0 万年前。地理分析显示,华中地区是 N 系下 游单倍群 A、N9a 和 Y 扩散分化和集中分布的主要地区,暗示 N 系单倍群可能与苗瑶族系,特别是与古代的苗 蛮民族有着密切的联系。因而可将 N 系单倍群所属的史前族群视为“原始苗人”。但进一步的分析显示 N 系单 倍群的成分不仅存在于湖南苗族的母系遗传中,也大量流入了周边汉族和其他少数民族群体中。表明在母系 遗传上湖南苗族不是史前“原始苗人”的唯一直系后裔,而只是分享其母系遗传的众多后继者之一。 关键词:线粒体;N 系;单倍群;东亚;北部湾;迁徙;苗瑶 Migration and Diversification of Mitochondrial Haplogroup N in East Asians CHEN Zhiyong China Dinasour Forum, Shanghai 200085 China Abstract:Mitochondrial superhaplogroup N is one of the three dominant haplogroups M, N and R in the East Asians. Here published sequences and data of haplogroup N in East Asia were collected and the phylogenesis was reconstructured. The origin of the N lineage of East Asians (A, N9a, Y, N9b, etc.) was found to be beside Tonkin Bay, not in Central Asia but in Southeast Asia. Time estimates suggested that superhaplogroup N most probably arrived in Southeast Asia 50 thousand years ago, and started to expand in mainland of East Asia around 25-20 thousand years ago. Geographic analyses showed that middle China was the diffusion center of the downstream haplogroups A, N9a, and Y, indicating haplogroup N might be associated to Hmong-Mien, especially to the ancient “Miao Man”. Therefore, the ancient population with the haplogroup N might be defined as “proto-Hmong”. Further analyses showed that haplogroup N distributes not only in Hmong from Hunan but also in the neighboring Han Chinese and other minorities. Present Hmong is not the only descendant of “proto-Hmong” but one of those descendant sharing haplogroup N. Key words: Mitochondria; Haplogroup N; East Asia; Tonkin Bay; Migration; Hmong-Mien 系统性的分析。结果显示东亚线粒体 N 世系 前言 同样属于南方起源,东亚人的祖先主要由南 笔者早先在研究东亚母系线粒体遗传 方(南亚和东亚南部)沿海路线迁徙而来。 地理分布时, 发现线粒体 M 系和 R 系的早期 此外,由于在不同族群融合时经常出现 类型都明确地显示出在中国南方集中分布的 性别偏向性,史前族群的大部分父系遗传结 迹象,表明均属于南方起源,与一些文献的 构经常被晚近时期强势民族的父系标记所掩 研究结果基本吻合[1,2]。但是对 N 系单倍群 盖。而母系遗传结构则忠实地记录了历史上 (A、N9a 和 Y 等)早期类型单倍群地理分布的 不同的移民层次,对于追寻远古族群的迁徙 研究却没能为追溯起源提供更多的线索,现 历史来说是非常理想和有效的工具。因此充 有文献对此也是语焉不详。笔者认为其中主 分、准确地解读东亚人母系线粒体遗传所携 要的问题在于对线粒体单倍群细分不够和研 带的丰富信息,将有助于我们最终破解东亚 究深入程度不够。因此广泛搜集亚洲东部 N 民族远古起源之谜。 系单倍群的序列和样本对其进行最为完整和 收稿日期:2009 年 3 月 8 日 修回日期:2009 年 4 月 21 日 联系人:陈致勇 nickchen1@vip.sina.com 2009 年 4 月 22 日 http://COMonCA.org.cn/Abs/2009/003.htm 13 ©上海人类学学会 Shanghai Society of Anthropology
  2. 2. REPORT COM. on C. A. 3:e3, 2009 共计 1173 条。其中 N*序列 41 条, 序列 552 A 材料与方法 条,N9a 序列 296 条,Y 序列 199 条,N9b 样本的搜集 序列 41 条,N21 序列 36 条,N22 序列 8 条。 本次研究的序列和数据主要来自以往 另外,许多带有 16189 位点突变的序列 文献及 GenBank 数据库,来源详见附件。鉴 也极易在高变 1 区 16181-16193 片段上发生 于 N 系单倍群的起源地很可能在境外,而且 更多的关联突变。考虑到对分型价值不大, 分布范围远及东南亚岛屿、印度东北部、北 在主要分析中对上述片段中的插入、删除以 亚、北极等广大地区,因此本次研究在亚洲 及突变为 C 的颠换等非特征变异均予以排 东部范围内全面搜集蒙古人种各群体 N 系单 除。 倍群的高变 1 区序列和全序列数据,以及可 转化为序列的高变 1 区突变数据,用于分布 主要分析方法 频率分析。图 1 显示了本文主要数据采样点 1.全序列分析 的分布情况。 对于线粒体 DNA 研究来说,最准确和 最有效的方法就是进行全序列的比对分析。 不过由于测试费用太高等原因,现在公开发 表的国内和东南亚的 mtDNA 全序列还很少。 所以目前主要还是采取高变 1 区分析为主、 全序列分析为辅的方式。 2.高变 1 区中接网络分析 本次研究综合了多种分析方法。首先, 在参考有关文献根据 mtDNA 全序列研究所 得到的系统发生树的前提下,使用 Network 4.5.0.0 系统发生学软件构建线粒体高变 1 区 中接网络(Median-joining Network),Network 软件可以从纷繁复杂的序列数据中归纳出线 粒体单倍群的分化结构,并提供高频突变位 图 1. 本文数据主要采样点的位置分布图 点的信息。 Fig.1 Distribution of the population samples analyzed 3.单倍群发生频率的地理分布分析 in this paper. 在充分分析中接网络和分类数据的基 数据预处理 础上,再使用 Sufer 8.0 三维成像软件分别将 首先从样本或可转换数据中筛选出包 研究对象的分型数据,包括主要分支、原始 含比较完整的高变 1 区特征突变的数据,用 类型和未定义类型的发生频率数据绘制成直 于分布频率和变异频率分析。对错误的数据 观的地理分布图。其中原始型和未定义类型 能采取两种处理方式:对于错误分型或未细 的频率分布图可以为我们提供此单倍群早期 分但特征突变特别清楚的数据进行重新分 分化和晚期扩散的重要信息。 型;对于突变数据明显有误且特征突变不清 本文所说的某线粒体单倍群的原始型, 晰 的 直 接 剔 除 。 而 后 使 用 CLC Free 就是在高变 1 区特征上与系统发生树推导出 Workbench 4.5.1 生物信息软件将其中完整或 的单倍群祖型完全一致的单倍型。而未定义 基本完整的数据统一处理为 16024-16383 位 类型指的是在该单倍群的高变 1 区数据中剔 点、长度为 360bp 片段,用于高变 1 区中接 除原始型及其主要分支后余下的单倍型。 网络分析。对于没有分型的高变 1 区序列, 4.扩散效应分析 根据可靠的低突变位点或者联合多个位点特 在分析过程中笔者发现:由于人口数量 征进行最终确认,不能确认的予以排除。最 较少史前人类经常是整个族群一起迁移,沿 后选用的 N 系单倍群高变 1 区序列(或数据) 途通常只留下少量且不连续的痕迹;或者早 14
  3. 3. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 期迁徙事件遗留下来的少量痕迹可能受到后 显然,出现上述第一种情况的区域是早 期其他迁徙事件的冲刷和扭曲,这些都使我 期扩散中心的可能性很大。即使分布频率只 们难以对早期分化迁徙过程作出准确的判 留下很少的遗迹,我们仍然可以通过高变异 断。现有的分子人类学分析方法无法有效地 频率找到远古人群扩散的重要线索。 解决这个难题。为此笔者尝试使用一种新的 分析方法——扩散效应分析。原理在于不同 未定义单倍群的命名 的扩散模式会在地理分布和遗传分布上出现 在下面的分析中,为了避免在命名编号 不同的特征,我们可以综合这两方面的信息 的问题上与其他文献发生冲突,笔者对于已 推断出扩散模式、起始地点、迁移路线等重 有定义的亚单倍群将遵从最权威的命名,而 要结果。 对未定名的亚单倍群只标注高变 1 区特征位 这种分析需要一个新的指标来度量和 点,这样直观易懂而且不会引起歧义。 分析族群内部变异的积累程度, 可称之为“群 体内部变异频率” 。计算方法为:首先在作为 研究对象的某个单倍群高变 1 区数据中去除 结果和分析 原始型和所有或大或小的分支,筛选出无法 1.线粒体 N 单倍群 细分的样本,这些样本可以为我们提供各群 N 系单倍群在亚洲东部广大地区都有分 体内部遗传分化的信息。然后,统计出每个 布,在已定义分支中:A 和 N9a 主要分布在 采样群体中无法细分样本的特异突变位点的 东亚和北亚地区,N21 和 N22 分布在东南亚 总数(注意在相同位点上同时出现转换和颠 地区[3-5],N9b 分布在东北亚和西伯利亚远 换可计数 2 次) 用这个突变位点数除以该群 。 东滨海地区[6,7],而 Y 在东南亚、东亚和东 体的样本总数,就得到群体内部变异频率。 北亚地区都能找到。 接下来将使用 Sufer 软件绘出群体内部 与上述已定义的下游单倍群不同的是, 分化度的地理分布图。对比某一单倍群分布 N 未定义类型的分布极为有限。在笔者所搜 频率和内部变异频率的地理分布图,会发现 集到的全部序列和数据中:N*集中分布于北 主要有三种情况出现: 部湾地区,包括越南北部、中国广西自治区 (1)某一区域内单倍群发生频率和变异频 和海南;也分布在中国南方地区和东南亚部 率都比较高。这通常是群体大规模扩散的迹 分地区;低频出现在中国北方少数地区。但 象。大规模扩散是一个长期的过程,人口大 在境外的北亚、中亚和北极地区一例都没有 量增殖带来遗传突变几率的增加,在较长的 发现。 时间跨度内群体内部必然有大量新的变异型 出现。 1.1. N 单倍群高变 1 区中接网络 (2)某一区域内的变异频率较高,而单倍 图 2 就是根据亚洲东部线粒体 N 系单倍 群发生频率不高。这可能是小群体迁徙的迹 群数据绘制的高变 1 区中接网络。笔者参考 象。在遗传漂变的作用下,新的变异类型有 以往文献中的系统发生树去除了其中冗余的 时会偶然获得在迁徙群体内部扩大其比例的 连线[2,8],排除了一些可能由高突变位点所 机会,迁徙距离越长则群体内部积累的变异 形成的网状拓扑结构。另外,笔者在数据中 越多。又称为瓶颈效应或奠基者效应。 发现 2 个可能属于西部欧亚 N 世系 N1c 和 W (3)某一区域内单倍群发生频率较高,而 的陕西样本 SHANNXI11、 SHANNXI13(陕西 变异频率不高。有可能是族群整体迁徙,群 标准拼写应为 Shaanxi,原文有误),也予以 体内部新产生的变异很难获得扩大比例的机 排除[9]。网络中还加入了 N 系在东亚的主要 会,导致变异频率没有显著增加。或者是晚 分支 A 和 N9a 的原始型样本,以便更清楚地 近时期环境和生存条件改善而导致短期内人 展现亚洲东部 N 系单倍群的全貌。不过笔者 口大量增长,但是由于某种原因只持续了较 没有在数据中找到真正的 Y 原始型,而 N9b 短的时间并未大规模扩散。 原始型的高变 1 区特征太少, 极易与其他 N* 15
  4. 4. REPORT COM. on C. A. 3:e3, 2009 混淆,所以 Y 和 N9b 的原始型都没有加入。 切来源,不过从北亚和北极地区未发现独立 从 N 单倍群中接网络可以发现一些东亚 发展的 N*世系看,他们仍很可能属南方起 N 世系从南方起源的迹象: 源。 (1)整个网络呈现“空心化”的结构。中 从网络中还可以看到,N 在东亚的主要 心节点特别小, 是由 1 个广东潮阳样本 STC8 支系 A、N9a 主要分布在东亚大陆和北部湾 和 1 个印度尼西亚样本 PAD09 组成[4,10]。 周边地区, 只有少数支系分布在东南亚地区。 由于笔者在构建网络时删除了一些高突变的 A*:直接与起始节点相连,另有一个与 位点,所以上述样本并不是 N*的原始类型, 之相连的海南疍家样本 DG12[11],这个样本 而是分别带有 16189 或 16311 位点突变的最 有 16290 突变而缺少 16319 突变,因此难以 接近根部的类型。事实上真正的无高变区特 判断它是否属于未细分的带有 16319 回复突 征的 N*原始型在样本中没有找到。 变的 A 个体。 N9a* : 它 通 过 一 个 越 南 北 部 人 样 本 VN302 与起始节点相连。下文中的全序列分 析确定了 VN302 是个罕见的 Pre-N9a 个体, 笔者判断 N9a 是北部湾一带起源的单倍群。 N 在东南亚地区也分布着几个支系,其 中 N21、N22 和 N-16263,16274,16343,16357 很 可 能 是 东 南 亚 本 地 起 源 , 而 N-16111, 16172,16189,16362 似乎是北部湾地区起源。 N21:其高变 1 区特征是 16193 转换变 异。它是 N 在东南亚地区最大的分支,主要 分布在马来西亚、印尼、泰国部分地区,在 中国云南汉族中也发现一例 YUNNAN37[9]。 从高变 1 区特征看 2 个印尼人样本 PAL06、 BAL40 属于 N21 原始型[3,4]。N21 在马来半 图 2. 根据高变 1 区数据绘制的 N 单倍群简化中接网 岛产生了一个人数众多的分支 N21-16223, 络 节点分色示意:红色—北部湾地区,绿色—中国 带有高变 1 区谱序 16193-16223- 16291。 泰国 南方,橙色—中国北方,蓝色—东南亚地区。 Fig.2 A simplified Median-joining Network of 和云南汉族的 N21 样本则属于带有 16182 转 haplogroup N based on mitochondrial HVS-1 Keys for 换变异的另一支系 N21-16182。 the colors: Red for the Tonkin Bay area, Green for South China, Orange for North China, and Blue for N22:这是个很小的单倍群,样本中包 Southeast Asia. 括 4 例马来土著人和 4 例印尼松巴岛人。其 中 2 个马来土著样本属于 N22 原始型。 (2)在北部湾地区的 N*样本中,有一些与 N-16263,16274,16343,16357:图中标注 东南亚样本共享同一分支,也有与华南样本 为 N-16263,16274。这个未定义单倍群包括 7 的共存的情况出现。后面的进一步分析显示 4 个印尼爪哇人、 个印尼邦加岛(Bangka)人和 北部湾的 N*更多地流向了东亚南部而不是 1 个泰国人 C075 样本。其中 1 个爪哇人和 4 东南亚地区。 个邦加岛人属于原始型。 (3)数据中没有发现来自境外北亚和北极 N-16111,16172,16189,16362 :图中标注 地区的 N*样本。 在排除了可能源自西部欧亚 为 N-16111,16172。 这是个很小的未定义单倍 的 N 世系的样本后, 中国北方(也包括北方少 群,样本中包括 1 个广西拉珈人 MI459、1 数民族)的 N*样本共 5 例,比中国南方和北 个新疆乌兹别克人 Uzb26、1 个马来人和 4 部湾地区的样本少得多。在这 5 例样本中, 个印尼人[12,13]。其中只有拉珈人 MI459 属 有 2 个通过中国南方、北部湾或者东南亚的 于该单倍群的原始型,而 5 个东南亚的样本 节点与根部相连,可能是南方起源。只有 3 都属于带有 16311 转换突变的分支。因而此 个北方样本直接与根部相连,无法确定其确 16
  5. 5. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 单倍群的起源地很可能在北部湾周边一带。 和澳洲 N 世系系统发生树的全面比对,没有 发现 VN9B 与以上世系共祖的迹象。有趣的 1.2. N*及 N9a 全序列分析 是,笔者发现 VN9B、西部欧亚的 W,以及 在搜集到的亚洲东部地区 mtDNA 全序 澳洲土著 N12 的一个分支类型都带有编码区 列中,以日本的数据最多,而在 N*集中的东 5460 位点转换,不过从系统发生树看显然属 亚南部和中南半岛北部,全序列显得尤为稀 于发展中各自独立发生的并行突变[1,14]。 少和珍贵。笔者很幸运地在 GenBank 数据库 VN302(DQ834255):起初未发现此样本 中找到了越南科学技术学院用于病理研究的 具备 N9*的 5417 特征突变,笔者将其归为 10 个越南北部人全序列,分型结果显示其中 N*的未定义类型。但是进一步的比对发现它 存在许多古老类型。其中属于 N 系单倍群的 带有 N9a 的部分特征突变, 包括 150、12358、 样本有 3 个: 他们分属于 N*、 和 pre-N9a。 N9a 12372 和 16261 转换突变。从 Tanaka 等 2004 年论文中 N 的系统树看[6], 5417 是个高突变 率的编码区位点, 基本可以确定 VN302 属于 发生 5417 回复突变的 pre-N9a。笔者也考虑 过它是否可能属于发生了一系列回复突变的 N9a 个体, 不过 5231 属于突变率很低的位点, 而且 16257A 颠换再次发生回复的概率极小, 所以基本上可以排除这种可能性。 VN79 (DQ834258):此序列具备 N9a 的 所有特征。 除了 16261 和 16257A 突变外, 未 见其他高变 1 区位点突变,应该是较早的分 化类型。 需要指出的是:笔者发现上述 3 个越南 北部人全序列都存在编码区 14766 转换,还 有 VN302 和 VN79 样本在编码区上也存在相 同的 4856 转换。 从以往文献中 N 的系统发生 树看,14766、4856 位点不可能是 N 或 N9 下游分支的特征突变[2,8]。还有,在 VN9B 和 VN302 序列中存在一些很少见的突变为 G 的颠换。笔者认为这些奇怪的突变可能都是 测序错误造成的[15]。 图 3 是在参考有关文献系统树资料基础 上,按最可能的情形绘出的系统发生树。其 中还加入了那乃人 Nanai157(EU007856)和广 东湛江 GD7834 作为参考样本,以生成较完 整的分化树形[16,17]。尽管存在测序错误的 可能性,越南北部人全序列还是比较清晰地 展现了 N9a 的早期分化过程。从全序列分析 图 3. 根据越南北部人全序列绘制的 N*和 N9 系统发 生树 去除了与 MELAS 症有关的 3243A→G 突变和 我们可以得出一个重要结论:越南北部存在 一些有疑问的突变。 独立发展的 N*世系, 并且很可能是 N9 和 N9a Fig.3 Phylogenesis of N* and N9 according to the whole genome sequence of north Vietnamese samples. 的起源地。 The MELAS associated 3243A→G and some doubted mutations were excluded. 1.3. N 未定义类型的地理分布 VN9B(DQ826448):属于一个 MELAS 综 合症患者的 N*个体。经过与西部欧亚、印度 17
  6. 6. REPORT COM. on C. A. 3:e3, 2009 话 个 体 PH126 和 2 个 湘 西 土 家 族 个 体 TUJIA0142、TUJIA0151[12,18]。 N-16172,16291A,16298:此分支由江苏 人 JIANGSU16、上海人 SHANGHAI11 和福 建惠安人 STF4 共 3 个样本组成, 其中江苏和 上海样本还共享 16069 位点突变[9,10]。似乎 表明华东地区是 N-16172,16291A,16298 迁徙 的终点。 图 5 是根据序列分析结果绘制的北部湾 地区 N*世系的扩散图。 可以看出: N*扩散的 主要方向是向北进入东亚大陆而不是向南进 图 4. N 未定义类型发生频率地理分布图 Fig. 4 The frequency distributions of unclassified N* 入东南亚地区,而且主要分布于华南地区、 华中地区以及东部沿海部分地区。 N 未定义类型集中分布在北部湾周边地 区(图 4)[11]。发生频率最高的族群是越南北 2. 线粒体 A 单倍群 部人 10.0%,广东潮阳人 5.3%。其次是广西 线粒体 A 单倍群是东亚 N 系单倍群中最 防城港高栏人 3.3%, 海南杞黎 2.9%、海南疍 大的分支。广泛分布在东亚、东北亚、北亚、 家 2.5%。N*在华中、华东、西北地区的部分 北极地区,A 的一些支系如也伴随着一些北 汉族群体中,以及内蒙鄂伦春族中都有少量 亚和乌拉尔族群的西迁一直分布到中亚、东 分布,发生频率在 1.0%-2.4%之间。此外在 欧和北欧部分地区。A2 在大约 1.4 万年前经 印尼巴东人(Padang)和马来西亚哥打基纳 北极白令海地区迁入美洲。A 在东南亚地区 巴卢人中也各发现 1 例。 的分布极为有限,除了泰国有一定比例的分 布外,也低频出现在印度东北部南亚语部族 中和马来人(Melayu)[4],但在东南亚岛屿和 台湾原住民族中均没有发现。笔者认为 A 单 倍群之所以在东南亚分布稀少,是因为在扩 张时受到其他单倍群的竞争,比如同属 N 系 分支而且早期扩散地点更靠南的 N9a 单倍 群。 2.1. A 单倍群高变 1 区中接网络 图 6 是依据 A 单倍群高变 1 区数据绘制 的简化中接网络。为方便观察 A 网络的基本 架构,合并了一些细小的末端分支。图中以 图 5. 推测为北部湾起源的线粒体 N*单倍群支系扩 黑色标识的就是 A*网络的起始节点, 可以看 散示意图 椭圆形代表主要的扩散中心,下同。 Fig.5 Conjectural origin of mitochondrial haplogroup 到 A*产生了两个巨大的分支: 一支是主要在 N* beside Tonkin Bay and its diffusion. The ellipse 东亚大陆发展的 A4, 另一支是主要分布于中 stands for the origin area in this and the following maps. 国东南沿海、日本和韩国的 A5*。处于 A*左 上方的大节点就是 A4*, 它与 A*祖型只差一 由于 N*记录了早期人类迁徙的宝贵信 步 16362 突变,但却产生出一个巨大的星形 息,笔者参照中接网络分析结果对 N*继续作 结构,表明在相对晚近时期曾发生过剧烈的 全面的细分,得到更多未定义的细小分支。 分化扩散。A*右上方稍小的节点是 A5a,以 N-16381:这是个由低突变率 16381 位点 及它姊妹支系 A5b 和 A5c。鉴于 A 系单倍群 转换所确定的小分支,包括 1 个广西贺州平 的完整网络过于复杂,下面我们将把它拆分 18
  7. 7. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 成 A*(A5)和 A4 两部分来研究。 特征,无法确定其中是否存在个别 A5*早期 类型。 此外,在网络中还可以看到 A8 和其他 未命名的小分支,这些分支的数据携带着 A* 迁徙分化的重要信息。 2.3. A5 分支的地理分布 A5a:A5a 样本中绝大部分来自日本和朝 鲜半岛,以 16187 转换突变为特征。据本次 研究统计,内蒙古阿荣旗朝鲜族(近代北朝鲜 移民)最高发,48 个样本中就发现 4 例,发生 频 率 高 达 8.3% 。 以 下 依 次 为 日 本 中 部 人 6.1%, 日本南部宫崎县人 3.5%, 韩国人 3.3%。 但在阿伊努人中没有发现 A5a。 图 6. 线粒体 A 单倍群高变 1 区简化中接网络 Fig.6 A simplified Median-joining network of 东亚大陆上的 A5a 样本极为罕见。笔者 mitochondrial haplogroup A based of HVS-1 motif 发现河南安阳人 STE36 带有 16187 特征突 变, 可能是 A5a 个体[10]。 还有孔庆鹏等 2006 年论文附件显示云南昆明人 YC29 属于 A5a, 2.2. A*和 A5 高变 1 区中接网络 从编码区特征看应为早期分支[8]。 有趣的是, 在参考以往文献中系统发生树的基础 笔者发现河南 STE36 和韩国 Kor68 都发生了 上,笔者去除 A*和 A5 中接网络中一些高突 16223 回复突变,而云南 YC29 和韩国 K216 变率的位点数据(16189、16311 等)和冗余连 共享 16270 突变[19]。这暗示 A5a 的起源地 线,得到了比较完整、清晰的高变 1 区中接 很可能是在中国境内,而不是日本和韩国。 网络图(图 7)。 A5b:A5b 的高变 1 区特征是 16126 和 16235 位点转换。从高变 1 区数据看 A5b 似 乎存在两个主要分支。一个是 A5b 的早期类 型,最高发的是福建惠安人,发生频率为 2.7%,海南疍家 2.5%,其次是日本鸟取县人 2.1%和上海人 1.8%。另一个是 A5b-16234, 最高发的是广东南澳岛居民 3.6%,其次是湘 西土家族 3.1%、 福建莆田人 3.0%。 此外在新 疆回族、辽宁大连人、湘西苗族和韩国人中 也有发现(图 8)。 A5c:这是个很罕见的 A5 下游分支,高 图 7. 线粒体 A*和 A5 单倍群高变 1 区中接网络 Fig.7 A Median-joining network of mitochondrial 变 1 区特征为 16129 和 16213 转换。仅分布 haplogroup A* and A5 based on HVS-1 motif 在日本人、韩国人、琉球人、新巴尔虎旗蒙 古族,以及南西伯利亚的布里亚特人和汗尼 可以看到,网络中的 A5 主要分为三个 干人(Khamnigan)中(图 8)。在安徽汉族中也 分支 A5a、A5b 和 A5c。在对日本的 mtDNA 发现 1 例 ANHUI19[9]。 全序列进行充分研究后,笔者发现其中 A5 样本都可以归结为上述三个亚单倍群,没有 A5*早期类型出现。 但对于来自亚洲其他地区 2.4. A*分支的地理分布 仅见高变 1 区数据的 A*样本来说, A5*祖 因 A-16234,16293C:这是以往文献中未见 型的形成只经过两步编码区突变(8563 和 命名的亚单倍群,由于它集中分布在云贵高 11536 转换),而没有出现可识别的高变 1 区 19
  8. 8. REPORT COM. on C. A. 3:e3, 2009 图 8. 线粒体 A*和 A5 系单倍群发生频率地理分布图 Fig.8 Distributions of the mitochondrial haplogroups A* and A5 subgroups. 原的藏彝系民族中,因此可以确定是有着共 母系遗传中,而后再随着彝族迁徙再进入周 同起源的亚单倍群。其中云南西双版纳彝族 边族群的母系成分中的。 和贵州赫章县彝族最高发, 比例分别为 12.5% A8:A8 的定义引自俄罗斯学者 Derenko 和 10%。在云南藏族、白族、普米族、纳西 等 2007 年论文[20]。文中以 2 个北亚全序列 族 以 及 西 藏藏族 中 的发生 频 率为 共享的 64、146、16242 位点突变来定义 A8。 2.2%-4.7%(图 8)。另外,在云南汉族、泰国 但是笔者在查找文献后发现, A2 定义中也 在 曼谷人、北疆蒙古族、以及印度东北部南亚 有同样的 64 和 146 两个高变 2 区并行突变, 语部族中各发现 1 例。 A-16234,16293C 的 从 只有高变 1 区 16242 突变频率最低。在 分布特点不难看出:它应该是首先进入彝族 Volodko 等 2008 年论文所给出系统树也显示 20
  9. 9. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 只有 16242 突变是识别此分支的可靠标记 化出去,日本、韩国的样本构成另一较长分 [21]。A8 最高发的族群是北西伯利亚的凯特 支, 日本 TC48 是由韩国 K245 的单倍型再经 人(Ket),发生频率为 10.0%。其次是堪察加 146 突变所形成[6,19,22]。这个结果实际上追 半岛伊捷尔缅人(Itelmen)6.5%、托发拉尔人 溯了日本和韩国的 A7 自中国西南部地区的 (Tofalar)5.2%和日本阿伊努人 2.0%(图 8)。在 起源。 图瓦人、布里亚特人和韩国人中的发生频率 由于对 A*的原始型和未定义类型的频 较低,分别为 1.1%、0.3%、0.3%。从高变 1 率分布研究没有得到最初起源和分化明确结 区数据分析,只有韩国人和阿伊努人的 A8 果,接下来笔者尝试运用扩散效应分析来提 是原始型, 表明 A8 早期分化的地点应该在韩 取 A*早期分化的信息。 国和日本南部一带。 2.6. 线粒体 A*单倍群扩散效应分析 2.5. A 的原始型和未定义类型的地理分布 A 原始型:据本次统计,A 原始型分布 频率最高的族群是广东潮阳人 5.3%,其次是 广西东北部的富川瑶族 3.2%和罗城仫佬族 2.6%,以及湖北汉族 2.4%和内蒙古阿荣旗朝 鲜族 2.1%(图 8)。 原始型在东亚的分布呈分 A 散的点状,在江苏汉族、呼和浩特蒙古族、 广西拉珈人、泰国曼谷人、本土日本人、韩 国人中都有发现。 A 未定义类型:A 的未定义类型比 A*原 始型的分布更广。最高发的族群是西藏藏族 8.6%,及广东南澳岛居民 7.1%。其次是上海 汉族 5.4%, 西双版纳白族 5.2%, 湖北武汉人 图 10. 线粒体 A 单倍群扩散效应分析图 蓝色显示 4.8%,以及内蒙古东部的蒙古族 4.2%。A* 发生频率分布,红色显示群体内部变异频率分布。 的未定义类型在日本人和韩国人中的频率不 Fig.10 Diffusion of the mitochondrial proto-A haplogroup. 高,大约在 0.2%-1.0%之间(图 8)。 Blue clines stand for the total frequency, and red clines stand for the mutation rate within the population. 值得注意的是,根据Metspalu等2007年论 文, 我们还在A未定义类型中找到了一个很小 图 10 是在 A 单倍群原始型发生频率上 的分支A7[2]。包括韩国、日本、武汉汉族样 叠加 A 单倍群群体内部变异频率得到的叠加 本各1例,见图9。 分析图。可以看到在中国境内单倍群分布频 率和内部变异频率重叠高发的区域有两个: 一是广西东北部地区,据统计这里内部变异 频率最高的族群是罗城仫佬族 7.4%,临近的 广东怀集标人更高达 8.8%;二是湖北东部地 区,武汉人的内部变异频率是 4.8%。 在境外, 图 9. 线粒体 A7 单倍群个体的分化树状图 日本南部和泰国南部地区也有重叠的次高发 Fig.9 Tree of the mitochondrial haplogroup A7 individuals. 区,日本宫崎县人的内部变异频率是 5.6%, 泰国曼谷人的变异频率是 3.0%,显然都不如 他们都带有控制区特征谱序 16051— 广西东北部和广东西部一带的变异频率高。 16129—16189—235。此外,论文附件提及云 据此我们基本上可将 A 单倍群的最初分化地 南汉族 YN271 只有 16051 转换而未见 16129、 点锁定在广西东北部一带。 16189 位点变异,可能是更早期的分支。从 从图中还可以发现一些有趣的现象。比 重构的网络来看:武汉样本 WH6956 较早分 如粤东沿海地区 A 原始型的频率很高,但是 21
  10. 10. REPORT COM. on C. A. 3:e3, 2009 变异频率却不高,笔者起初无法理解,后来 析绘制的 A*和 A5 迁徙路线图。从重建的迁 在查阅了一些地理、气候资料时才偶然发现 徙路线来看,两者主体迁移路线基本相似, 这与冰期时“台湾浅滩”的存在有关(参见讨 很可能是从广西东北部地区开始,一部分进 论章节的内容)。此外,我们还能在云南西双 入粤东、闽南一带,另一部分迁移到华中地 版纳看到一个变异频率高发点,统计显示这 区而后分散开,再进入华北、日本和韩国。 里白族的内部变异频率高达 7.7%, A 原始 而 看起来似乎是伴随迁徙的单倍群。唯一的不 型的发生频率并不高, 说明其母系线粒体 A* 同点在于:A*的下游分支 A-16234,16293C 成分在历史上可能经历过瓶颈效应或是族群 还分布到藏彝系民族、北疆蒙古族和印度南 人口减少的事件,笔者推测这可以与云南复 亚语部族中。从年代测定结果来看,有可能 杂多变的地理与气候环境等原因有关。 是 较 晚 时 期 与 A4 的 西 迁 的 一 些 分 支 ( 如 A4-16274、A4-16124)一起分化出去的。 2.7. 推测的 A*和 A5 的迁徙路线 2.8. A4 的高变 1 区中接网络 图 11. 推测的线粒体 A*单倍群分支迁徙路线示意图 Fig.11 Conjectural migration routes of mitochondrial haplogroup A*. 图 13. 线粒体 A4 单倍群高变 1 区中接网络 Fig.13 A Median-joining network of mitochondrial haplogroup A4 based on HVS-1 motif A4 单倍群高变 1 区的网络结构呈现为巨 大、单核的“太阳”形,这个核心向四周辐 射出众多大小不一的节点(图 13)。值得注意 的是,大部分节点与分化核心的突变距离不 超过两步,而且次级节点的分支较少,表明 A4 的主体分化应该发生在比较晚近的时期。 结合一些文献中基于 mtDNA 全序列所 给出的系统树,我们可以识别出北亚和北极 地区常见的亚单倍群 A4a、A4b、A2。另外, 在网络中还有其他几个未定名的亚单倍群。 图 12. 推测的线粒体 A5 单倍群分支迁徙路线示意 2.9. A4 的主要分支 图 虚线表示中间过程不太确定的路线,下同。 Fig.12 Conjectural migration routes of mitochondrial A4-16274:A4-16274 是 A4 在中国境内 haplogroup A5. Broken lines stand for the uncertain 最大的支系, 主要集中在云南藏彝系民族中, routes in this and the following maps. 其 中 频 率 最 高 的 是 怒 族 30.0% , 傈 僳 族 图 11 和图 12 就是笔者综合多种数据分 16.2%,其次是普米族 8.3%和撒尼人(彝族支 22
  11. 11. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 系)6.5%。在湘西过山瑶中的频率是 4.2%, 多出一步 16189 突变。主要发现于俄罗斯远 在云南、青海藏族中的比例为 3.6%-4.0%。 东地区的埃文基人(5.6%)以及乌拉尔地区的 A4-16274 在华中、华东汉族中低频出现,发 欧亚混血民族曼西人(3.4%),也低频存在于 生频率从 1.3%至 2.4%不等(图 14)。此外,在 布里亚特人中(0.3%)。笔者从孔庆鹏等 2003 青海土族、云南傣族、江西汉族、广西平话 年论文中也找到了与埃文基人、曼西人属于 人、北疆汉族和回族,以及南西伯利亚的图 同一单倍型的 2 个鄂伦春人 A4b 样本 Oro13 瓦人和汗尼干人中也有发现。 和 Oro19[25], 无论从地理还是族源的接近性 A4-16124:A4-16124 在西部藏彝系民族 来看他们无疑是 A4b(图 14)。照此计算,鄂 中也比较常见,与 A4-16274 的分布特点非 伦 春 人 A4b 发 生 频 率 应 为 4.5% 。 根 据 常相似,只是发生频率相对较低。最高发的 Derenko 等 2007 年论文中的系统树,相距遥 是云南傈僳族,比例为 13.2%,其次是贵州 远的埃文基人和曼西人 A4b 样本有着很近的 赫章县彝族 5.0%, 湖北汉族 4.0%, 云南撒尼 亲缘的关系,而布里亚特样本 Br442 反而最 人 3.2%,云南藏族 2.9%和西藏藏族 2.9%(图 早分化出去[20]。 这可能反映了史前乌拉尔语 14)。另外在湘西苗族、云南傣族、云南汉族、 部落穿越西伯利亚向西长途迁徙的历程。 江苏汉族中各发现 1 例。值得注意的是,大 A2: 的高变 1 区特征是 16111 位点转 A2 部分 A4-16124 样本都属于原始型, 只有湘西 换。在亚洲主要分布在北极白令海地区,是 苗族 MHN33 和西藏藏族 Tibet4651 属于特征 N 系单倍群中迁徙最远的、唯一进入美洲的 谱 序 为 16093-16124-16290-16293T- 下游支系。根据以往的研究,A2 及其亚洲分 16319-16362 的单倍型[23,24]。 暗示 A4-16124 支 A2a、A2b 主要存在于楚克奇人、爱斯基 是在华中地区形成的,而且向西南地区的迁 摩人及已消失的尤卡吉尔人的母系遗传中。 徙发生在较为晚近的时期。 统计表明 A2a 和 A2b 在楚克奇人中的发生频 从 总 体 分 布 特 点 看 , A4-16124 和 率分别为 33.7%和 13.9%, 在爱斯基摩各部落 A4-16274 很象是伴随迁徙的 A4 下游分支。 中 的 频 率 分 别 为 16.7%-72.0% 和 两者的不同之处在于:A4-16274 的样本比 18.0%-70.8%不等。 在堪察加半岛北部的科里 A4-16124 样本更多,而且一直向北扩展到南 雅克人中也发现 1 例 A2b 样本 Krk39[20]。 西伯利亚的一些族群中。 A4-16129,16284:分布在几个相距遥远 A4a:A4a 是 A4 祖型经 16249 位点转换 的族群中,分别是印度东北部操南亚语的 产生的亚单倍群。主要分布在北亚族群中。 Bhoi 人 4.9%[26],呼和浩特蒙古族 1.9%,泰 最高发的是青海蒙古族, 15 个样本中发现 在 国清迈人 1.2%。所有的南亚 Bhoi 样本都属 2 例,发生频率达 13.3%(图 14)。在南西伯利 于附加 16260 转换突变的同一单倍型,而泰 亚的布里亚特人和阿尔泰人、新疆乌兹别克 国清迈样本全都共享 16136 转换变异,这似 人、俄罗斯人、日本人(ON125)中也有发现 乎暗示 A4-16129,16284 在向泰国和印度东北 [6]。此外,笔者还在云南纳西族和江苏汉族 部经历了显著的瓶颈效应。 中各找到 1 例带有 16249 突变的 A4 样本 A4-16192:主要分布在内蒙正蓝旗蒙古 NAXI12、 JIANGSU28, 由于 16249 属于突变 族(6.3%),及俄罗斯阿尔泰共和国 Tubalar 人 率很低的位点,可以确认这 2 个样本应该也 中(11.1%)。笔者以其中一个样本 Tub3 的全 是 A4a[9,18]。此外,Derenko 等 2007 年论文 序列 EU482374 与系统树中同样具有 16192 中的北亚人 mtDNA 全序列系统树透露了更 突变的 A2b 单倍群进行比对,结果发现两者 多的信息:布里亚特人和阿尔泰基什人 属于不同的 A4 分支[21]。 (Altaians-Kizhi)的 4 个 A4a 样本属于共享编码 区 4928 位点突变的同一支系,被命名为 2.10. A4 原始型和未定义类型 A4a1;俄罗斯人和日本人的 A4a 个体则属于 A4 原始型: A4 原始型分布范围很广, 早期分支[20]。 并且呈现相当离散的状态,表明早期分化历 A4b:A4b 是个很小的群体,比 A4 祖型 史已很久远。 从图 14 中可以看到分布最密集 23
  12. 12. REPORT COM. on C. A. 3:e3, 2009 图 14. 线粒体 A4 单倍群发生频率地理分布图 Fig.14 Distributions of the mitochondrial haplogroups A4. 的地区是在中国东南沿海和日本南部一带, 4.0%。A4 原始型也见于韩国人中(2.3%),但 这可能就是 A4 第一波扩张所及范围。其他分 在日本中部人中没有找到。值得注意的是, 布较多的地区在图中呈现为灰色,这些可能 A4 原始型出现在百越起源的上海马桥原住 是伴随 A4 其他分支迁徙的原始型所留下的 民中(5.9%),在 51 个阿伊努样本中也发现 1 遗传印迹。据本次研究的结果,A4 原始型最 例 A4 原始型。 这暗示 A4 早期扩张主要走沿 高发的是广东潮州人,发生频率为 8.3%。其 海路线而且年代十分久远。 次是西双版纳彝族 6.3%、福建莆田人 6.1%、 A4 未定义类型: A4 未定义类型主要集 贵州赫章县彝族 5.0%、和日本南部宫崎县人 中在内陆地区特别是华中地区。最高频率出 24
  13. 13. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 现在湖北恩施侗族中,高达 30%;以下依次 迁徙的过程和 A*、 并没有没有什么不同。 A5 是 甘 肃 汉 族 15.6% 、 贵 州 沿 河 县 土 家 族 A4 原始型在中国北方和北亚地区的扩张范 10.3%、贵州赫章县彝族 10.0%、索约特人 围和 A4 未定义类型基本重合, 因而很可能反 (Sojot,图瓦人的一支)10.0%, 青海藏族 8.9%。 映了晚近的迁徙事件。值得注意的是,有关 A4 从分布图看, 未定义类型应该是先在华中 文献的年代测定显示 A2 大约在 2.48 万年前 地区(准确地说是在湘鄂渝交界区域)扩散, 再 就从 A4 中分化出去[28]。可能由于族群整体 向西部藏彝走廊和西北地区扩张。 A4 原始 与 A2 迁徙的缘故, 在东亚大陆上基本没有留下 型在沿海地区集中分布的特点完全不同,表 痕迹。因此很难确定它的迁移路线。 明很可能是较晚期的一次大规模扩散留下的 痕迹。 A4 值得注意的是, 未定义类型还包括不 少细小分支, 其中一些有助于确定 A4 的分化 路线。 A4-16104:其中包括 1 个韩国人 K358 和 2 个新巴尔虎旗蒙古族 Mg214、Mg216 样 本,显示了韩国人和东部蒙古族之间的联系 [19,25]。 A4-16157:仅找到 2 例,由韩国 Kor83 和甘肃 GANSU03 组成。 结合 A4-16104 来分 析,韩国的 A4 主要来自中国北方[9,19]。 A4-16179,16311:日本中部人 KA021 和 江苏人 JIANGSU15 都属于此单倍型。 上文中 还 提 到 过 日 本 人 ON125 和 江 苏 人 图 15. 推测的线粒体 A4 单倍群分支早期迁徙路线 JIANGSU28 都属于 A4a[6,9]。显示日本中部 示意图 Fig.15 Conjectural early migration routes of 地区的 A4 个体很可能都源自华东地区。 mitochondrial haplogroup A4. A4-16256: 包括西藏藏族 Tibet4664 和湘 西苗族 MHN66。显示西藏的 A4 来自自华中 地区[23,24]。 A4-16216,16294 : 此 分 支 包 括 江 苏 人 JIANGSU43、贵州东北部土家族 T15、新疆 塔吉克族 Tjk19 和 Tjk18,及布里亚特人 br393[9,20,27]。不难看出这是一次自华中地 区开始的大规模人口扩张的印迹。这些样本 的 来 源 地 距 离 极 其 遥 远 , 暗 示 A4-16216, 16294 早在这次扩散事件之前就已产生。 2.11. A4 的迁徙路线 图 15 和图 16 是笔者依据分析结果绘制 图 16. 推测的线粒体 A4 单倍群分支晚期迁徙路线 示意图 的 A4 迁徙图。图 15 示意了 A4 早期迁徙分 Fig.16 Conjectural late migration routes of mitochondrial 化的情况。 祖型与 A*祖型只差一步高变 1 A4 haplogroup A4. 区 16362 位点突变, 而且 A4 原始型主要分布 图 16 显示了 A4 晚期自华中地区开始的 在东南沿海,这说明 A4 可能在 A*首次扩散 大规模扩张。从重建的路线图看主要是向北 时已经产生出来, 其起源地点很可能和 A*一 方迁徙。这次人口扩张可以说是遍地开花, 样是在广西东北部地区。总体来看,A4 早期 产生了多个分化中心,并波及到北亚、东北 25
  14. 14. REPORT COM. on C. A. 3:e3, 2009 亚以及泰国和印度东北部地区。 N9a-r16261[3,4,29]。 综上所述,A4 的早期扩散和 A*、A5 扩 3.2. N9a 主要分支的地理分布 散的路线大体相似, 都集中在东南沿海一带, N9a-16129(不含 N9a1): N9a-16129 是 所以早期伴随迁徙的可能性很大,而 A4*的 主要在大陆上扩散的 N9a 下游分支。最高发 大规模扩散无疑是更为晚近的事件。 的族群是台湾南部的排湾人和新疆喀什的哈 萨克人,发生频率都是 4.8%。其次是广西西 3.线粒体 N9 系单倍群 北部的布努瑶 4.0%,新疆喀什的塔吉克人 N9 系单倍群主要包括 3 个下游分支, 3.3%,和云南宁蒗普米族 2.8%。N9a-16129 N9a、Y 和 N9b。在最新的系统发生树中,这 也存在于华中、华东、内蒙古等地区的部分 3 个下游分支仅共享 5417 转换突变,表明下 族群中,发生频率从 1.5-2.4%不等(图 19)。 游单倍群在 N9 形成初期就分化出去。 在分布 N9a-16129 低频出现于韩国人和日本人中, 特点上,N9 系的两大单倍群 N9a 和 Y 不仅 频率分别为 0.7%和 0.3%, 但在东南亚地区没 在大陆上广泛分布而且在东南亚地区也很常 有发现。 见,这与主要分布在大陆上的 A 系单倍群明 N9a1: N9a1 是 N9a-16129 的下游分支, 显不同。 系中最小的分支 N9b 最早是在日 N9 主要分布在华中和内蒙古东部地区。最高发 本人中发现的,不过笔者的研究表明 N9b 早 的族群是湖南西北部永顺土家族 6.7%和广东 期分化地点和最高发区域不是在日本,而是 连 南 八 排 瑶 5.7% , 其 次 是 浙 江 杭 州 汉 族 在远东滨海地区。 4.9%、内蒙赤峰汉族 4.4%、湖南江华过山瑶 4.2%、新巴尔虎旗蒙古族 4.2%、湖南长沙汉 3.1. N9a 单倍群中接网络分析 族 4.1%(图 19)。 N9a1 在广西、 广东沿海和华 东部分族群中,以及新疆伊犁乌兹别克人和 南西伯利亚图瓦人中也有发现,发生频率为 1.0%-3.4%。N9a1 也低频出现在日本人和韩 国人中,韩国人的发生频率为 0.9%,日本南 部鸟取县人为 1.1%,日本中部人为 0.3%。 N9a-16172 及其主要分支: 从孔庆鹏等 2006 年论文中可以看到 N9a-16172 分成 3 个 分支, N9a2、N9a4 和 N9a5[8]。N9a4 和 N9a5 有明确的高变 1 区突变特征,因此能很清楚 地把它们划分出来。 但是 N9a2 原始型没有出 图 17. 线粒体 N9a 单倍群高变 1 区中接网络 现可识别的高变 1 区特征,笔者将其归为 Fig.17 A Median-joining network of mitochondrial N9a-16172。 haplogroup N9a based on HVS-1 motif N9a-16172(不含 N9a4、N9a5): N9a- 图 17 显示 N9a 有着比 A 系单倍群更多 16172 在东亚的分布呈现极其离散的状态, 的主要分支和次级分支,显示了非常不同的 主要在广西和云南交界地区,海南、安徽、 群体分化历程。其中 N9a-16129 主要在大陆 陕西和新疆伊犁(乌兹别克人)。N9a-16172 的 上分布, 可与 A4 类比,不过从图上看它几乎 未定义类型主要分布在中国境内,也以很低 没有形成完整的星状结构。值得注意的是 的频率出现日本和韩国。广西西北部的田林 N9a-16129 的下游分支 N9a1 可能发生过规模 壮族和瑶族中的分布频率大体在 3.1%-4.0% 不大的人口扩张。N9a-16172 主要分布在中 之间,海南临高人和疍家人中频率分别为 国东南部沿海、日本、韩国等地,可与 A5 3.2% 和 2.5% , 其 他 族 群 中 的 发 生 频 率 从 类比。另外 N9a 的下游分支也出现东南亚地 1.2%-2.4%不等(图 19)。在日本和韩国人中的 区,包括主要分布在马来西亚和印度尼西亚 发生频率分别为 0.5%和 0.7%。 的 N9a6 , 以 及 在 台 湾 原 住 民 中 发 现 的 N9a2 的分支 N9a2a、N9a2b 和 N9a2c 仅 26
  15. 15. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 出现在日本和韩国:这三种亚单倍群在日本 日本南部宫崎县人的发生频率是 1.0%,日本 都有发现, 在日本南部(鸟取、 宫崎)的总频率 中部人的频率是 0.3%, 韩国人为 0.4%, 此外 为 1.0%-1.1%;在韩国的分布主要是 N9a2b, 在 内 蒙 赤 峰 汉 族 中 也 发 现 1 例 也发现 1 例 N9a2c 样本 K527,总频率为 NEIMENG45[9]。 在全部的 N9a5 样本中只有 2.6%[19]。 1 例韩国样本 K250 有附加的 16046 转换突变 N9a4:分布区域相当分散,高变 1 区谱 [19],显示 N9a5 的在东北亚地区的小范围扩 序是 16145-16172-16245-16257A-16261。最 散是比较晚近的事件。 高发的族群是日本中南部静冈县人 N9a6(含 N9a6a): N9a6 是参照 Hill 等 16.7%[30],其他族群中的频率都不高。在广 2006 年论文中的命名[4]。 从高变 1 区特征看, 西东北部富川县的瑶族和平话人的发生频率 它是 N9a 祖型再经一步 16292 转换突变所产 分别为 4.2%、3.4%,在粤东澄海人和粤西湛 生的亚单倍群。主要分布在东南亚地区,在 江人中的频率为 3.6%、3.3%(图 19)。另外 中国广西、云南、福建也可以找到它的踪迹。 N9a4 也低频出现在江苏南京、山东青岛、青 N9a6 最高发的族群是印尼苏门答腊巴东人 海藏族、韩国和日本中、西部地区,发生频 12.5%和广西金秀县壮族 11.1%,其次是印尼 率在 0.4%-2.0%之间。 邦加岛人 8.8%、云南西双版纳 3.8%(图 19)。 根据高变 1 区特征,N9a4 又可细分为两 此外在越南南部(以美国加州越南移民数据 个分支:一支是原始型,仅存在于广东沿海 代替)、印尼苏拉威西、泰国清迈和曼谷各发 地区和日本;另一支带有 16092 位点突变的 现 1 例。 支系分布较广,在江苏、山东、广西、青海、 N9a6 的原始型在云南西双版纳的瑶族 韩国的 N9a4 样本都属于这种类型, 在日本仅 和基诺族中共发现 3 例,越南南部人、印尼 见 1 例 PD053。对比发现 PD053 仅与韩国样 苏拉威西人各发现 1 例,而印尼苏门答腊的 本 K025 共享同一单倍型[6,19]。 这暗示 N9a4 N9a6 个体全都属于带有 16189 位点转换的同 在历史上曾经发生两次扩张,而日本的 N9a4 一单倍型, 其他族群的 N9a6 样本都属于无法 样本主要来自第一次的扩散(图 18)。 细分的变异类型。 N9a6 还有一个高变 1 区特征谱序为 16257A-16261-16292-16294 的 次 级 分 支 N9a6a 。 主 要 分 布 于 马 来 半 岛 , 在 塞 芒 人 (Semang)、塞诺伊人(Senoi)和土著马来人中 的发生频率分别为 8.0%、5.8%和 5.2%,此 图 18. 以高变 1 区数据绘制的线粒体 N9a4 亚单倍群 外在福建南安,以及印尼的爪哇、苏拉威西、 分化树状图 分色示意为: 橙色—广东, 蓝色—广西, 加里曼丹各发现 1 例 N9a6a 样本。N9a6a 的 浅紫色—华东地区,浅蓝色—青海,绿色—日本, 黄色—韩国。 原始型绝大部分集中在马来半岛上。笔者注 Fig.18 Tree of the mitochondrial haplogroup N9a4 意到福建南安样本 STF13 还有额外的 16092、 individuals. Keys for the colors:orange for Guangdong, 16136 和 16192 位点变异,是所有 N9a6a 样 blue for Guangxi, purple for East China, cyan for Qinghai, green for Japan, and yellow for Korea. 本中变异位点最多的,而且从高变 1 区特征 看与其他样本没有关联[10]。所以,N9a6a 的 从图中还可以看到一个有趣的现象,即 分化存在两种可能性:一种是 N9a6a 最早产 距起源地最近的广西富川 N9a4 个体反而处 生于中国西南地区, 而后和 N9a6 一起向东南 在分化末端。最有可能的解释是:N9a4 早期 亚迁徙,而福建 STF13 属于早期境内分化的 类型在第一次扩散时就已分离出去,而起源 一支;另一种是 N9a6a 起源于东南亚地区, 地产生后来又出新的变异型,并发生了二次 而后扩散到福建一带。从 STF13 高变 1 区特 扩散。 征与东南亚 N9a6a 样本特征差异较大来分 N9a5:主要分布在日本和韩国,高变 1 析,笔者认为第一种可能性最大。 区谱序为 16172-16189-16209-16257A-16261, 27
  16. 16. REPORT COM. on C. A. 3:e3, 2009 图 19. 线粒体 N9a 单倍群发生频率地理分布图 Fig.19 Distributions of the mitochondrial haplogroups N9a. 28
  17. 17. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 除了上述已定义的分支外,还有 2 个样 在湘鄂渝交界以及湘粤交界地区有两处空 本 总 数 在 10 例 以 上 的 N9a 未 定 义 分 支 白,从位置看似乎是更晚期 A4 和 N9a1 的扩 N9a-r16261 和 N9a-16311,16390。 张的结果。 N9a-r16261: 主要发现于台湾原住民 中,并且只有一种单倍型。其特征是 16261 位点发生 T→C 回复突变,在高变 1 区只剩 一个可识别特征突变 16257A。 此分支在现居 台湾东部沿海地区的阿美族中最高发,发生 频率 7.1%。在东南部台东县的卑南族和中北 部的泰雅族,发生频率分别为 1.9%、1.8%。 值得一提的是,笔者发现梧州瑶 YWU02 和 湖南 Le874 样本也带有 16261 回复突变 [23,31]。这说明台湾的 N9a-r16261 分支并非 孤立存在,起源地点很可能就在湘粤桂交界 地区。 N9a-16311,16390:此分支主要分布在广 西与贵州交界地区,最高发的群体是广西环 图 20. 线粒体 N9a 单倍群原始型扩散层次分析图 蓝色代表 N9a 原始型,红色代表 N9a 未定义类型。 江县毛南族 12.5%,其次是广西融水县五色 Fig.20 Diffusion of the mitochondrial haplogroup N9a. 人 6.1%。此外,在贵州天柱县和广西三江县 Blue stands for the ancestral type, and red for the unclassified type. 侗族、广西富川县和罗城县平话人,及广西 贺州壮族群体中也有发现, 频率在 1.3%-3.6% 笔者发现在空间分布上 N9a 的原始型和 之间。 未定义类型存在某种联系,当把两者的分布 图叠加起来后(图 20),可以看到 N9a 的早期 3.3. N9a 的原始型和未定义类型的地理分布 扩张痕迹被华中地区所发生的晚期扩张挤向 N9a 原始型: N9a 的原始型的分布区域 周边。这解释了 N9a 早期类型离散分布以及 极其分散。最高发的地点是在越南北部,在 很少出现在华中地区的原因。N9a 未定义类 10 个样本中就有 1 例,发生频率 10.0%;在 型主要由细小分支构成,显示 N9a 的起源历 临近越南的云南和广西也有分布,包括西双 史相当古老。以下简要介绍这些小分支的情 版纳基诺族 5.6%和傣族 1.8%, 广西南部防城 况。 港高栏人 3.3%及西北部隆林俫人 3.3%; 在中 N9a*(16311):虽然 16311 位点是个高突 国东南和东部沿海地区呈带状分布,包括广 变位点,无法确定是否有并行突变的情况, 东南澳人、福建南安人、上海人、山东青岛 不过它的分布比较集中,所以笔者还是把它 人、 辽宁凤城人, 发生频率 1.8%-4.2%(图 19)。 视为单独的分支来分析。最高发的人群是靠 在青海西宁和四川维城汉族、湘西苗族中也 近中越边境的广西崇左壮族和那坡夜郎人, 有发现,频率分别为 2.3%、1.4%和 1.0%。 发生频率分别为 16.7%和 6.7%。其次是福建 另外 N9a 原始型在泰国清迈人和韩国人低频 莆田人 2.8%, 云南文山苗族 2.6%, 越南中部 出现,频率为 0.4%和 0.1%。 顺化京族 2.3%(图 19)。此外在广西金秀拉珈 N9a 未定义类型: 在去除 N9a-16129、 人、福建长汀客家人、湘西土家族、湖南长 N9a-16172、 N9a6、N9a-r16261 和 N9a-16311, 沙人、山东泰安人以及中都有发现,频率为 16390 等主要分支之后,笔者将余下的 N9a 1.1-1.9%;也低频出现于泰国北部清迈人中, 样本归为未定义类型。 从图 19 可以看到未定 为 0.4%。总体看来,N9a*(16311)与 N9a 原 义类型的分布主要集中在越南和广西交界地 始型在分布特点上比较接近,显示了 N9a 早 区、越南南部和华中地区,在华北地区和南 期分化扩散的信息。即从广西和越南交界地 西伯利亚也有少量分布。此外,还可以看到 区开始,沿南北两条主要的路线迁徙:一条 29
  18. 18. REPORT COM. on C. A. 3:e3, 2009 是走东北路线进入东亚腹地和东南沿海地 显示出明确的扩散中心。为此笔者再次尝试 区;另一条路线是沿越南走廊向南迁移。 扩散效应分析(图 21 和图 22)。 N9a*(16189):在湖南西南部过山瑶、广 东怀集普标人、 广西田林汉族中各发现 1 例, 发生频率 2.9%-4.2%。在泰国北部清迈人中 低频存在,频率 0.4%。从分布地域看可能也 和 N9a*(16311)一样属于早期起源分支。 此外 在南西伯利亚阿尔泰人中也有发现,频率为 1.8%, 但不清楚与南方的 N9a*(16189)是否同 源。 N9a-16184:这是个很小的分支。在广西 富川、贺州、武宣的平话人中各发现 1 例; 在富川的瑶族群体发现 3 例;在福建长汀客 图 21. 线粒体 N9a-16129 单倍群扩散效应分析图。 家人中发现 1 例。这个结果显示了瑶族、平 蓝色显示发生频率的分布,红色显示群体内部变异 频率的分布。 话人和客家人在母系遗传方面的密切联系。 Fig.21 Diffusion of the mitochondrial haplogroup 值得注意的是 N9a-16184 的原始型出现在广 N9a-16129. Blue stands for the haplogroup frequency, and red for the mutation rate within the population. 西东北部富川、贺州地区的个体中,表明这 一带就是 N9a-16184 的起源和分化地点。 N9a-16248,16311:这个分支存在于南西 伯 利 亚 托 发 拉 尔 人 (6.9%) 和 阿 尔 泰 人 中 (2.7%),从上述样本看只有一种单倍型。 N9a-16291:这是个仅见于日韩的小分 支。在韩国人中发现 3 例,发生频率 0.4%; 在日本人中发现 1 例,频率 0.2%。 N9a-16176:属于 2 个北部湾地区的个 体,越南北部人 Viet206 和海南杞黎 HL42, 其中越南样本属于 N9a-16176 原始型。可能 反映了海南原住民中的 N9a-16176 成分自越 图 22. 线粒体 N9a1 单倍群扩散效应分析图 颜色 南北部起源的历史[11]。 示意与图 21 同。 N9a-16111:由呼和浩特蒙古族 HHT34 Fig.22 Diffusion of the mitochondrial haplogroup N9a1. Keys for the colors are the same as in Fig.21. 和日本中部人 PD0118 组成,表明两者的共 祖关系。不过两例样本都不是原始型,所以 N9a-16129: N9a-16129 原始型发生频 从 无法确定迁徙路线[6,32]。 率和群体内部变异频率分布叠加图上可以看 N9a-16051 : 仅 有 两 个 样 本 , 辽 宁 人 到,N9a-16129 的扩散中心应该在湖北东部, LIAONING13 和河北人 Le1014[9,31]。 此外在云南东北部似乎还发生过一次小规模 N9a-16166C,16173,r16261,16324 : 包 括 的迁徙。 贵州仡佬族 G06 和湖北武汉人 WH6972,两 N9a1:虽然从分布图上看 N9a1 最高发地点 个样本都不是原始型,似乎是在华中和西南 在湖南南部,但是扩散效应分析却显示 N9a1 地区发展的小分支[22,27]。另外,此分支存 的扩散中心更有可能在湖北东部。N9a1 叠加 在 16261 位点回复突变,所以不能排除是 图还显示出三个次级扩散中心,分别是云南 N9a-r16261 次级分支的可能性。 西双版纳、内蒙东部至辽宁南部及青海东北 部地区。 3.4. N9a-16129 和 N9a1 扩散效应分析 N9a-16129 和 N9a1 的频率分布图未能 3.5. N9a 的迁徙路线 30
  19. 19. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 重建的路线图显示,N9a*自越南北部起 24。此外,N9a6 主要分布于东南亚地区, 源后,除少数支系向东南亚迁徙外,其主体 N9a-r16261 集中在台湾,两者的样本在中国 向北进入中国境内,见图 23。一部分向东迁 南方也有发现,因而迁徙过程比较清楚。 至粤东、闽南沿海一带,另一部分进入华中 地区,在湖北东部地区再次发生扩散。扩散 3.6. Y 单倍群中接网络分析 区域主要包括华北、华东地区,也波及到日 本和韩国。 图 25. 线粒体 Y 单倍群高变 1 区中接网络 Fig.25 A Median-joining network of mitochondrial haplogroup Y based on HVS-1 motif 图 25 展现了线粒体 Y 单倍群的中接网 络。由于 Y 下游分支的高变 1 区特征位点较 少, 因此保留了突变率较高的 16189 和 16311 位点以便区别 Y1a1 和 Y2。另外为了区分其 图 23. 推测的线粒体 N9a 单倍群部分分支迁徙路线 示意图 Fig.23 Conjectural migration routes of several 他一些分支,笔者还在中接网络中加入了 branches of mitochondrial haplogroup N9a. 16384 和 16399 等位点的数据。 值得一提的是, 笔者在 Y 的序列数据中 找到了不少发生回复突变的特征位点,包括 16126、16223、16231、16319 等。由于 Y 的 样本数比 A 和 N9a 的样本数少得多,这些回 复突变的存在给中接网络的构建增加了很大 的难度。以上中接网络是笔者根据系统树多 次调整所得到的最为准确的图形。 可以看到 Y 中接网络的“空心化”特征 十分明显。经过一系列分析笔者最终确定在 样本中很可能不存在真正的 Y*根部类型。 起 图 24. 推测的线粒体 N9a-16129 和 N9a-16172 单倍 群分支迁徙路线示意图 初,笔者在有关序列中发现有 2 个湖南长沙 Fig.24 Conjectural migration routes of mitochondrial 样本 C208、C209 共享相同的高变 1 区突变 haplogroup N9a-16129 and N9a-16172. 特征 16126-16223-16231,很象是 Y 的原始 型。但是在后来的数据比对中,发现湖南个 N9a 的主要分支 N9a-16129、N9a-16172、 体 C208 和天津个体 Le310 具有相同的高变 1 N9a6、N9a-r16261 等应该都是在北部湾一带 区特征 16126-16223-16231-16384[30,31]。鉴 分化出来的。 他们沿着大体相似的路线迁徙, 于 Le310 在原文中被细分为 Y1b,而又缺少 同样在湖北东部一带发生分化,向东迁入日 Y1 的 16266 突变特征, 可以确定 Le310 是带 本和韩国,向西直达新疆伊犁和喀什,见图 有 16266 回复的 Y1 下游分支 Y1-r16266。这 31
  20. 20. REPORT COM. on C. A. 3:e3, 2009 图 26. 根据东亚和北亚人全序列绘制的 Y 单倍群系统发生树。未列出非特征的插入和删除变异。 Fig.26 Phylogenesis of the haplogroup Y according to the whole mitochondrial genome of East Asians and North Asians. Non-specific insertions and deletions were not displayed. 样看来, 具有相同特征的湖南 C208 还有其他 化细节和迁移路线提供了重要线索[8]。 2 个 湖 南 样 本 (C208 、 C209) 应 该 也 是 Y1: 在系统树中可以看到,Y1 形成了 Y1-r16266[30]。在下文的分析中,笔者大体 3 个主要分支 Y1a、Y1b 和 Y1-16399。Y1a 确定了 Y 的起源年代十分古老, 而且起源地 的下游分支就是中接网络中标出的 Y1a1,沿 应该在北部湾一带而不是湖南。 用了 Derenko 等 2007 年论文中的定义[20]。 Y 的中接网络结构很简单,表明 Y 在扩张规 Y1b 的特征位点包括 10097、15221、15460, 模上比 A 和 N9a 小得多。 不过 Y 在亚洲的扩 参考了 Tanaka 等 2004 年论文和孔庆鹏等 张范围却是最大的,向北到达北极地区,向 2006 年论文中的定义。Y1b 没有高变 1 区特 南则深入东南亚岛屿。从上述特点分析,Y 征突变,已知的全序列样本包括新疆汉族 应该比 A、N9a 有着更为久远的分化历史。Y XJ8426 和日本人 KA097, 新疆汉族样本处于 只产生了两个主要的分支 Y1 和 Y2, 由于 Y1 Y1b 根部位置,而日本 KA097 多出 3 个额外 在大陆上扩张而 Y2 主要在东南亚地区发展, 突变,显示日本的 Y1b 可能源自中国大陆 所以在数量和突变距离上 Y1 分支都大大超 [6,8]。此外,笔者在 Ji 等 2007 年论文中又发 过 Y2 分支。从高变 1 区特征还可以分辨出 现 3 个中国大陆个体属于 Y1b,包括四川人 Y1 的两个次级分支 Y1a1 和 Y1-16399。 Y1a1 Le1261、广东人 Le1361 和天津人 Le310[31]。 主要分布在远东地区,其末端分支 Y1-16399 分支在中接网络中也可以看到,不 Y1a1-16292 主要分布在尼夫赫人和日本阿伊 过全序列样本只有 1 个汗尼干人 Kam6, 所以 努人中。 无法确定此分支编码区的特征位点[20]。 Y2:重庆綦江人 QJ183 处于根部位置, 3.7. Y 单倍群全序列分析 而青海汉族 QH9510、 汗尼干人 Kam2 和日本 因 Y 单倍群的高变 1 区特征较少,笔者 人 HN249 都是独立分化的个体。 只有日本人 尝试以的全序列数据构建系统发生树,见图 ND088 和布里亚特人 Br621 是共享 338 转换 26。完成后的 Y 系统树展现了更多的分支细 的同一分支[6,8,20]。笔者还找到了带有 338 节,笔者幸运地从全序列中找到了 Y1 和 Y2 位点突变的 2 个韩国样本 K335、K525,表明 的根部类型样本,内蒙达斡尔族 DW35 和重 这个 Y2 支系应该是在东北亚地区形成的[19]。 庆綦江县人 QJ183,这为确定 Y 单倍群的分 因没有高变 1 区特征出现,笔者把它暂命名 32
  21. 21. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 为 Y2a。遗憾的是,笔者没有在已发表文献 仡佬族 G14 则共享 16176 突变[19,23,27,31]。 中找到东南亚地区的 Y2 全序列,所以无法确 定东南亚 Y2 的分类地位。 3.9. Y1 的原始型和未定义类型 Y1 原始型: 图 27 显示,Y1 原始型在 3.8. Y 分支的地理分布 东亚内陆的分布比较分散,但在中国南方呈 Y1 研究结果显示, 主要分布在东亚、 东 现连续分布的状态。最高发的是广西东北部 北亚和远东滨海地区。 则主要分布在东南Y2 三江侗族和湖南长沙人,频率分别为 2.8%和 亚族群和台湾原住民中,只以很低的频率出 2.4%。在甘肃汉族、新疆汉族、新疆乌兹别 现在东亚、北亚和东北亚部分群体中。由于 克族、内蒙东北部达斡尔族、南西伯利亚布 大量样本仅见高变 1 区数据,所以有一部分 里亚特人、广西罗城平话人、福建长汀客家 缺乏高变 1 区特征的 Y1b 样本无法完全细分 人中也有发现,发生频率在 1.1%-2.2%之间。 出来。 Y1 此外, 原始型在日本人和韩国人中低频存 Y1a(含 Y1a1):在上文的全序列分析中, 在,频率分别为 0.2%、0.4%。根据上述分布 笔者确定了 Ingman 等 2007 年论文数据中的 特点来分析, 笔者推断 Y1 最早的分化地点很 蒙古人 Mg221 属于 Y1a 的原始型[16]。除此 可能在广西境内。 之外,Y1a 主要分布在俄罗斯远东滨海地区 Y1 未定义类型:与 Y1 原始型的分布不 的族群中,在北西伯利亚泰梅尔半岛的恩加 同,Y1 未定义类型的高发区域比较连续。其 纳桑人(Nganasan)中也有分布。 笔者发现绝大 中有一条从湖南至闽粤沿海的高发带, Y1 在 多数 Y1a 样本都属于 Y1a1。 另有 4 个样本属 原始型的分布图上也可以看到,应该是早期 于带有 16304 突变的小分支 Y1a-16304,其 迁徙留下的痕迹。在广东潮州人中最高发, 中远东地区乌德盖人和乌尔奇人各 2 例,频 发生频率为 7.7%,其次是俄远东的乌德盖人 率为 4.3%和 2.3%。 (Udegey)4.3%,广东汕头澄海人 3.7%,和西 Y1a1 在 尼夫 赫 人 (Nivkh) 与 乌 尔 奇 人 双版纳哈尼族 3.0%(图 27)。 未定义类型在 Y1 (Ulchi)最高发,发生频率分别为 39.3%、 俄远东的乌尔奇人中的频率为 2.3%;在华北 29.9%;其次是恩加纳桑人 21.2%,阿伊努人 的内蒙赤峰、辽宁凤城、山东泰安和青岛、 19.6%和科里雅克人(Koryak)13.6%。在伊捷 陕西西安的汉族群体中也有发现,频率 尔缅人中的频率为 4.3%。从图 27 看,Y1a 1.9%-2.6%; 在西南地区的云南会泽和四川维 分化和扩散地点是在俄罗斯境内阿穆尔河 城汉族群体中的频率为 1.7%、1.4%;在广西 (黑龙江)下游一带。另外,Y1a1 中还可以划 壮族中的频率为 1.2%。 分出一个末端分支 Y1a1-16292,多见于阿伊 笔者发现在未定义类型还存在不少可 努人和尼夫赫人, 频率分别为 16.1%、 13.7%, 识别的细小分支, 有助于判断 Y1 的分化过程 在乌尔奇人和科里雅克人中也有少量发现。 和迁徙路线。 不难看出阿伊努人的 Y1a1 成分中的应来自 Y1-16325:广西壮族 ZH32 和广东澄海 远东族群的混杂。 人 STB2 样本共享 16325 转换,而且 STB2 Y1-16399: Y1-16399 的地理分布呈现 比 ZH32 多一个 16051 突变,所以广东 STB2 离散的状态。最高发的族群是南西伯利亚的 很可能源自广西[10,33]。 索约特人 3.3%和贵州东北部道真县仡佬族 Y1-16218:陕西西安 SHANNXI29 和山 3.2%。Y1-16399 也低频出现在山东泰安人、 东泰安 SD10347 样本是共享 16218 位点突变 湘西苗族、布里亚特人、汗尼干人、日本南 的同一单倍型,表明属同一分支[9,34]。 部宫崎人和韩国人中,发生频率为 Y1-16172 : 有 2 个 四 川 个 体 (Le 1261 、 0.9%-1.3%(图 27)。另外在北京和广东也各见 SICHUAN43)共享 16172 转换突变。不过其 1 例(Le1200、Le1328)[31]。笔者还发现韩国 中的 Le1261 似乎并不带有 Y1 的 16266 突变 人 K401 和湘西苗族 MHN71 样本都带有相同 特征。由于在原文中 Le1261 被划分为 Y1b, 的 16220C 颠换突变,而广东 Le1200 和贵州 所以可以确定 Le1261 是发生 16266 回复突变 33
  22. 22. REPORT COM. on C. A. 3:e3, 2009 的 Y1 样本[9,31]。 很可能源自华北地区[22,35]。 Y1-r16266,16384 : 笔 者 发 现 湖 南 长 沙 Y2:无论从变异特征还是从地理分布方 C208 和天津 Le310 样本共享 16384 转换。 并 面分析,Y2 单倍群都有着不可思议的特性。 且两者都缺少 Y1 的 16266 突变特征。 考虑到 比较一下 Y1 和 Y2 的特征位点可以发现: 在 Le310 在原文中被分型为 Y1b,而且 16384 编码区特征上,排除掉 5417 回复突变后,所 位点突变率很低,可以断定他们都是带有 有 Y2 样本还共享 5 个位点突变构成的谱序 16266 回复突变的 Y1 下游分支[30,31]。 (482-6941-7859-14914-15244);而 Y1 样本主 Y1-16193:山东青岛 QD8151 和 1 个图瓦个 要分为 Y1a 和 Y1b 分支,两者只共享 3834 体共享 16193 转换突变。表明图瓦人的 Y1 位点突变。在高变 1 区特征上,在全部 Y2 图 27. 线粒体 Y 单倍群发生频率地理分布图 Fig.27 Distributions of the mitochondrial haplogroups Y. 34
  23. 23. 陈致勇:东亚人群线粒体 N 系单倍群的迁徙分化 研究报告 样本中原始型(16126-16223-16231-16311)的 表明它很可能被后来南下的N9a6群体排挤到 比重高达 78.3%; Y1 样本中原始型的比重 而 更边远的地区。 仅为 20.5%。 无独有偶,N9a6 和 Y2 也同时出现在台 Y2 在地理分布上, 集中分布在东南亚岛 湾海峡两岸:N9a6a 出现在闽南沿海地区, 屿和台湾原住族群中(图 27)。在印尼苏门答 而 Y2 分布在台湾岛北部,N9a-r16261 和 腊岛北部棉兰(Medan)人中出现频率最高, 达 N9a-16129 出现在台湾的中东部沿海和南部 16.7%,其次是菲律宾马尼拉人 11.5%。Y2 地区。这种分布关系提示我们,Y2 应该是最 在 印 尼 苏 门答腊 岛 中部北 干 巴 鲁 早通过东山陆桥进入台湾的 N 系单倍群,随 (Pekanbaru)、南部巴邻旁(Palembang)以及邦 后才是 N9a-r16261 和 N9a-16129。笔者查阅 加岛居民中也比较高发,发生频率约在 资料后发现,末次冰期时台湾通过东山陆桥 3.6%-5.9%之间。Y2 在台湾的赛夏族和泰雅 与大陆相通,而与菲律宾和日本没有陆桥相 族中的发生频率差异较大,分刀

×