2.1

人类作为灵长类中的一员,长期以来一直对灵长类动物的起源和演化过程热切关注。该方向研究不仅有助于我们回答人类的起源问题,也有助于更多地了解我们人类独特身体结构特征的演变历史。随着分子生物学的发展,近年来我们已经有能力通过基因来回答有关问题。浙江大学生命演化研究中心的张国捷教授团队,昆明动物研究所吴东东研究员团队,西北大学齐晓光教授团队,云南大学于黎研究员团队等联合国内外多个研究中心组成联盟开展灵长类基因组比较研究,通过多学科交叉技术手段和团队合作,研究人类在内的灵长类物种的起源和分化过程、灵长类社会行为和社会组织的起源以及大脑等各种生理特征的演化和遗传基础。该联盟还旨在研究灵长类基因演化变异图谱及其对人类致病基因变异模式的提示意义。这一计划的主要阶段性研究成果共计8篇论文于2023年6月2日以研究专刊的形式登上《科学》(Science)杂志。新的研究回答了一系列相关问题,为理解人类在内的灵长类演化过程带来了许多新的发现。

灵长类祖先出现在白垩纪界限附近

灵长类动物有超过500个物种,分属于16科共79个属中。其中,原猴类(原猴亚目,Strepsirrhini)是比较原始的一类灵长类,它们分布在非洲、南亚和东亚,狐猴、懒猴和丛猴等属于这个类;而简鼻类(简鼻亚目,Haplorrhini)是现代灵长类的主体,分布在欧亚非大陆的狭鼻类(含旧世界猴)和分布在美洲大陆的阔鼻类(即新世界猴)都属于这个类群。人类属于狭鼻类,与黑猩猩、红毛猩猩、大猩猩等大猿的亲缘关系较近。浙江大学生命演化研究中心张国捷教授团队、昆明动物所吴东东研究员团队联合多个课题组分析了14科38属共50种灵长类动物的基因组数据,包括27个新的高质量基因组数据,涵盖了灵长类动物的各主要类群。

通过分析基因组数据和化石时间数据,研究人员推断了灵长动物各主要类群的演化时间,并推断出所有灵长类的最近共同祖先出现在大约6829万到6495万年前。这个时间距离6550万年前那次造成非鸟恐龙灭绝的白垩纪末期大灭绝事件非常近,大致位于白垩纪的界限附近。这意味着灵长类动物的演化可能受到了物种大灭绝事件的影响。

灵长类物种分化的过程中往往伴随着染色体的融合和断裂。该项目通过引入更多染色体级别的原猴物种数据,修正了人类8号染色体起源的假说。旧的假说中认为,人的8号染色体完整继承自灵长类祖先的一条染色体,而这条染色体在新世界猴中发生了断裂事件,形成两条新的染色体。此次研究发现,原猴中8号染色体实际也是处于断裂而非合并状态。因此,研究人员推测,真实情况可能和原来的假说正好相反,即人类8号染色体与灵长类祖先的两条染色体同源,在旧世界猴的演化过程中这两条染色体融合成了一条染色体形成现在人类8号染色体。

大脑曾在灵长类多个演化节点处快速变大

灵长类动物在漫长的演化历程中逐渐适应各种各样的环境和食物,发展出独特的大脑、骨骼、体型和消化系统。脑,作为人类智力的源泉,其演化过程尤其受到关注。

在漫长的演化过程中,灵长类的脑部容量逐渐增加,占身体的比例也逐步增加,且皮层折叠程度不断复杂化。相对脑容量在灵长类演化过程的四个关键节点显著增大,分别发生在类人猿下目的祖先、狭鼻类祖先、大猿祖先和人类的祖先上。在猩猩等大猿物种出现之后,这种趋势变得尤其突出,并在人类中达到了顶峰。人类不仅拥有了灵长类动物中最大的脑容量,还拥有折叠程度最为复杂的大脑皮层。

本项目研究发现,一些大脑相关的基因在灵长类的演化历程中经历了正向选择,即功能被特异性地强化了。若这些基因发生紊乱,往往会导致大脑疾病的产生。比如小头畸形,即脑容量由于神经细胞无法正常增殖而变小,是人类严重的神经系统缺陷,小头症基因在人类演化过程中特异性地受到强烈的正向选择,被认为可能在灵长类脑容量扩张中发挥了作用。研究人员还发现了许多其他受到正向选择的基因在灵长类脑容量扩张的演化过程中发挥了重要作用,特别在伴随着皮层折叠和脑容量显著增加的关键演化节点上尤为突出。

2.2

灵长类物种脑容量演化历程以及此过程中基因组上的变化,大脑图像来自密歇根州立大学(张国捷课题组和吴东东课题组合作供图)

与此同时,研究人员还在非编码区域发现了一些DNA序列,它们在哺乳动物中高度保守且受到强烈选择,却在四个灵长类大脑演化的关键节点中发生了加速演化。这些区域属于大脑发育相关基因的调控区域,表明了灵长类动物在漫长的演化过程中会通过调节基因表达不断地优化大脑。这种非编码区DNA序列的加速演化可能与灵长类动物的大脑发育和演化密不可分。上述发现表明,灵长类动物逐步演化成大脑更为发达的形态是有很多基因和调控区域参与其中的,这一发现丰富了人们对灵长类大脑演化的认识。

此外,本研究项目还揭示了灵长类前肢形态的形成以及猿类尾部的消失等现象背后的分子机制。NEK1基因是长臂猿中受到正向选择的基因之一,其基因变异可能会影响前臂骨长,对于长臂猿独特的摆臂运动方式的适应性进化可能非常重要。而KIAA1217基因可能会影响脊柱的发育,其突变会导致小鼠尾椎数量的减少。本研究发现,猿类中这个基因的调控区域出现了快速演化的情况,进而推测这个区域的突变可能是让猿类失去尾巴的原因之一。

2.3

灵长类物种脑容量演化历程以及此过程中基因组上的变化,大脑图像来自密歇根州立大学(张国捷课题组和吴东东课题组合作供图)

不完全谱系分流改写灵长类演化分子钟

在遗传学上,有一个很特别的演化现象,叫不完全谱系分流(incompletelineagesorting,ILS)。比如我们都知道,相较于大猩猩,人与黑猩猩的亲缘关系更近,但事实上,在人的基因组里却有超过15%的基因组区域反而跟大猩猩更相似。这就是不完全谱系分流造成的。在不完全谱系分流下,祖先的一部分基因多态性会被随机分流到分化出的不同物种里,从而造成了亲缘关系较远的物种之间在某些基因上也会存在相似性。不完全谱系分流在多个物种类群中都被观察到过。不完全谱系分流多大程度影响灵长类的物种分化,以及对哪些基因区域有影响仍待解密。

浙江大学张国捷团队与丹麦奥胡斯大学米凯尔?·舒尔普(MikkelH.Schierup)团队共同合作,利用全基因组数据,对29个灵长类祖先节点的不完全谱系分流现象进行了分析。研究发现在灵长类所有演化节点上,灵长类基因组上有5%至64%的区域发生了不完全谱系分流,说明在灵长类的演化历程中,不完全谱系分流对灵长类的物种分化过程产生了较大的影响。而有些基因组区域在多个物种分化事件中都经历不完全谱系分流,反映了这些区域受到特殊的选择压力。例如与肤色和免疫相关的基因一直处于较高不完全谱系分流水平,丰富了这些基因在灵长类物种间的多样性。相反,极度保守的、维持细胞最基本功能所必需的看家基因则较少经历不完全谱系分流,基本遵循着物种的分化过程中在物种间形成的差异。

此外,研究人员还建立了推断物种分化时间的新方法。以往利用基因组序列计算物种分化时间的方法主要是基于分子钟的原理,但这样获得的物种间遗传分化的时间结果往往早于实际的物种分化时间。因此,计算结果通常需要用化石记录来对推断的物种分化时间进行修正。该研究中,研究人员结合基因组上的不完全谱系分流特征,在没有化石时间校正的情况下,重新估算灵长类物种遗传分化时间,发现与已知的化石时间基本一致。这说明不完全谱系分流的分析方法可以不需要依赖化石证据,只用基因组数据和某些群体相关参数就能得到较为准确的物种分化时间。

杂交驱动灵长类新物种的形成

在中国,金丝猴是家喻户晓的动物。其实金丝猴并不都是金色的,例如滇金丝猴(R.bieti)和怒江金丝猴(R.strykeri),虽然名为金丝猴,毛发却是黑色与白色的。事实上,金丝猴有5个物种,除了上述两个外,还有川金丝猴(R.roxellana)、黔金丝猴(R.brelichi)和越南金丝猴(R. avunculus),其中只有川金丝猴是浑身金色毛发的,而它也是最早被命名的金丝猴。有意思的是,黔金丝猴的头部与肩膀等处的毛发是金色的,但身体其他部位却覆盖着深色的毛发。云南大学于黎教授联合多个课题组,通过比较基因组学分析解开了黔金丝猴的身世之谜。

研究发现黔金丝猴是川金丝猴和滇金丝猴/怒江金丝猴共同祖先杂交后形成的物种,在演化过程中与两个祖先物种形成了生殖隔离,进而成为一个新的独立物种。该研究也在演化层面解释了黔金丝猴特有毛色的来源:黔金丝猴的毛发颜色实际是川、滇金丝猴毛色的嵌合体,其毛发基因有些来源于川金丝猴,有些来源于滇/怒江金丝猴。

著名生物学家恩斯特?·迈尔(ErnstWalterMayr)早在20世纪40年代就提出了基于生殖隔离的生物学物种的概念,即认为一个物种的定义关键看某个种群是否能和其他种群交配并产生可育后代。这一论点被无数人奉为圭臬,并被写入高中教科书成为演化理论的重要概念,为人们所熟知。但是,几十年来,物种之间的杂交不断见诸报端,刚分化不久的近缘种之间的生殖隔离往往没有那么强,个体之间仍然有概率突破生殖隔离,产生可育后代,并导致物种间的基因交流,也就是所谓的跨物种基因流(geneflow)。进一步地,若杂交后代和祖先再反复回交,导致祖先物种的基因库中有了杂交后代的部分基因,便产生了基因渐渗(geneticintrogression)现象,这也常常是物种适应性性状的来源。然而,通过物种之间杂交形成全新的物种,这一成种机制在动物界比较罕见,尤其在灵长类里,这是首次报道。

2.4

不完全谱系分流示意图。由于不完全谱系分流现象而造成了基因树和物种树的不一致(冯少鸿绘)

除了金丝猴,本研究项目中在另外两个类群里也报道了类似的杂交成种现象。如食蟹猴类可能源自古老的杂交事件,即是由狮尾猴的祖先与斯里兰卡猕猴的祖先杂交而来的;而东非狒狒和黄狒狒之间复杂的遗传背景和演化历史与雄性狒狒离群活动而驱动的近缘物种间的基因交流有关。这表明杂交是灵长类动物物种形成的重要驱动力之一,物种的系统的演化也并不完全是树状的,可能因为跨物种的基因交流而呈现局部的网状结构。

基因组揭示灵长类复杂社会结构的演化机制

部分灵长类动物具有动物界中少有的重层社会(multilevelsociety),如社会可以分成家庭、家族、氏族等不同的组织层次,其中就包括人类的社会。重层社会的演化形成也受到学术界广泛的关注和兴趣。疣猴类是旧世界猴的主要分支之一,它们主要为植食性且具有可以发酵纤维素的复杂的胃结构,而不同物种具有从简单到复杂的多样社会组织形式。因此,包括金丝猴在内的亚洲叶猴(疣猴类)正是研究灵长类重层社会结构演化的绝佳对象。西北大学齐晓光教授联合多个课题组,对亚洲叶猴的基因组进行了研究,回答了一系列相关问题。

本研究分析了亚洲叶猴全部七个属的基因组,并根据4992个直系同源基因,结合最新的化石证据,构建了可靠的系统发育树,由此支持了亚洲叶猴的两大分支是由其他叶猴和金丝猴等奇鼻猴类在约750万年前分化而成的观点。同时,本研究还推翻了亚洲叶猴的祖先从北方南下进入东亚的观点,提出它们是经喜马拉雅山南麓到达东亚、东南亚地区的新观点。研究团队根据新的系统发育树,扩散路线并结合古气候地理认为,寒冷气候是推动亚洲叶猴类产生重层社会的重要因素。

此外,本研究通过对叶猴基因组的比较分析以及细胞生物学实验的验证,发现与能量代谢、神经内分泌调控相关的通路在奇鼻猴类中经历了快速演化。其中,催产素通路和多巴胺通路的作用和功能在重层社会的物种中有进一步的加强,这些通路与社会依恋的正相关性已经被广泛报道。这些结果表明,寒冷可能促进了奇鼻猴类的代谢与神经系统的重塑,在加强亲代抚育和后代存活率的同时,还加强了社群个体间的凝聚力,从而为亚洲叶猴更大、更稳定的社会提供了生理基础。

2.5

黔金丝猴杂交成种过程的示意图(于黎课题组供图)

基因组多样性与物种灭绝风险不完全匹配

物种灭绝风险是否与遗传多样性的丧失存在相关性是一个长期被讨论的话题,也就是濒危物种是否具有更低的遗传多样性。它直接决定了遗传多态性能否作为衡量物种灭绝风险的指标之一。由西班牙托马斯?·马奎斯-博内特(TomàsMarquès-Bonet)教授领衔的合作团队,对来自233种灵长类动物的809个个体基因组的重测序数据进行分析,而基于基因组杂合性和连续性纯合片段(RoH)长度的结果表明,基因组多样性与世界自然保护联盟划定的灭绝风险类别之间在整体上没有直接关联。

不过在较小的分类阶元内,例如在同一个科内,未受威胁和受威胁物种在遗传多样性上存在差异。虽然并非所有的比较都达到了统计学意义上的显著性,如懒猴科(Lorisidae)内的未受胁和受胁物种之间的遗传多样性就没有差异;但多个极度濒危物种含有比例更高的连续性纯合片段比例,如白头叶猴(Trachypithecusleucocephalus)、东部大猩猩(Gorillaberingei)和蒙狐猴(Eulemur mongoz)等。这个结果说明这些极度濒危物种的有效种群数量较小,存在近亲繁殖加剧的风险。而一些目前未被归类为濒危的物种也有很大一部分的基因组处于连续性纯合片段状态,例如阿氏夜猴(Aotusazarae)和小耳大婴猴(Otolemurgarnettii)。

总的来说,遗传多样性并不能完全表征物种的濒危程度。前者取决于长期的种群 历史,而目前濒危状态的形成很大程度上是受到非遗传因素的威胁,种群数量的短时间快速下降可能无法在基因组水平上得到体现。

人工智能帮助识别人类致病基因变异

基因变异是导致疾病的最主要原因之一,基于灵长类与人类的亲缘关系,相同的基因突变可能带来相似的结果。以此类推,在灵长类中常见的突变可能意味着这些变异更可能是无害或有限低害的。西班牙托马斯?·马奎斯-博内特教授团队、Illumina人工智能实验室联合多个课题组,通过对233种灵长类物种共809个样本的全基因组测序数据进行比较,鉴定出人类直系同源蛋白上430万个可能导致蛋白结构变化的基因变异位点。研究人员以此为数据集基础加入人类疾病基因数据,用包含450万种可能造成良性变异的数据集训练了PrimateAI-3D的人工智能神经网络。与以往的深度学习架构不同,PrimateAI-3D将蛋白质的三维结构在0.2纳米的分辨率下进行体素化,并使用三维卷积识别不明显的关键结构区域,使得PrimateAI-3D能够准别识别不太明显的关键区域,从而更准确地预测基因变异的致病性。这一研究成功演示了将灵长类群体测序数据和深度学习模型相结合的应用,有助于我们了解人类基因变异的致病性,能帮助个性化基因组医学在临床上提供更好的诊断指导。

每个人平均携带了几十个潜在有害罕见变异,如何预测一个人的遗传因素对常见疾病,如糖尿病和心血管疾病等的患病风险?是用数千种影响较小的常见遗传变异的总和来进行评估,还是用少数影响显著的罕见突变的总和来进行评估更好呢?区分能力弱、不能有效地识别有高风险的个体,是通过常见变异来进行临床学上评估所遇到的最大困难之一。利用PrimateAI-3D可以实现“用最罕见的变异找到最容易患病的个体”的思路,即通过演化分析定位高致病性的罕见突变,用于预测患病的风险。基于人和其他灵长类动物训练的PrimateAI-3D,在样本差异上远远大于基于某个人类族群获得的数据集,因此能在不同的人类族群中具有更好的可迁移性。随着样本量的增加,PrimateAI-3D的性能还可以进一步得到提升。

综合研究发现表明,常见变异和罕见变异在预测人类疾病风险方面具有互补的效用。常见变异可以平均识别出更多可能患病的个体,而罕见变异则更容易识别出最高风险的异常个体。因此,在临床评估上纳入罕见变异可能比仅使用常见变异更能识别出极端个体。这样的调整具有重要的临床意义,因为这些极端个体才是大部分疾病最终的病人群体,也是最需要治疗或遭受严重的早期病变表现的群体,这对于预防性筛查具有重要的意义。

灵长类基因组计划研究联盟

浙江大学生命演化研究中心张国捷教授团队

中国科学院昆明动物所吴东东研究员团队

西北大学生命科学学院齐晓光教授团队

云南大学生命科学学院于黎研究员团队

西班牙庞培法布拉大学联合演化生物学研究所托马斯?·马奎斯-博内特教授团队

Illumina人工智能实验室

美国贝勒医学院人类基因组测序中心杰弗里?·罗杰斯(Jeffrey Rogers)教授团队

丹麦奥胡斯大学米凯尔?·舒尔普团队

德国莱布尼茨灵长类研究所克里斯汀?·鲁斯(ChristianRoos)教授团队