wordpress页面定制seo线上培训班
摘要
随着三代测序技术的进步和高质量参考基因组的发布,研究者们发现单一个体的参考基因组无法全面代表整个物种的遗传序列。这一现象导致了群体遗传变异图谱的不完整。为了解决这一问题,构建来自多个个体的泛基因组成为一种有效的方法。
泛基因组研究包括两个主要部分:
- 核心基因组:负责基本生物学功能及物种主要表型特征的基因组部分。
- 可变基因组:与物种的遗传多样性和个体独特性相关的基因组部分。
根据核心和可变基因组所占比例的不同,泛基因组可分为开放型和闭合型两种类型:
- 开放型泛基因组:核心基因组占比较小,适用于微生物、被子植物及部分低等动物等群体。
- 闭合型泛基因组:核心基因组占比较大,常见于哺乳动物。
本文综述了细菌、真菌和动植物的泛基因组学研究进展,探讨了其在不同生物类群中的特征。通过构建泛基因组,能够完善现有参考基因组,获取物种的完整变异信息,从而有助于深入研究遗传多样性及表型变异的分子机制。
引言
随着功能基因组学的深入发展,拥有高质量的参考基因组成为解析遗传与表型关系的重要前提。然而,在群体水平上,来自同一物种不同个体的基因组序列并不能完全与该物种的参考基因组一一对应。因此,建立一个包含该物种全部基因组序列和变异信息的完整集合显得尤为重要。
泛基因组的概念
2005年,Tettelin等首次提出了“泛基因组”(pan-genome)的概念,指的是一个物种基因组序列的非冗余集合,包括:
-
核心基因组(core genome):几乎存在于所有个体中的基因。
-
可变基因组(accessory/variable/dispensable genome):仅在部分个体中存在的基因。
物种间的基因交流
相较于细菌,真核生物的遗传物质跨物种交换较少,因此存在的缺失变异(presence and absence variations, PAVs)相对较少。然而,随着对动植物个体基因组的比较研究,发现高等生物同样存在显著的跨物种基因交流和相当数量的PAVs,这些变异往往位于功能性区域,承担重要的生物学功能。
泛基因组的应用
泛基因组在植物、真菌和动物的基因组学研究中被广泛应用,能够:
-
更全面地评估物种内遗传多样性。
-
探究跨物种的基因交流以及驯化与改良过程。
通过泛基因组的构建,研究人员能够获取更准确全面的变异信息,并通过与表型的关联,筛选出可变基因组中的功能基因或功能序列,为物种的遗传改良提供宝贵的遗传资源。
在微生物领域,泛基因组还可以用于研究菌种的进化、适应性和群体结构,同时应用于重要毒力因子的发现和疫苗设计。
泛基因组的概念和特点
泛基因组的定义 广义的泛基因组是一个捕获物种全部遗传信息的集合。针对一定数量个体基因组信息的泛基因组,基因或序列集合可以分为以下几类:
-
核心基因组(core):通常存在于超过95%的个体基因组中。
-
可变基因组(accessory genome):进一步分为:
-
壳基因组(shell):存在于大约5%到95%个体基因组中的基因。
-
云基因组(cloud):仅存在于少于5%个体基因组中的基因。
-
这种分类方式能够减小不同基因组类别定义时的模糊性,核心基因组以95%以上的比例存在,避免低质量基因组序列或基因组缺陷导致的分类错误,确保真实的核心基因组在注释和分类中不被遗漏。而云基因组可能是个别个体基因组意外获得的外源基因或因异常装配导致的序列。
基因频率分布 泛基因组中的基因频率常呈不对称的“U”型分布,表明大多数基因要么以核心基因组的形式存在于绝大多数个体中,要么仅以云基因组的形式存在于个别个体中。
泛基因组的类型
根据核心基因组的比例,泛基因组可分为两种类型:
-
开放型泛基因组:核心基因比例较小,通常低于80%。这种泛基因组随着个体数量的增加,可能持续出现新的基因或序列,提供丰富的遗传资源,增加物种对动态环境的适应性。细菌、真菌和被子植物多表现出这种特征。
-
闭合型泛基因组:核心基因比例较高,且基因数量和结构相对稳定。随着个体数量的增加,核心基因组和整个泛基因组的大小会迅速趋于稳定。哺乳动物的泛基因组是一个典型的闭合型,其可变基因数量有限,确保基因调节网络的稳定性。
群体中可变基因组的来源
当前的泛基因组研究主要集中在物种内部完整基因组序列的获取,特别关注可变基因组。这部分基因组包含物种内部个体基因组之间一致性低的多态序列,以及产生插入缺失(PAVs)的序列集合。尽管广义的泛基因组旨在捕获物种的全部遗传变异信息,但现有研究往往难以体现小的插入缺失(indels)、单核苷酸多态性(SNPs),以及不改变序列组成的易位(translocation)和倒位(inversion)变异。因此,这些研究可以被视为狭义的泛基因组。
可变基因组的来源
-
细菌的泛基因组:
-
细菌通常具有较小的基因组,其基因占据基因组序列的大部分,几乎没有基因间序列。
-
原核生物的泛基因组研究主要集中在蛋白编码基因的含量。
-
原核基因组不断变化,通过水平基因转移、基因复制或从头出现扩张,并通过基因丢失收缩。
-
在细菌中,基因损失和水平基因转移(转化、接合和转导)是可变基因产生的主要进化过程。
-
-
真菌的泛基因组:
-
研究表明,真菌的进化主要通过菌株水平的创新,而非大规模的水平基因转移。
-
-
被子植物的泛基因组:
-
被子植物通过多种机制获取新基因,包括:
-
全基因组复制(WGDs)
-
局部串联重复
-
转座因子(TEs)介导的重复
-
近缘物种渗入
-
水平基因转移
-
从头基因诞生(de novo gene birth)
-
-
被子植物也能通过染色体内重组和假基因化实现基因和序列的丢失。
-
-
动物的泛基因组:
-
尽管研究较少,但已有基因组学研究显示,动物基因组中存在渗入、水平基因转移及各种重复事件。
-
泛基因组的构建与呈现
目前,构建泛基因组主要有两种方法:基于从头组装和基于迭代组装。
1. 从头组装法
-
原理:对多个个体的基因组进行从头组装和注释,然后通过比较不同个体的基因组,识别核心基因组和可变基因组序列。最后,将这些序列去冗余合并,形成一个包含所有个体基因组的泛基因组。
-
优点:能够检测到更多的结构变异(SVs)。
-
缺点:对计算资源和测序深度要求较高,不适用于基因组较大或样本量大的物种。
2. 迭代组装法
-
原理:以参考基因组为基础,将每个样本的测序数据映射到参考基因组,提取未成功比对的序列进行组装,并更新参考基因组。最终形成的泛基因组结合了参考基因组和非参考序列。
-
优点:可以利用大规模重测序数据,测序深度要求较低,计算资源消耗相对较少。
-
缺点:可能产生大量序列片段,无法检测个体的拷贝数变异(CNVs),但对PAVs检测非常有效。
线性泛基因组的展示
-
通过将新发现的序列加入参考基因组的形式构建线性泛基因组,丰富了对物种基因组的认识。
-
问题:线性展示方式可能导致源于不同个体的变异信息丢失,且缺乏处理这种变异信息的程序和算法。
图结构泛基因组
-
特点:以参考基因组为框架,构建一个二维序列图谱。单个碱基作为图的节点,前后关系作为边,序列差异处形成不同分支。
-
优势:可以根据新序列的加入不断扩展,整合同一位置的变异,避免丢失重要的位置信息。
-
应用:已有多种软件(如vg、minigraph、GraphType2)开发用于分析图结构泛基因组,并在动植物基因组学研究中初步应用。
泛基因组在不同物种中的研究进展
泛基因组研究在微生物和真核生物中日益重要,主要由于基因组的可塑性和多样性,以及测序和组装成本的降低,使得大规模基因组变异的发现成为可能。
4.1 细菌泛基因组
细菌的首个泛基因组是由无乳链球菌(Streptococcus agalactiae)构建的。研究表明,核心基因组约占任何单个基因组的80%,这显示出可变基因组的存在性。细菌在不同生态位中生存,并通过水平基因转移获取遗传物质,这使得基因组的复杂性增加。以大肠杆菌(Escherichia coli)为例,其核心基因组仅占泛基因总数的10%。由于这些高水平的遗传变异,泛基因组研究被认为是重建细菌系统发育的重要依据。
Freschi等的研究表明,基于1311个铜绿假单胞菌的基因组分析,探讨了水平基因转移在抗菌素耐药性和毒力机制中的贡献。随着测序成本的降低,开发了如PanX等在线软件,加速了细菌泛基因组的研究。研究显示,一些可变基因在变化的环境中具有适应性优势,另一些则与致病性和耐药性相关。
4.2 植物泛基因组
植物基因组的研究展示了其遗传多样性的可塑性,促使引入植物泛基因组的概念。2014年,首个植物泛基因组基于对7份野生大豆(Glycine soja)基因组的比较研究,发现了与重要农艺性状相关的可变基因。这种分析帮助追踪驯化和育种过程中基因的保留与丢失。
例如,Gao等研究了725个番茄(Solanum lycopersicum)个体,揭示了4873个在参考基因组中不存在的基因,指出驯化过程中的基因丢失与抗病性相关。泛基因组研究不仅关注基因本身,还发现基因组区域的变化在表型变异中起着重要作用。
近年来,图结构泛基因组的发展显著提高了对物种遗传变异的理解。2020年的一项研究结合2898个大豆株系的数据,构建了基于图的泛基因组,揭示了许多仅用单个参考基因组无法检测到的变异。2021年,Qin等基于多个参考基因组的水稻(Oryza sativa)研究,提供了SVs的分布和形成机制的信息。
迄今,已有10余种植物建立了泛基因组,包括玉米、辣椒、小麦和大豆等。这些研究强调了泛基因组在作物改良中的重要性,尤其是在揭示与生物和非生物胁迫耐受性相关的可变基因的同时,促进了对农艺性状的理解。通过泛基因组研究,可以获得更多关于SVs的信息,帮助优化作物性状,如水果的味道和产量等。
4.3 真菌泛基因组
真菌泛基因组的研究逐渐深入,尤其是在驯化酵母及其野生近缘种的基因组组装方面。研究人员使用长读长测序技术组装了12个酿酒酵母及其近缘种的完整基因组,核基因组大小在11.73到12.14 Mb之间。这些基因组的比较揭示了驯化与野生个体之间的差异,反映了人类活动对基因组结构进化的影响。
通过对1011个酿酒酵母分离株进行泛基因组构建,并结合表型分析,研究者为酿酒酵母的全基因组关联分析(GWAS)奠定了基础,提供了新的基因型–表型关系见解。这项研究的规模与其他模式生物体相匹配,为进一步的研究提供了丰富的群体基因组资源。
2019年,研究人员报道了四种模式真菌的泛基因组,包括酿酒酵母(Saccharomyces cerevisiae)、白色念珠菌(Candida albicans)、新型隐球菌(Cryptococcus neoformans)和烟曲霉(Aspergillus fumigatus)。结果显示,这些物种中80%至90%的基因属于核心基因,其余可变基因可能与发病机制和抗菌素耐药性相关。
对这些物种祖先的核心基因组与可变基因组分析表明,基因复制等过程是影响真菌全基因组进化的主要因素,而水平基因转移的作用相对有限。真菌病原体通过不断克服农作物抗性并对农药产生耐受性,威胁全球粮食生产,种群内的遗传变异多样性进一步推动了这一进化过程。
以小麦叶枯菌(Zymoseptoria tritici)为例,其泛基因组研究显示,核心基因仅占58%,而可变基因为其适应性进化提供了基础。研究人员还组装了来自六大洲的小麦叶枯菌的19个完整基因组,构建了小麦真菌病原体的高质量泛基因组,发现染色体重排是基因存在/缺失变异的基础,并且可变基因组中富含与发病机制相关的功能基因。
真菌泛基因组研究同样揭示了种内基因含量的变异性。这些研究不仅帮助获取大量菌株的变异信息,也为真菌的驯化和基因型–表型关联研究提供了支持。同时,可变基因在致病性中通常起着重要作用,通过泛基因组研究可以追踪参与感染和宿主反应的新基因来源,从而有助于解决作物–病原体的共同进化问题。
4.4 动物泛基因组
目前,动物泛基因组的研究相对于微生物和植物仍然较为有限,主要集中在人类(Homo sapiens)和家养动物。以下是关于动物泛基因组的主要研究进展和发现:
人类泛基因组研究
- 2010年,Li等人整合了亚洲人和非洲人新组装的基因组以及当时的人类参考基因组,构建了人类的第一个泛基因组。该研究发现每个新组装基因组中有约5 Mb的新序列,这些序列在当前参考基因组中不存在,推测完整的人类泛基因组中可能包含19~40 Mb的新序列。
- 跨物种保守性分析显示,这些新序列中某些基因在哺乳动物基因组间具有保守性,可能具有生物学功能。
- 2019年,构建的汉人泛基因组发现约29.5 Mb的新序列,并鉴定了188个新的蛋白质编码基因;瑞典1000个基因组的分析发现了约46 Mb的新序列。
- Sherman等的研究利用910个非洲后裔的深度测序数据集构建的泛基因组比现有参考基因组多近300 Mb的新序列,是目前发现新序列最多的人类泛基因组。
这些研究强调了单一参考基因组不足以进行基于群体的人类遗传学研究,建议为不同的人类群体创建各自的参考基因组。
家养动物的泛基因组研究
- 猪:Tian等利用来自欧亚大陆的12个基因组构建了猪的泛基因组,获得72.5 Mb的新序列,发现脂肪分解基因TIG3的可变性可能导致不同猪种的生理差异。
- 山羊:山羊泛基因组研究利用9个从头组装的Caprini物种基因组鉴定出38.3 Mb的新序列,验证其在山羊中的存在,展示了比较亲缘物种基因组寻找缺失序列的有效性。
- 牛:2020年,研究人员构建了家养动物的第一个图结构泛基因组,基于300头牛的变异信息,这提高了序列比对和基因分型的准确性,并发现了参考基因组中缺失的免疫相关功能序列。
其他动物的泛基因组研究
- 贻贝:研究显示地中海贻贝的泛基因组具有15,000个可变基因,占25%,这些基因在防御和生存中具有重要价值。
- 蜱虫:蜱虫的泛基因组研究揭示了遗传结构和病原体组成受生态和地理因素影响,确定了与宿主范围和生命周期相关的物种特异性决定因子。
- 熊蜂:熊蜂的泛基因组研究通过多个基因组比较分析,提高了进化分析的精度,助力功能基因的定位和克隆。
结语与展望
在基因组时代的早期,研究人员主要采用单一的“参考”基因组作为目标物种的基础,这一基因组用于进行各种遗传分析,包括物种内部和物种间的变异研究。随着测序技术的发展,测序质量显著提高,成本大幅降低,成千上万的新基因组被测序,从而揭示了大量物种间的遗传变异。这一过程使人们意识到,单一参考基因组无法代表一个物种的全部遗传信息。
泛基因组的优势
泛基因组分析提供了一个平台,通过收集物种的整体基因组信息库,获取其全部遗传多样性。该方法已在细菌、真菌以及动植物中得到广泛应用。
亟待解决的问题
尽管泛基因组研究取得了一定进展,但仍面临若干挑战:
-
基因组组装不完整:虽然长读长测序技术能解析一些难以获得的基因组区域和结构变异(SVs),但实现每个个体的完整无间隙装配仍不现实。
-
缺乏标准化流程:基因组测序、组装、泛基因组构建策略、序列注释及PAVs判断等方法缺乏标准化,导致不同研究结果的可比性不足,汇集所有数据以建立完整的泛基因组面临巨大挑战。
动物泛基因组的重要性
与微生物和被子植物相比,哺乳动物的基因组相对保守,通常只有基因间或片段化的区域参与序列增减。这并不降低动物泛基因组的重要性,贻贝的研究展示了动物泛基因组的潜力。随着泛基因组研究向更多物种的扩展,才能更准确地评估生物类群的多样性水平。
未来展望
目前的泛基因组研究核心在于用更丰富的数据结构替代传统的线性参考基因组。相较于单一线性参考基因组,泛基因组能够更全面地呈现群体基因组信息,并有助于更有效地获取和利用变异信息。随着图结构泛基因组构建方式和分析策略的逐步完善,泛基因组将更加高效地解决功能基因组学研究中的难题,彻底改变基因组学的研究格局。未来的努力将集中于进一步推动动物泛基因组的研究,为动物遗传学研究奠定坚实基础。