编辑推荐:
节段性重复(SDs)在人类疾病、进化和多样性中意义重大却难以测序解析。研究人员分析 170 个人类基因组,探究其遗传多样性。发现非洲基因组有更多染色体内部 SDs ,还鉴定出 201 个新基因。这为理解人类基因组结构提供关键依据。
在人类基因组的神秘版图中,节段性重复(Segmental Duplications,SDs)就像隐藏在暗处的 “宝藏”,虽占据着重要地位,却一直难以被完全揭开神秘面纱。SDs 是指长度大于 1kb、序列同一性大于 90% 的同源 DNA 片段,广泛分布于染色体之间和染色体内部。它们在人类疾病的发生、物种的进化以及遗传多样性的塑造中都扮演着关键角色。比如,许多与免疫、神经和心血管疾病相关的基因都定位于 SDs 区域;在进化历程中,SDs 区域的基因变化推动了人类大脑皮层的扩张、饮食适应和视觉发展等重要进程。
然而,长期以来,由于 SDs 区域序列高度相似且结构复杂,传统的测序和基因分型技术在面对它们时显得力不从心。这使得研究人员难以准确了解 SDs 在人群中的变异情况及其潜在的功能影响。大多数基因组研究,如全基因组关联研究、基因组选择分析、基因调控研究(ENCODE)和转录研究(GTEx),都不得不将这些高度相同的 SDs 区域排除在外,这无疑成为了人类基因组研究道路上的一大障碍。
为了突破这一困境,来自美国华盛顿大学医学院基因组科学系等多个研究机构的研究人员,在 Evan E. Eichler 等人的带领下,开展了一项极具意义的研究。他们的研究成果发表在《Nature Genetics》杂志上,为我们深入了解人类 SDs 的奥秘打开了一扇新的大门。
在这项研究中,研究人员主要运用了以下几种关键技术方法:
一是 PacBio HiFi 长读长测序技术,利用该技术能够获得高精度的测序数据(准确率 > 99.9%),从而有效区分高度相似的基因序列和等位基因。
二是使用 hifiasm 等算法进行基因组组装,这使得研究人员可以对 SDs 区域进行更精确的组装和分析。
三是整合了 Illumina 短读长测序数据,通过与长读长数据相互验证,进一步提高了研究结果的准确性。研究样本来源于 1000 Genomes Project(1KG)中的 85 个人类样本,包含 38 个非洲样本和 47 个非非洲样本,为研究不同人群的 SDs 特征提供了丰富的数据基础。
研究结果
- 共享与多态性 SDs 的分布:研究人员对 170 个独立的基因组进行深入剖析,成功鉴定出 2742 个染色体内部和 4772 个染色体间的非重叠 SD 区域,这些区域占基因组的 6.1%,总计 173.21Mb。与 T2T-CHM13 人类参考基因组相比,他们发现了 47.4Mb 的新 SD 区域,并且这些新 SD 区域大多位于染色体内部。此外,研究还发现染色体间的 SDs 更多是固定的,而染色体内部的 SDs 多态性更高。
- 多态性和罕见 SDs 的序列特性:在多态性 SDs 中,研究人员进一步区分出罕见 SDs(在不超过 5 个人类基因组中出现,等位基因频率 < 3%)和常见 SDs(在 6 - 20 次中出现,等位基因频率约 3 - 10%)。他们发现,罕见 SDs 通常更长,且 SD 对之间的序列同一性更高。同时,罕见 SDs 往往离已知 SDs 更远,并且大多数单拷贝 SDs 会聚集在一起,而多态性 SDs 中,散布(SD 对间隔超过 1Mb)的比例在反向和正向取向中均有所增加,且散布的多态性 SDs 更倾向于反向取向。
- 基因内容和拷贝数的群体差异:基于 T2T-CHM13 基因组的基因注释,研究人员估算出每个二倍体基因组中约有 1156 个重复的蛋白质编码基因。通过分析 170 个人类基因组中的所有 SDs,他们发现至少在一个样本中,有 1340 个蛋白质编码基因的拷贝数达到 4 个,其中 173 个在 T2T-CHM13 参考基因组中为单拷贝基因。研究还发现,非洲血统的样本在多拷贝 SDs 上的拷贝数总体更高,这一结论通过多种方法得到了验证。
- 多态性 SDs 的基因潜力:研究人员利用 5.63 亿条全长非嵌合(FLNC)cDNA 序列构建的长读长转录本测序(Iso-Seq)资源,对多态性 SDs 的转录潜力进行评估。他们预测出 260 个可能的新蛋白质编码基因,其中 183 个映射到 SD 区域。基因本体分析表明,这些新基因大多与免疫功能相关。研究人员还发现了一些新基因的具体例子,如 MUC20、GSTM 等基因的额外拷贝,以及一些 HLA 基因的新等位基因。
研究结论与讨论
这项研究通过对 170 个人类基因组的分析,全面揭示了人类 SDs 的结构多态性和遗传多样性,为我们理解人类基因组的进化和功能提供了重要线索。研究发现的非洲基因组中更高的 SDs 含量和基因拷贝数,不仅反映了非洲人群丰富的遗传多样性,也暗示了这些基因在适应环境和进化过程中的潜在作用。新鉴定出的 201 个可能的蛋白质编码基因,为后续的基因功能研究开辟了新的方向,尤其是那些与免疫相关的基因,可能为免疫相关疾病的研究和治疗提供新的靶点。
然而,该研究也存在一定的局限性。样本数量相对较少,仅涵盖了 85 个人类样本,这可能无法完全代表人类遗传多样性的全貌。在鉴定新基因时,由于 cDNA 来源于不同个体,与基因组测序和组装的样本不匹配,可能会影响新基因鉴定的准确性。未来,随着更多人类基因组被测序并达到端粒到端粒(T2T)的完整水平,以及匹配的转录组和基因组数据的积累,我们将能够更全面、深入地了解人类 SDs 的奥秘,为人类健康和进化研究提供更坚实的理论基础。