编辑推荐:
为探究染色体倒位特征,研究人员分析多数据集,发现其影响基因且存在差异,对罕见病研究意义重大。
在神秘的基因世界里,有一种被称为染色体倒位(Inversions)的现象,它就像基因链条上的 “调皮鬼”,时不时地改变 DNA 片段的方向,从而影响基因的正常功能。染色体倒位属于结构变异(SV)的一种,可别小看它,它在遗传疾病的发病机制中起着不可忽视的作用。然而,由于其平衡的特性以及断点常位于重复区域,使得检测和解读染色体倒位成为了基因研究领域中一块难啃的 “硬骨头”。传统的检测方法,如比较基因组杂交(aCGH)和外显子组测序(ES),在面对它时往往束手无策。虽然短读长全基因组测序(WGS)能检测到部分倒位,但又伴随着假阳性高和无法对基因组重复部分的断点进行测序等问题。这就好比在迷雾中寻找宝藏,困难重重。
随着测序技术的不断进步,各种公共的结构变异数据集纷纷涌现,这为研究人员探索染色体倒位提供了新的契机。但是,不同数据集之间的交叉比较却一直无人涉足。在这样的背景下,来自多个研究机构的研究人员,包括太平洋西北研究所(Pacific Northwest Research Institute)等,开启了一项意义非凡的研究。他们的研究成果发表在了《European Journal of Human Genetics》上,为我们揭开了染色体倒位的神秘面纱。
研究人员开展的研究主要聚焦于染色体倒位,综合分析多个公开数据集,探索其特征及与疾病的关联。为了实现这一目标,研究人员使用了多种关键技术方法。首先是全基因组测序技术,包括短读长和长读长全基因组测序,这能获取大量的基因数据,为后续分析提供基础;其次是光学基因组作图(Optical genome mapping),它能更准确地确定倒位断点;此外,研究还涉及多种数据集的运用,从公共数据库如 gnomAD(v4.0)、DGV、1KGP 中提取数据,并结合 Ebert 等人和 Porubsky 等人的研究成果,进行全面的对比分析。同时,研究人员通过对患者样本进行测序,包括 ONT 测序等,深入探究相关基因变异。
研究结果主要包括以下几个方面:
- 发现致病 UNC13D 倒位:研究人员在一名患有家系性噬血细胞性淋巴组织细胞增生症 3 型(FHL3)的患者(SEA110)中,发现了 UNC13D 基因的一个倒位,该倒位与一个单核苷酸变异(SNV)同时存在。在 gnomAD(v4.0)数据库中也发现了类似的倒位,且仅在欧洲芬兰和混合美洲人群的个体中以杂合状态存在,频率为 0.006345%。由于无法获取父母样本,无法确定该倒位的遗传情况,但光学基因组作图验证了其断点。
- 分析 gnomAD 中倒位特征:研究人员将 gnomAD 中的 2185 个倒位分为罕见(等位基因频率 < 5%)和常见(等位基因频率≥5%)两组,发现 98.9% 的倒位是罕见的。这些罕见倒位影响了 5% 与 OMIM 中表型相关的蛋白质编码基因,其中 254 个未在纯合状态下发现,且影响了 106 个常染色体隐性(AR)疾病基因。
- 比较不同数据集倒位特征:研究人员对 gnomAD、DGV、1KGP、Ebert 等人和 Porubsky 等人研究中的倒位数据进行比较分析。结果显示,不同数据集的倒位在长度、数量和类别上存在差异。例如,gnomAD 中的倒位长度分布更均匀且有较大的倒位事件;1KGP 中的倒位倾向于较小;Ebert 等人和 Porubsky 等人研究中的倒位中位数长度较高。同时,不同数据集间倒位的冗余度也不同,降低标准后,gnomAD 和 DGV 之间共享的倒位较多,Ebert 等人和 Porubsky 等人研究中的倒位重叠率也较高。
- 研究倒位对基因的影响:研究人员将倒位与蛋白质编码基因重叠情况分为基因跨越(Gene-spanning)、基因破坏(Gene-disrupting)和基因内(Intragenic)三类。除 1KGP 外,大多数数据集的倒位与基因的重叠属于基因跨越类别。在基因破坏和基因内类别中,gnomAD 和 DGV 的倒位破坏与疾病相关基因的频率较高。此外,研究人员还发现,在所有数据集中,与倒位重叠的蛋白质编码基因大多属于 AR 组,而 AD 疾病基因次之。
在研究结论与讨论部分,研究人员发现的 UNC13D 基因倒位,为 FHL3 的发病机制提供了新的见解。同时,通过对多个数据集的分析,揭示了不同数据集倒位特征的差异,这与使用的测序技术和分析方法有关。虽然大多数研究中的倒位经过多种方法验证,但仍需考虑不同技术的局限性和工具的假阳性率。此外,研究还表明,基因跨越倒位可能对疾病机制有潜在的远程影响,这为后续研究提供了新的方向。总体而言,该研究填补了我们对人群中低频倒位分子特征理解的空白,强调了在罕见病研究中识别倒位的重要性,为遗传疾病的诊断和治疗提供了重要的理论依据。