编辑推荐:
Gauchian 算法用于分析与戈谢病和帕金森病相关的 GBA1 基因时存在争议。研究人员评估其可靠性,发现多数差异源于错误使用或解读。Gauchian 在数据质量和覆盖度足够时可用,为 GBA1 评估提供新视角。
在生命科学和医学领域,基因检测对于疾病的诊断、治疗和预防至关重要。尤其是当涉及到与多种复杂疾病相关的基因时,精准检测其变异情况更是关键。戈谢病(Gaucher disease)和帕金森病(Parkinson’s disease)都与 GBA1 基因的变异紧密相连。然而,GBA1 基因区域存在一个棘手的问题,其附近有高度同源的假基因,这使得对 GBA1 基因的分析困难重重。传统的基因分析方法在处理这一区域时,常常会因为假基因的干扰而出现错误,导致无法准确检测出 GBA1 基因的变异,进而影响对相关疾病的诊断和研究。因此,开发一种能够准确分析 GBA1 基因变异的可靠方法迫在眉睫。
在此背景下,来自英国伦敦大学学院(University College London)临床与运动神经科学系以及美国 Aligning Science Across Parkinson’s(ASAP)合作研究网络等机构的研究人员,开展了关于评估 Gauchian 算法对 GBA1 变异基因分型可靠性的研究。他们的研究成果发表在《Communications Biology》杂志上,为该领域带来了新的见解。
研究人员主要运用了两种关键技术方法:一是 Gauchian 算法,这是一种专门为分析短读全基因组测序(WGS)数据而设计的新算法,它不单纯依赖于读取比对,能够识别已知的致病特定变异;二是靶向长读测序技术。研究过程中使用的样本包括 95 名个体以及 1000 Genomes Project(1kGP)中的样本。
研究结果主要围绕以下几个方面:
- 样本分析差异:在对 95 名个体进行检测时,Tayebi 等人将 Gauchian 算法与 Sanger 测序对比发现,有 11 个样本的检测结果存在差异。研究人员深入分析后发现,其中 4 个样本未检测出变异是因为相关变异不在 Gauchian 算法的目标变异列表中,而这个列表是可以根据需求轻松添加变异信息的。另外 3 个样本(Pat_75、Pat_76 和 Pat_79)数据质量低,基因组覆盖度的中位数绝对偏差(MAD)超出了 Gauchian 算法建议的范围,导致 GBA1 + GBAP1 拷贝数无法确定,进而无法进行变异检测,这不应被视为假阴性结果。剩余 4 个样本中,存在一些误判情况,例如 Pat_03 中 p.Asn409Ser 的杂合性被误判为纯合性;Pat_47 出现 p.Leu483Pro 的假阴性检测;Pat_16 的 p.Asn409Ser 被误判为纯合子;Pat_92 的杂合性 p.Asp448His 被误判为纯合子。综合来看,Gauchian 算法的精确率为 98.9%,等位基因水平的召回率 / 灵敏度在排除特定样本和等位基因后可达 99.4%124。
- 重组变异检测争议:Tayebi 等人认为 Gauchian 算法无法在没有正交证据的情况下检测重组变异。但研究人员指出,在 Pat_95、Pat_71 和 Pat_16 等样本中,Gauchian 算法检测到的重组等位基因与 Sanger 测序结果一致,只是该区域的读取映射不可靠,导致对 IGV 比对结果的解释存在挑战。例如在 Pat_95 中,Tayebi 等人对 IGV 比对结果的解读有误,实际上 RecNciI 是基因转换而非基因融合35。
- 不同基因组版本差异:Tayebi 等人报告在 GRCh38 与 GRCh37 的对比中,Gauchian 算法有 4 个样本漏检变异。研究人员分析后发现,其中两个样本(Pat_35、Pat_75)是由于错误的比对设置导致在 GRCh38 BAMs 中映射质量异常低,从而影响了 Gauchian 算法的拷贝数检测,并非算法本身的问题;另外两个样本(Pat_16、Pat_78)则反映出 Gauchian 算法在检测 p.Asn409Ser 时存在一定的改进空间6。
- 1000 Genomes Project 样本分析:Tayebi 等人在 1000 Genomes Project 样本中得到了与研究人员不同的 Gauchian 算法检测结果。研究人员发现这是因为 Tayebi 等人错误地使用 Gauchian 算法分析了旧的低覆盖度全基因组测序数据(中位数覆盖度 < 10×),而正确的高覆盖度数据(30×)重新分析后并未检测到双等位基因变异7。
研究结论和讨论部分指出,多数检测结果的差异是由于对 Gauchian 算法的错误使用或结果误判造成的。对于因数据质量不足而导致的 “无调用” 样本,不能简单地视为假阴性,并且研究人员已在 GitHub 文档中明确警告数据覆盖度应≥30。Gauchian 算法虽然存在一定的局限性,例如在对 p.Asn409Ser 进行基因分型时不够完善,但在覆盖度和数据质量足够的情况下,它可以用于 GBA1 基因的评估。在临床检测中,当需要绝对准确的结果时,可以考虑 Sanger 测序或靶向长读测序技术。这项研究为 GBA1 基因变异检测提供了重要的参考依据,有助于推动戈谢病和帕金森病等相关疾病的基因诊断和研究进展,让人们在攻克这些复杂疾病的道路上又迈进了一步。