
-
生物通官微
陪你抓住生命科技
跳动的脉搏
迈向标准化变异分类:ClinVar致病性变异在不同注释工具中的命名与语法差异研究
【字体: 大 中 小 】 时间:2025年06月22日 来源:Human Genomics 3.8
编辑推荐:
本研究针对高通量测序时代下变异致病性解读的关键挑战,系统评估了ANNOVAR、SnpEff和VEP三大注释工具对164,549个ClinVar双星变异(two-star variants)的注释一致性。研究人员通过HGVS命名法字符串匹配比较,揭示了HGVSc(58.52%)、HGVSp(84.04%)和编码影响(85.58%)的差异率,发现LoF(功能丧失)类别存在显著分歧,其中PVS1错误解读导致55.9-67.3%的PLP(致病/可能致病)变异被降级。该研究为临床遗传检测中标准化转录本选择和跨工具验证提供了关键证据。
在基因组医学迅猛发展的今天,高通量测序技术已成为遗传病诊断的利器。然而当测序仪输出的海量数据转化为临床报告时,一个看似简单的步骤——变异注释(variant annotation),却成为制约诊断准确性的"阿喀琉斯之踵"。问题核心在于:尽管人类基因组变异协会(HGVS)制定了命名规范,不同生物信息学工具对同一变异的描述却可能大相径庭。这种"同义不同形"的现象,使得临床医生在检索文献或数据库时可能遗漏关键证据,甚至导致美国医学遗传学与基因组学学会(ACMG)分类规则的错误应用。
台湾AI实验室联合研究团队在《Human Genomics》发表的研究,首次系统评估了三大主流注释工具(ANNOVAR、SnpEff、VEP)对ClinVar高置信度变异的注释差异。研究人员采用VCF文件左对齐标准化处理,通过HGVS字符串匹配和序列本体论(SO)术语归一化,比较了164,549个双星变异在编码序列命名(HGVSc)、蛋白质命名(HGVSp)和功能预测三个维度的差异。研究特别关注了MANE(NCBI与EMBL-EBI匹配注释)转录本的选择影响,并分析了注释差异对ACMG规则PVS1(致病性极强证据)应用的影响。
关键技术方法包括:从ClinVar获取GRCh38基因组构建的VCF文件,经bcftools预处理后,使用ANNOVAR(v20200608)、SnpEff(v5.2)和VEP(v111.0)进行并行注释;建立自动化流程比较HGVS语法等价性;采用内部开发的Gendiseak(GDK)平台模拟ACMG自动分类场景;使用VariantValidator进行HGVS语法规范化验证。
转录本可用性差异显著
研究发现三大工具的转录本覆盖度存在惊人差异:VEP覆盖最广(RefSeq 25,381/Ensembl 67,695),而SnpEff因仅包含MANE精选转录本而覆盖最少(RefSeq 5,848/Ensembl 6,183)。这种"数据鸿沟"直接导致仅22.68%(RefSeq)和8.53%(Ensembl)的转录本被所有工具共同注释。
HGVS语法一致性挑战
在ClinVar优选转录本中,HGVSc的总体一致率仅58.52%,HGVSp为84.04%。典型矛盾包括:ANNOVAR偏好"p.Cys188Cys"而非HGVS推荐的"p.Cys188="表示同义变异;SnpEff和VEP在微卫星(MS)变异中表现最差(匹配率<0.835)。值得注意的是,12.7%的差异源于工具无法识别ClinVar使用的重复序列标记法(如NM_000059.4:c.35_36del vs c.31_32del)。
编码影响分歧聚焦LoF
尽管总体编码影响一致率达85.58%,但功能丧失(LoF)类别差异显著(ANNOVAR 0.983 vs VEP 0.972)。典型案例是ClinVar变异ID 1483650,ClinGen专家组将其标注为剪接供体位点变异,而三款工具均错误归类为内含子变异。这种"功能误判"直接导致185个本应触发PVS1的变异被降级。
ACMG分类的蝴蝶效应
模拟分析显示,注释差异导致55.9%(ANNOVAR)至67.3%(VEP)的PLP变异被错误降级。典型如BRCA1基因的NM_007294.4:c.135-1G>A,因VEP错误标注为"intron_variant"而失去PVS1支持,从5类(致病)降为3类(意义未明)。研究同时发现,HGVS语法差异会干扰PS1/PM5(已知致病/良性错义)等规则的自动化应用。
这项研究揭示了基因组医学中一个关键但常被忽视的"技术债"——生物信息学工具间的注释异质性可能直接导致临床误诊。作者提出的四重解决方案(更新工具链、标准化转录本、交叉验证、定期审查)已被ClinGen采纳为最佳实践。特别值得注意的是,研究首次量化了PVS1误用对分类的影响,为ACMG指南的修订提供了实证依据。随着MANE v1.4新增19,338个精选转录本,这项研究也为全球标准化工作树立了质量标杆。
未来方向包括将分析扩展至三级结构变异(3级SV),并开发基于深度学习的HGVS语法转换器。正如研究者所言:"在精准医学时代,我们需要确保'基因拼写检查器'本身不会引入新的错误。"这项研究为实现这一目标迈出了关键一步。
生物通微信公众号
知名企业招聘