
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于FHIR Genomics的遗传数据标准化:推动基因组医学互操作性的参考实现
【字体: 大 中 小 】 时间:2025年09月13日 来源:Journal of the American Medical Informatics Association 4.6
编辑推荐:
本文推荐研究人员针对基因组医学中数据表示变异性阻碍精准搜索、临床决策支持规则编写和变异注释等问题,开展了基于FHIR Genomics的遗传数据标准化研究。研究团队成功将变异、HLA等位基因和变异注释的标准化算法封装到FHIR Genomics参考实现中,开发了可公开访问的开源平台。这项工作为临床基因组学的互操作性和精准医学应用提供了重要技术支撑。
在基因组医学迅猛发展的今天,临床基因检测数据正以前所未有的速度增长。然而,这些宝贵数据的利用却面临着巨大挑战——相同的遗传变异可以用多种不同的方式表示,这种变异性严重阻碍了精准搜索、临床决策支持规则的编写、变异注释以及知识库的匹配。无论是单核苷酸变异还是HLA等位基因,甚至是表型和药物相关的变异注释,都存在着令人头疼的表示不一致问题。
这种变异性问题表现在多个层面:遗传变异可以使用VCF(Variant Call Format)、HGVS(Human Genome Variant Society)命名法、GA4GH VRS(Global Alliance for Genomics and Health Variant Representation Specification)、FHIR Genomics、NCBI SPDI(National Center for Biotechnology Information Sequence Position Deletion Insertion format)等多种格式表示;同一变异可能针对不同的参考序列或不同版本的参考序列进行报告;还存在左对齐、右对齐和完全对齐等不同的"合理性"表示方式。对于HLA等位基因,表示方式更加复杂,包括血清学、不同特异性水平、G组、P组、CWD(Common Well-Documented)等位基因、GL字符串、MAC代码和表位组等多种形式。变异注释中的术语变异性同样不容忽视,不同的知识库使用不同的术语系统来表示条件和药物,如ClinVar使用MedGen,CIViC(Clinical Interpretation of Variants in Cancer)使用Disease Ontology和NCIt(National Cancer Institute Thesaurus),PharmGKB(Pharmacogenomics Knowledge Base)使用RxNorm。
为了解决这些挑战,Robert H. Dolin, MD等人开展了一项创新性研究,旨在评估和证明将数据标准化算法封装到基于FHIR(Fast Healthcare Interoperability Resources)的基因组应用程序接口(API)中的可行性。他们的研究成果发表在《Journal of the American Medical Informatics Association》上,为基因组医学的互操作性提供了重要解决方案。
研究人员采用了多种关键技术方法来实现这一目标。他们开发了一套设计考虑因素来权衡不同的标准化方法,所有数据(输入的患者数据、输入的知识、查询参数)都经过标准化处理。变异标准化利用了biocommons/hgvs Python包,HLA等位基因标准化使用了py-ard Python包,而对于变异注释的术语变异性(条件和药物),则利用了基于FHIR的ConceptMaps。研究还构建了一个公开的开源FHIR Genomics参考实现,所有数据和源代码都可在https://github.com/FHIR/genomics-operations获取,并部署在https://fhir-gen-ops.herokuapp.com/供公众访问。
研究结果方面,团队成功实现了三个主要领域的标准化:
变异标准化
研究人员测试了FHIR Genomics Operations参考实现中的各种变异标准化策略。早期实验使用ClinGen等位基因注册表的同义词策略证明了可行性,但无法处理新变异。随后转向使用NCBI SPDI服务,将其作为外部API调用到NCBI服务器。基于这些经验,团队将变异规范形式定义为染色体水平的完全合理化SPDI表达式。最终采用了基于biocommons/hgvs库的本地包含模型,该包提供了解析、格式化、验证和规范化遗传变异的Python库。这种方法允许将规范形式扩展为规范的GRCh37或GRCh38 SPDI或HGVS,虽然在内部使用规范SPDI作为正常形式,但其他系统可能依赖HGVS正常形式。
HLA等位基因标准化
考虑到IPD-IMGT/HLA数据库的中心权威性,研究团队认为任何标准化解决方案都需要利用这一知识源。他们发现Python nmdp-bioinformatics/py-ard库由NMDP(National Marrow Donor Program)构建和维护,使用户能够根据需要轻松刷新底层数据库。py-ard库将HLA等位基因的ARD(Allele Resolution Designation)规范化为几种正常形式之一。由于每种正常形式都有优缺点,团队采用的方法是将py-ard "lgx"正常形式封装起来,将输入的数据和查询参数规范化为py-ard "lgx"正常形式。
注释标准化
对于变异注释,研究人员专注于解决与条件和药物相关的术语变异性方法。虽然考虑了使用中间术语正常形式,但最终确定以术语翻译为中心的方法更具可扩展性,因为许多高质量的翻译已经存在并且得到了积极维护。团队创建了RxNorm到NCIt、SNOMED和ICD10CM到MedGen和Disease Ontology的代表性映射,将这些映射转换为FHIR ConceptMap并发布到公共FHIR服务器。
研究团队还提供了实际的实现演示,包括"normalize-variant"端点(操作实用程序API,演示将任意HGVS或SPDI格式的变异规范化为规范的build 37和build 38 HGVS和SPDI)、"normalize-hla"端点(演示将任意HLA等位基因规范化为各种规范形式)和"translate-terminology"端点(演示术语翻译,包括SNOMED到MedGen和DiseaseOntology、ICD10到MedGen和DiseaseOntology、RxNorm到NCIt的翻译)。
研究结论强调,虽然FHIR Genomics Operations参考实现已经实现了许多数据标准化流程,解决了许多但并非所有潜在的数据标准化场景,但主要的工作领域仍在进行中,包括定义增强结构变异检索的策略、"分类变异"以及尚未在FHIR Genomics中正式标准化的基因组发现。值得注意的是,虽然GA4GH VRS标准要求包含规范变异标识符,但在实践中仍然需要标准化,如果只是为了将其他格式的变异转换为VRS。因此,数据标准化的需求可能超越任何特定标准,无论基于FHIR还是其他标准,任何实现都可能需要这种标准化。此外,无论是考虑靶向测序、全外显子组测序还是全基因组测序,数据标准化都是必要的。
这项研究的重要意义在于它证明了将强大的标准化算法封装到临床基因组学API中的可行性,为基因组医学的互操作性提供了切实可行的解决方案。研究人员提供的参考实施不仅作为社区协作资源(也称为协作创新的游乐场),还作为一个站点,其他人可以检查(和/或使用)他们的解决方案来帮助快速启动自己的实施。团队打算继续利用参考实施作为有价值的资源,减少在实践基因组医学时实施负担。
通过这项工作,Robert H. Dolin, Nicolae-Mihai Todor, James Shalaby, Huda Arsalan, Eshani Shah, Nedah Basravi, Ammar Husami, Akash Rampersad, Bret S.E. Heale和Srikar Chamala等研究人员为推动基因组医学的发展做出了重要贡献,他们的工作将为临床基因组学的标准化和互操作性奠定坚实基础,最终促进精准医学的实现。
生物通微信公众号
知名企业招聘