
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MOLGENIS VIP:一种可配置的端到端DNA变异解读流程,助力基因组研究与诊断方法快速创新
【字体: 大 中 小 】 时间:2025年06月24日 来源:NAR Genomics and Bioinformatics 4.0
编辑推荐:
为解决罕见病诊断中高通量基因组数据分析的挑战,荷兰格罗宁根大学团队开发了MOLGENIS VIP——一种支持短读长/长读长测序数据的全流程变异解读系统。该开源工具整合了CAPICE、SpliceAI等最佳实践算法,通过可配置决策树实现变异自动分类,在VKGL数据库和临床队列验证中召回率达93-100%,显著提升致病变异检测效率。
在罕见病诊断领域,全球约3.5亿患者中多数难以获得分子诊断,这直接影响了预后评估和治疗选择。随着二代测序(NGS)技术的普及,基因panel、全外显子组测序(WES)和全基因组测序(WGS)产生了海量数据,但现有分析工具在 versatility(多功能性)和 scalability(可扩展性)方面存在明显局限。商业软件如Alissa Interpret受限于封闭架构,而开源方案如Scout缺乏从原始数据到临床报告的完整流程,且难以整合新兴算法。更棘手的是,长读长测序技术(PacBio/Nanopore)的兴起带来了结构变异(SV)和短串联重复(STR)等新挑战,传统流程已无法满足临床诊断对时效性和准确性的双重需求。
针对这些痛点,格罗宁根大学医学中心遗传学系的研究团队开发了MOLGENIS VIP(Variant Interpretation Pipeline)。这个端到端解决方案创新性地将测序数据预处理、变异注释、分类过滤和交互式报告生成整合为模块化流程,支持从FASTQ、BAM到VCF多种输入格式。研究团队通过与VKGL(荷兰基因组诊断实验室联盟)、EU-Solve-RD等国际项目合作,利用25,664个预分类变异和59个诊断病例验证系统性能,相关成果发表在《NAR Genomics and Bioinformatics》。
关键技术方法包括:1) 采用Minimap2/Samtools进行序列比对,DeepVariant/GLnexus进行变异检测;2) 整合CAPICE机器学习模型预测变异致病性,SpliceAI评估剪接影响;3) 基于VKGL和ACGS指南构建可配置JSON格式决策树;4) 通过Nextflow实现流程并行化,Apptainer确保跨平台复现性;5) 使用UMCG诊断队列和Solve-RD研究队列共59例患者数据进行验证。
研究结果部分显示:
模块化设计实现全流程覆盖
系统包含预处理、注释、过滤和交互报告四大模块,支持Illumina短读长和Nanopore/PacBio长读长数据混合分析。测试中处理20例WES样本(平均216MB)仅需4小时(16GB内存/4核CPU),显著优于需要手动拼接的多工具方案。
注释体系覆盖多维证据
默认整合21种注释资源,包括:
决策树实现智能过滤
基于ACMG指南的默认决策树实现五级分类(B/LB/VUS/LP/P)。在VKGL最新变异测试中,对已知LP/P变异召回率100%,新提交变异召回率93.5%。7个漏检变异中,21个因CAPICE评分不足,16个因SpliceAI评分处于临界值(0.13-0.42)。
临床验证展现实用价值
讨论部分强调,VIP的创新性体现在三个维度:技术层面实现"从原始数据到临床报告"的无缝衔接;应用层面支持快速整合新算法(如即将加入的RNA-seq模块);生态层面通过开源模式促进国际协作(如ERDERA项目)。局限性在于当前HPO术语依赖人工录入,未来计划整合自然语言处理自动生成HPO标签。该工具已应用于新生儿筛查、炎症性肠病等10余个临床研究项目,其模块化架构为多组学整合奠定了基础,有望成为罕见病诊断的"瑞士军刀"。
生物通微信公众号
知名企业招聘