
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Multipath2.0:基于多组学数据扩展多层可复现通路模型的生物信息学工具
【字体: 大 中 小 】 时间:2025年05月07日 来源:Computer Methods and Programs in Biomedicine Update CS5.9
编辑推荐:
本研究针对生物系统分析中多源异构数据整合的挑战,开发了R包Multipath2.0,通过集成KEGG Genes和OMIM数据库,将BioPAX编码的通路扩展为包含基因、疾病、药物等多层互作网络的可视化模型。该工具显著提升了Wnt信号通路等模型的节点覆盖度(新增706条边),为药物重定位和生物标志物发现提供了创新分析框架。
在生命科学研究中,生物系统常被割裂分析,而高通量技术产生的海量多组学数据亟需整合工具。当前面临三大痛点:一是基因组、蛋白质组等异构数据难以统一建模;二是现有工具如Pathway Commons缺乏药物-疾病关联层;三是可复现性受限于数据库查询效率。这些瓶颈严重阻碍了从通路层面理解疾病机制和药物开发的进程。
德国研究团队开发的Multipath2.0创新性地解决了这些问题。该研究通过升级R包功能,新增addGenesLayer()和addDiseasesLayer()两大核心函数,将KEGG Genes和OMIM数据库整合至原有BioPAX通路模型。以Reactome中Wnt信号通路为例,模型节点从311个增至864个,边数从539条扩展到1245条,首次实现了基因-蛋白-疾病-药物的四维互作可视化。相关成果发表于《Computer Methods and Programs in Biomedicine Update》。
关键技术包括:1)基于rBiopaxParser解析BioPAX level 3文件;2)运用KEGGREST和romim包批量查询基因/疾病数据;3)采用future.apply实现并行化查询优化;4)通过mully包构建三维多层网络。数据源涵盖Reactome、UniProtKB、DrugBank等权威数据库。
KEGG genes
研究团队开发getRelatedGenes()函数链,通过UniProtKB交叉引用提取KEGG基因ID,建立"KEGGGENES"新层。实验显示,该流程能自动映射人类基因hsa:XXXX格式条目,并验证双向数据库参照关系。
OMIM
创新性提出双路径映射策略:既可通过蛋白层(getUPKBRelatedDiseases)直接关联疾病,也可经基因层(getKeggOmimRelation)间接关联。后者利用KEGG-OMIM的交叉引用,显著提高疾病覆盖度。
The new Wnt signaling pathway model
升级后的Wnt通路模型新增紫色基因层和绿色疾病层,节点数增长178%。关键发现包括:1)OMIM层成功整合COL18A1相关Knobloch综合征等遗传病数据;2)基因-蛋白互作边占比达56.7%,揭示大量潜在调控关系。
Multipath against existing tools
相较于Pathway Commons的单层通路展示,Multipath2.0支持多层聚类分析;与Cytoscape相比,其内置数据集成功能节省了90%的前处理时间。
External factors
针对UniProt.ws的查询瓶颈,团队改用queryup包实现万级ID批量查询,响应速度提升15倍。通过分块并行处理策略,克服了KEGGREST的10-ID查询限制。
该研究的突破性在于:1)创建首个支持BioPAX+OMIM+KEGG的多层通路标准模型;2)开发可扩展的模块化架构,未来可整合单细胞测序等新数据类型;3)在利什曼病治疗靶点筛选中已获验证。研究团队特别指出,romim包需OMIM官方API密钥这一技术细节可能影响工具普及,建议建立本地缓存数据库作为解决方案。
这项工作为系统生物学研究提供了范式转变:从静态通路图谱转向动态多维互作网络。其开源特性(GNU GPL许可)将加速个性化医疗和跨组学研究的进展,特别是在肿瘤异质性和复杂疾病机制研究领域展现出独特价值。
生物通微信公众号
知名企业招聘