细胞尺度分子模型构建新方法:Bentopy工作流程解析 中文标题

《Protein Science》:Compartment-guided assembly of large-scale molecular models with Bentopy

【字体: 时间:2026年02月13日 来源:Protein Science 5.2

编辑推荐:

  这篇综述介绍了Bentopy这一革命性工作流程。它针对构建可用于分子动力学(Molecular Dynamics, MD)模拟的全细胞及细胞器模型这一瓶颈,通过基于体素(voxel)的空间表征和模块化设计,能够将数百万分子高效、无碰撞地填充到复杂的生物区室(compartment)中,并直接生成模拟就绪的输出文件,为创建连接实验数据与计算模型的“数字孪生体”提供了强大工具。

  
在当今生命科学研究中,先进的实验技术正以前所未有的分辨率揭示细胞的结构与组织。例如,冷冻电子断层扫描技术(Cryo-electron Tomography, cryo-ET)能够在纳米尺度解析细胞器结构,而超分辨显微镜和空间蛋白质组学等技术则能绘制分子在细胞内的分布图谱。分子动力学(Molecular Dynamics, MD)模拟作为连接静态实验快照与动态过程的重要桥梁,有潜力将这些高分辨率数据转化为可计算的动态模型,从而深刻理解分子在拥挤且高度区室化的细胞环境中的相互作用机制。
然而,构建适用于大规模MD模拟的起始分子构型,即创建包含数百万甚至数十亿粒子的全细胞或细胞器模型,一直是一个主要的瓶颈。其挑战在于需要高效、无碰撞地将海量分子安置在复杂且不规则的生物区室空间内,同时满足生理浓度、空间分布等约束,并最终生成可直接用于MD模拟引擎(如GROMACS)的坐标与拓扑文件。现有的一些工具,如PACKMOL、CellPACK和CHARMM-GUI等,虽然各自擅长处理特定方面的问题,但在处理细胞尺度的复杂空间几何、高效包装与模拟就绪输出生成方面,仍缺乏一个整合的框架。
设计与实现
为解决上述问题,研究人员开发了名为Bentopy的全新工作流程。其命名灵感来源于日本便当盒,形象地体现了其将各种分子组分整齐地封装于模拟盒内不同区室的能力。该流程的核心在于其模块化设计,将模型构建分解为几个独立的操作步骤,用户可以根据模型复杂度灵活组合。其核心操作包括空间定义(mask)、约束感知的分子包装(pack)和坐标生成(render)。模型组装(merge)和溶剂化(solvate)则作为补充步骤,用于构建完整的细胞系统。这种设计支持快速迭代,用户只需重新运行受影响的步骤即可更新模型,这对于包含数千种分子物种的大型系统至关重要。
核心技术细节
  • 空间定义:Bentopy的核心是体积掩模概念。它将三维空间表示为规则的体素网格,体素编码了用于指导分子放置的空间信息。掩模可以从现有分子结构通过区室检测算法自动生成,也可以由用户直接提供,例如来自cryo-ET实验数据,这为整合实验空间信息提供了灵活性。
  • 分子包装:包装操作通过一种约束感知算法,在满足生理浓度、区室边界、防止分子重叠及遵循实验空间分布等多重竞争性约束的前提下,高效放置分子。算法采用基于体素的碰撞检测来提升效率,并依据几何惯性矩对分子进行排序,优先放置难以包装的分子。通过放置规则,可以实现对分子空间分布的精细控制,例如将膜外周蛋白限制在距膜15纳米范围内。
  • 坐标与拓扑生成:渲染操作将轻量级的“放置列表”转换为MD模拟引擎兼容的坐标和拓扑文件。它支持多种输出分辨率,允许用户生成特定空间范围内的结构用于快速验证,这对于包含数十亿粒子的模型尤为重要。
  • 模型组装与溶剂化:组装操作用于将包装好的分子与作为约束模板的初始结构(如预建的脂质膜囊泡)整合。溶剂化操作则专门针对细胞尺度模型溶剂化过程中遇到的内存和输入/输出瓶颈进行了优化,采用位图策略而非存储所有溶剂分子,从而高效地完成大规模系统的溶剂和离子添加。
应用案例展示
为验证Bentopy的通用性与强大能力,研究团队构建了三个基于实验数据的多尺度生物模型。
  • JCVI-Syn3A最小细胞模型:JCVI-Syn3A是目前已知的最简单活细菌,仅有452个蛋白编码基因。基于此,研究团队构建了一个直径200纳米的粗粒化(采用Martini 2力场)模型,整合了预建的染色体和细胞膜结构,并包装了基于蛋白质组学和代谢组学数据确定的胞质组分,包括超过七千种蛋白质和数万种代谢物。模型成功实现了膜外周蛋白与可溶性蛋白的不同空间分布规则,最终胞质密度达到520克/升,接近细菌胞质的实验值。包装过程仅用时4分钟,包装成功率高达99.7%。经溶剂化后,该模型包含约8.7千万个粗粒化珠子,相当于近10亿原子。
  • 线粒体区室模型:该模型基于小鼠神经元线粒体的冷冻电子断层扫描图谱构建,展示了Bentopy的区室感知包装能力。研究利用实验膜几何定义了线粒体基质和膜间隙两个独立的区室,并分别根据人类线粒体蛋白质组和代谢组数据包装了不同的分子组分。最终模型中,基质区的蛋白质密度(239克/升)是膜间隙区(26克/升)的9倍,代谢物浓度也存在16倍的差异,直观反映了线粒体不同区室的功能特化。整个包装过程在标准工作站上不到4分钟内完成,最终溶剂化模型粒子数超过9.85亿个粗粒化珠子。
  • SARS-CoV-2呼吸道气溶胶原子模型:此模型旨在展示Bentopy对力场和分辨率的普适性。研究构建了一个包含完整SARS-CoV-2病毒粒子的全原子模型,该病毒被包裹在一个模拟呼吸道深部液体成分的球形气溶胶中。模型成功地将包括全长(约55纳米)且完全糖基化的粘蛋白聚合物在内的所有组分无碰撞地包装进一个直径270纳米的球体内,包装仅耗时9秒。通过特定的放置规则,还实现了针对病毒内部带负电M蛋白二聚体的钠离子(Na+)靶向中和,使初始构型更接近平衡态。最终溶剂化模型的总原子数达到了约10亿,是迄今为止最大的全原子MD模型之一。模型成功进行了能量最小化,其模拟限制主要源于当前硬件和软件在处理如此大规模系统长程静电相互作用时的技术瓶颈。
讨论与展望
Bentopy工作流程填补了当前在构建细胞尺度、多组分、模拟就绪MD模型方面的工具空白。它将细胞模型构建转变为可重复、数据驱动的过程,支持模型的快速迭代和精细化,使得构建能够伴随新实验数据而不断演化的“活体模型”成为可能。其计算效率高,可在标准工作站上于数分钟内构建包含十亿级粒子的模型,并且通过严格的版本控制和标准化输入文件确保了完全的可重复性。
目前,Bentopy默认生成GROMACS输入文件,并与Martini粗粒化力场生态系统深度集成。同时,它也支持全原子力场,展现了其力场无关的特性。未来,Bentopy的发展方向包括:直接接受实验数据(如cryo-ET密度图)作为掩模来源以更好地实现数据驱动的空间约束;改进对扩展聚合物系统的处理,例如与专业的聚合物构建工具(如Polyply)对接;以及扩展与其他模拟方法和动力学模型的连接,以支持更广泛的多尺度建模研究。
总之,Bentopy为整合实验数据与计算模型,创建能够反映细胞复杂性的“数字孪生体”提供了强大的基础设施,有望推动细胞尺度分子建模这一新兴领域的快速发展。该软件是开源项目,遵循Apache 2.0许可证,代码、文档及教程均已公开。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号