
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于形态学描述符的机器学习框架预测与分析生物膜中细菌拮抗作用
【字体: 大 中 小 】 时间:2025年08月21日 来源:Artificial Intelligence in the Life Sciences 5.4
编辑推荐:
为解决微生物互作机制复杂、实验筛选耗时耗力的问题,研究人员开发了基于单物种生物膜形态参数(如体积、厚度、粗糙度)的机器学习模型,通过LGBMRegressor算法预测Bacillus与病原体的拮抗作用(exclusion score)。研究采用同源控制交叉验证(HCCV)协议,实现平均绝对误差0.154,揭示了混合模式(Modele)和病原体生物膜高度(Height)为关键预测因子。该数据驱动方法为快速筛选有益菌株提供了新工具,发表于《Artificial Intelligence in the Life Sciences》。
在微生物生态系统中,生物膜(biofilm)作为细菌的"城市",80%的微生物以此为生存方式。这些由胞外基质包裹的结构化群落,既存在合作共赢,也上演着激烈的资源争夺战。其中,Bacillus等有益菌通过生物膜形成抑制金黄色葡萄球菌(Staphylococcus aureus)、沙门氏菌(Salmonella enterica)等病原体定植的现象尤为引人关注。然而,传统实验方法如共聚焦激光扫描显微镜(CLSM)虽能精确观测多物种生物膜空间分布,但存在通量低、成本高的瓶颈;而基于方程的模拟方法又难以捕捉生物膜动态互作的复杂性。
为突破这些限制,Rapha?l Rubrice团队创新性地将机器学习引入这一领域。研究以18株Bacillus和4种病原体的单物种生物膜形态参数(高度、体积、基底覆盖率等)为输入,以混合培养后实测的exclusion score(反映拮抗强度的指标,0-1标准化)为目标,构建了预测模型。特别值得注意的是,团队设计了同源控制交叉验证(HCCV)协议,通过分层排除特定菌株或互作组合,严格评估模型在未知菌株上的泛化能力。
关键技术方法包括:1)三种数据构建策略(随机抽样、均值±标准差、全组合)比较;2)K近邻缺失值填补与Robust标准化预处理;3)基于置换特征重要性(PFI)的特征选择;4)LGBMRegressor算法优化;5)SHAP值可解释性分析。实验数据来自Paris-Saclay University的CLSM观测,包含648组混合生物膜互作数据。
研究结果部分:
模型选择与优化
通过比较线性模型(Ridge/Lasso)与非线性模型(SVR/随机森林/梯度提升树),发现基于梯度提升的LGBMRegressor在组合数据集表现最优(MAE 0.154)。特征工程生成的FakeScore(1-PBiofilmHeight3/PBiofilmVolume)等衍生变量进一步提升预测精度。
关键生物膜参数
置换特征重要性分析显示:1)混合模式(Modele)贡献度最高,反映接种方式对互作的显著影响;2)病原体生物膜高度(Height)次之,其与拮抗强度呈负相关(SHAP值分析)。去除这两类特征分别使误差增加28.6%和14.3%(P<0.05)。
预测性能异质性
模型对强拮抗(exclusion score>0.8)预测最准确(MAE 0.151),这类样本占总数据近50%。但在Bacillus 1234与S. enterica的互作中表现较差(MAE 0.455),蜜蜂群图显示该组合的特征-贡献关系紊乱,暗示特殊互作机制。
讨论与结论指出,这项研究首次证明单物种生物膜形态参数可有效预测多物种互作结局,平均误差控制在目标变量量程的15.4%以内。虽然数据集菌株遗传多样性有限,但HCCV协议验证的泛化能力表明,该方法对加速有益菌株筛选具有实用价值。未来整合胞外聚合物(EPS)组成、代谢组学等特征,或可进一步提升对复杂互作的解析度。该成果为"One Health"框架下减少抗生素使用提供了新的生物防控思路,相关方法已发表于《Artificial Intelligence in the Life Sciences》。
生物通微信公众号
知名企业招聘