基于Enalos Cloud平台的数据治理与自动机器学习预测纳米颗粒对植物长度的影响

《Environmental Science: Nano》:Rigorous data curation, enrichment and meta-analysis enable autoML prediction of plant length responses to nanoparticles powered by the Enalos Cloud platform

【字体: 时间:2026年01月09日 来源:Environmental Science: Nano 5.1

编辑推荐:

  本文系统介绍了通过严格的数据治理(包括数据清洗、富集与元分析)结合自动化机器学习(autoML)技术,开发出能够预测纳米颗粒(NPs)暴露对植物(根、茎或整体)长度影响的XGBoost分类模型。该模型在外部验证中准确率(ACC)达85%,平衡准确率(BA)达83%,并明确了其应用域(APD)。研究遵循FAIR(可查找、可访问、可互操作、可重用)原则,将规范化的数据集发布于nanoPharos数据库,模型则以标准化QSAR模型报告格式(QMRF)文档化,并作为用户友好的网络应用CeresAI-nano集成于Enalos Cloud平台,为纳米农业中安全可持续设计(SSbD)纳米农药、肥料等提供了无需实验输入的虚拟筛选工具,显著提升了研究效率与可靠性。

  
引言
现代农业面临全球人口增长、气候变化、土壤退化及农用化学品效率低下等挑战。纳米技术因其颗粒(NPs)的独特性质(如小尺寸、高比表面积、可调表面电荷)在农业中的应用日益广泛,例如作为纳米肥料、生物刺激素和农药,旨在实现可持续和精准农业。然而,NPs对植物生长的影响具有双重性,既可能促进生长,也可能因纳米毒性产生抑制作用。机器学习(ML)方法,如定量结构-活性关系(QSAR)和读取交叉方法,已成为支持NPs安全可持续设计(SSbD)开发的有力工具,可用于预测NPs对植物生长指标(如根长、茎长)的影响。
方法
本研究以Deng等人通过GitHub公开的“Length”数据集为基础,该数据集包含299个NPs与植物相互作用的观测值,涉及28个特征,目标变量为NPs暴露后根、茎或植物整体的归一化长度响应。研究首先进行了广泛的数据治理与质量控制,包括追溯原始文献、纠正不一致之处、填补数据空白,并移除了大量存在缺失值或无法计算原子描述符的数据行(最终保留113行)。随后,利用Enalos NanoConstruct工具基于NPs元素组成计算了53个原子描述符,对数据集进行富集。为解决类别不平衡问题(原始数据中“positive”标签仅占25.7%),对训练集应用了合成少数类过采样技术(SMOTE)。通过自动化机器学习(autoML)工作流程,优化并评估了七种ML算法(包括梯度提升树、朴素贝叶斯、逻辑回归、决策树、随机森林、神经网络和XGBoost),使用五折交叉验证进行超参数调优。最终模型通过外部测试集(40个NPs)进行验证,并定义了其应用域(APD)。
结果
经过数据治理和特征选择(剔除低方差、高相关性及零信息增益的特征),最终用于建模的特征为20个,包括实验条件(如总浓度、曝光时间、光周期)、植物属性(如物种、碳固定类别、生长阶段)和NPs相关描述符(如原子描述符D12)。XGBoost模型在验证集上表现最佳(ACC: 0.77, BA: 0.71),被选为最终模型。进一步通过特征置换重要性分析,将特征集精简至8个关键变量:总浓度、物种、测量组织、培养方法、类别、持续时间、光周期和原子描述符D12。最终XGBoost模型在外部测试集上取得了ACC为85.0%、BA为83.3%的优异性能,其他指标如灵敏度(SEN)、精确度(PRE)、特异性(SPE)、F1分数和马修斯相关系数(MCC)也均表现良好。Bootstrap重采样和y-随机化测试证实了模型的稳健性和非偶然性。模型的APD阈值设定为5.071,测试集所有样本均位于APD内,预测可靠。
数据与模型的FAIR化与传播
为促进数据与模型的可重复使用性,遵循FAIR原则,将治理后的数据集及其元数据发布至nanoPharos数据库,并分配了唯一URI。模型通过标准化QSAR模型报告格式(QMRF)进行文档化。最终模型以CeresAI-nano为名,部署在Enalos Cloud平台的Isalos Analytics Platform上,提供用户友好的网页界面和API,用户可输入NPs特性、实验条件和植物详情,快速获得植物长度响应(“positive”或“negative”)的预测结果及可靠性指示。
讨论
尽管数据治理导致数据集规模显著减小,但通过数据富集和SMOTE技术,开发的XGBoost模型仍能有效预测NPs对植物长度的影响类别。模型包含的关键变量(如NPs总浓度、植物物种、光周期等)与已知影响植物生长的因素一致。SHAP分析表明,较低的总浓度和曝光时间倾向于预测为“positive”(长度增加),而较长的光周期则倾向于“negative”(长度减少)。该分类模型可作为SSbD框架的初步工具,用于虚拟筛选潜在的纳米农业化学品,节省长期实验成本。然而,模型目前仅针对球形NPs,且数据集规模和多样性有限,未来需要更多系统性的实验数据来开发更通用、可解释的模型,并深入探究NPs与植物相互作用的复杂机制。
结论
本研究通过严谨的数据治理、原子描述符富集和autoML技术,成功开发了一个能预测NPs暴露对植物长度影响的ML模型。该模型具有较高的预测准确性,其数据集和模型均遵循FAIR原则,便于访问和重用。集成到Enalos Cloud平台的CeresAI-nano工具为利益相关者提供了高效的虚拟筛选能力,支持纳米农业中安全可持续纳米农业化学品的开发。随着纳米材料在农业中应用研究的增多,ML与实验的协同整合将至关重要,而这有赖于系统和标准化的数据收集。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号