
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:基于集成自动机器学习和在线查询的有机荧光波长高精度预测
【字体: 大 中 小 】 时间:2025年07月16日 来源:Dyes and Pigments 4.1
编辑推荐:
这篇综述推荐使用集成自动机器学习(AutoML)技术构建了包含24798种有机荧光化合物的数据库,通过加权集成模型(WeightedEnsemble_L2)实现了荧光最大发射波长(λem)的高精度预测(测试集MAE=10 nm),并结合SHAP分析揭示了关键分子描述符。研究部署了开源网络平台,为生物医学成像(bioimaging)、化学传感(chemical sensing)等领域提供了高效的数据驱动设计工具。
Abstract
有机荧光分子在生物医学成像、化学传感和环境监测等领域应用广泛,但其发射波长(λem)的传统实验测定方法效率低下。本研究通过集成自动机器学习(AutoML)框架,构建了覆盖240-1200 nm波长范围的24798种有机荧光化合物数据库。基于AutoGluon平台开发的加权集成模型(WeightedEnsemble_L2)表现出最优性能,测试集平均绝对误差(MAE)为10 nm,与实验误差相当。SHAP可解释性分析揭示了6个关键分子描述符(如拓扑极性表面积、氢键供体数等),为分子工程提供了明确指导。研究成果已部署为开源网络平台,支持荧光探针的快速筛选与设计。
Introduction
有机荧光分子因其可调谐的光学性质和生物相容性,成为传感与成像的核心材料。尽管量子力学方法(如CASPT2、DFT)可用于预测λem,但其计算成本高昂且泛化能力有限。近年来,机器学习(ML)通过大数据分析为荧光材料设计提供了新范式,但传统ML模型存在特征选择依赖性强、可解释性差等问题。本研究通过AutoML技术实现了自动化特征优化与模型集成,显著提升了预测效率与精度。
Methods
采用AutoGluon框架进行自动化模型训练,从127组特征中筛选出包含9个关键描述符的最优组合(如拓扑指数、电子亲和能等)。模型性能通过决定系数(R2)和MAE评估,并结合SHAP方法解析特征贡献度。数据标准化过程中剔除了重复条目,确保数据集一致性。
Model Performance
加权集成模型(WeightedEnsemble_L2)在测试集上MAE为11 nm,优于其他子模型。关键描述符中,分子共轭长度与λem呈强正相关(R=0.82),而氢键数量则呈现负向调控。平台用户可通过输入SMILES分子式实时获取预测结果,加速荧光探针开发。
Conclusion
该工作通过AutoML实现了有机荧光波长的高通量预测,误差范围接近实验测量波动。SHAP分析表明,分子刚性增强和共轭扩展是红移λem的核心因素。开源平台的部署将推动数据驱动型荧光探针在疾病诊断(如肿瘤标记物检测)和环境污染物监测中的应用。
(注:全文严格基于原文缩编,未新增观点;专业术语如SHAP、λem等均按原文格式保留;去除了文献引用标识及图示标注)
生物通微信公众号
知名企业招聘