基于自监督学习与骨架多样化的分子最大吸收波长预测中数据不平衡问题的缓解策略

【字体: 时间:2025年09月28日 来源:Dyes and Pigments 4.2

编辑推荐:

  本综述系统探讨了利用自监督学习模型Uni-Mol和骨架多样性策略缓解近红外吸收染料(NIR Dyes)最大吸收波长(λmax)预测中数据严重不平衡的问题。通过构建NIRExDs数据集并引入误差驱动的数据优化流程,显著提升了模型在NIR-II区域(长尾分布区域)的预测精度,为光热治疗与生物成像染料的理性设计提供了新范式。

  
数据收集、分析与拆分
对七大开源数据集的统计分析显示,近红外染料样本极为稀缺。除SMFluol外,六个数据集中NIR-I区域染料占比不足3%,NIR-II区域染料几乎空白(图2a,表S1)。为应对这一挑战,我们筛选并整合了四个涵盖较多NIR染料的数据集。经过数据清洗(详见补充文本),共汇总20,889个染料样本(表S2),其中仅有3.16%(661个)属于NIR-I区域,0.15%(32个)属于NIR-II区域。
结论
本研究通过系统整合现有开源数据集并结合大规模文献挖掘,构建了NIRExDs数据集。自监督学习模型Uni-Mol在λmax预测中表现卓越,显著优于现有监督模型,尤其在长尾分布的NIR-II区域效果突出。进一步通过模型误差驱动的闭环分子骨架多样化策略,提升了数据集的代表性与模型泛化能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号