
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于掩码自编码器的拉曼光谱自监督学习方法:特征提取与降噪性能研究
【字体: 大 中 小 】 时间:2025年06月18日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对拉曼光谱标注成本高、数据维度高且信噪比低的问题,研究人员提出基于掩码自编码器(SMAE)的自监督学习范式。通过随机掩码重构光谱信号,模型在无标注预训练中学习关键特征,信噪比提升超2倍;经少量标注微调后,对30类病原菌聚类准确率超80%,识别精度达83.90%,媲美监督学习ResNet。该研究为无标注光谱分析提供了新工具,拓展了化学信息挖掘潜力。
拉曼光谱技术凭借其非破坏性、免标记的优势,已成为物质化学信息分析的重要工具,尤其在病原菌快速检测和临床诊断中展现出巨大潜力。然而,实际应用中存在三大瓶颈:极弱的光信号导致信噪比(SNR)低下、数千维的高维数据特征难以解析,以及依赖大量标注数据的监督学习模型面临标注成本高昂的困境。传统无监督方法如主成分分析(PCA)和t-SNE在应对高维噪声数据时性能有限,而现有自监督方法如添加高斯噪声的策略又难以控制干扰强度。如何从海量无标注光谱中提取有效特征,成为亟待突破的科学难题。
上海海事大学的研究团队在《Expert Systems with Applications》发表的研究中,创新性地将掩码自编码器(Masked Autoencoder, MAE)引入拉曼光谱分析,提出SMAE模型。该模型通过随机掩码75%光谱区域并强制模型重构完整信号的自监督预训练,使编码器学会捕捉光谱的本质特征。预训练后的模型展现出惊人的双重能力:不仅将原始光谱信噪比提升2倍以上,仅用少量标注微调即在病原菌数据集上实现83.90%的识别准确率,超越经典无监督方法并与监督学习标杆ResNet(83.40%)相当。
关键技术方法包括:1)采用随机掩码策略构建自监督预训练任务;2)基于Transformer架构的编码器-解码器设计;3)在Bacteria-ID数据集(含30类分离菌株)上验证;4)通过谱线重构质量评估特征提取能力;5)结合K-means和深度聚类(DeepCluster)评估无监督分类性能。
【Spectral Reconstruction and Denoising】
通过对比原始光谱、掩码输入及重构输出发现,SMAE能准确恢复被掩码的特征峰位置与强度,尤其对800-1200 cm-1
区间的细菌特征标志物(如核酸和蛋白质振动峰)重构效果显著。定量分析显示重构光谱SNR从原始4.2dB提升至9.1dB,证实模型具有智能降噪能力。
【Clustering Performance】
在无监督设置下,SMAE预训练权重结合K-means对30类病原菌的聚类准确率达80.3%,较传统PCA+K-means(52.1%)提升54%,且优于当前最优深度聚类方法RamanCluster(76.8%)。特征可视化显示,SMAE提取的低维表征能清晰区分甲氧西林耐药菌株与敏感菌株。
【Fine-tuning with Limited Labels】
仅用10%标注数据微调全连接层后,模型在独立测试集上达到83.90%的识别准确率,逼近使用100%标注训练的ResNet。值得注意的是,在模拟标注稀缺场景(5%训练数据)下,SMAE仍保持78.2%准确率,显著高于监督学习的65.4%。
该研究开创性地证明了自监督学习在光谱分析中的三大价值:首先,突破标注依赖瓶颈,使模型能从无标注数据中自主发现化学信息;其次,重构任务诱导的降噪特性有效缓解了拉曼信号微弱的核心痛点;更重要的是,SMAE的通用框架可扩展至近红外光谱(NIR)和核磁共振(NMR)等领域。正如作者指出,这种方法有望推动癌症研究从"已知类别识别"向"未知特征发现"跨越,为个性化医疗提供新范式。未来工作可探索多模态预训练,进一步挖掘光谱与基因组学、代谢组学的潜在关联。
生物通微信公众号
知名企业招聘