《Microchemical Journal》:Few-shot learning of Raman spectra via Gramian Angular Field imaging and augmentation for robust biofluid detection
编辑推荐:
拉曼光谱通过跨模态学习框架实现小样本生物检测,采用GADF变换将一维光谱转为二维图像,结合亮度与对比度增强扩展数据集,利用CNN进行特征提取和分类,在140个有机分子和80种氨基酸数据集上达到近完美分类精度,并在含有人类血清复杂背景中成功检测低浓度甘氨酸,为临床诊断提供通用解决方案。
李可青|谢泽中|杨慕慈|谢芳燕|李功|李世杰|胡宇文|杨浩|陈健
中山大学化学学院,中国广州510725
摘要
拉曼光谱在生物医学检测中具有巨大潜力;然而,其机器学习模型的鲁棒性和泛化能力受到有限样本量和复杂生物背景的严重限制。为了解决这一少样本学习挑战,本研究提出了一种新颖的跨模态学习框架。我们引入了格拉姆角差场(GADF)变换,将一维拉曼光谱编码为二维图像,有效保留了拉曼位移的依赖性。随后,我们对GADF图像采用基于图像的数据增强技术(特别是亮度和对比度增强)来人工扩展小数据集并防止过拟合。增强后的图像被输入卷积神经网络(CNN)进行特征提取和分类。我们的方法在两个小规模数据集上实现了近乎完美的分类准确率:一个包含7种有机分子的140个光谱的自收集数据集,以及一个包含4种氨基酸的80个光谱的公共数据集。更重要的是,在使用人血清作为复杂背景的盲测中,该模型成功检测出了不同浓度的甘氨酸,证明了其在生物流体检测中的卓越鲁棒性。这项工作为拉曼光谱中的少样本学习提供了一种强大且通用的策略,为其在临床诊断和生物流体分析中的实际应用铺平了道路。
引言
拉曼光谱作为一种强大且多用途的分析技术,能够基于光的非弹性散射提供无损的、无标记的分子“指纹”信息[1]、[2]。这种高化学特异性使得可以直接在其天然环境中识别和表征各种生物分子[1]、[3]、[4]。因此,它在生物医学检测中具有巨大的应用潜力,包括疾病的早期诊断(例如癌症和神经退行性疾病[5]、[6]、[7]、[8])、病原体的快速筛查[9]、[10]、[11],以及代谢活动的实时监测[12]、[13]。其特别显著的优势在于能够以最小的样本准备处理复杂的生物流体(如血清、尿液和唾液)[14]、[15]。这一能力使拉曼光谱成为开发快速、即时诊断平台的理想候选技术,可能彻底改变临床实践。然而,将这一巨大潜力转化为稳健可靠的实用应用面临诸多挑战。
为了利用这一潜力,机器学习——特别是深度学习——已成为解释复杂光谱模式和实现自动化、高精度分类不可或缺的工具[2]、[16]、[17]、[18]、[19]、[20]。然而,其在生物医学拉曼光谱中的有效应用面临两大障碍。首先是小样本量的持续挑战:由于样本收集的实际和伦理限制,临床拉曼数据集通常每个类别只有几十到几百个光谱[14]、[21]。如此有限的数据容易导致深度模型过拟合,使它们记住的是光谱噪声而非学习到可泛化的生化特征[22]。其次,生物流体的固有复杂性引入了强烈的背景干扰,蛋白质、脂质和其他基质成分的信号会掩盖目标分析物的微妙拉曼特征[23]。这种高噪声环境要求模型具有极高的鲁棒性,这形成了一个双重挑战:学习者必须从少量样本中泛化,同时应对主导的干扰信号——这是传统方法经常失败的情况。
为了解决这些挑战,研究人员采用了各种策略,但每种方法都有其显著局限性。传统的解决小样本量问题的方法通常依赖于一维数据增强技术,包括添加随机高斯噪声、引入基线漂移或随机缩放光谱强度[5]、[22]、[24]。然而,这些一维扰动在生成有意义的数据多样性方面存在根本性局限[22]、[24]、[25]。更严重的是,这些操作可能会扭曲或破坏拉曼光谱中编码的固有物理化学信息,因为它们无法保留相邻拉曼位移之间的相关性[5]、[25]。其他方法,如简化模型架构以减少参数数量,不可避免地会削弱模型的表达能力和捕捉微妙但具有区分性的光谱模式的能力[22]、[25]。同时,迁移学习方法面临领域偏移的持续挑战,源领域数据(例如自然图像或来自不同仪器的光谱)和目标领域应用(例如特定生物流体分析[24])之间的根本差异可能导致预训练特征无效甚至对性能产生负面影响[26]、[27]、[28]、[29]。因此,迫切需要一种新的范式,能够在保持对生物医学样本复杂背景干扰的鲁棒性的同时,有效增强模型的泛化能力。
为了克服这些限制,我们提出了一种范式转变的跨模态图像学习框架,从根本上将一维拉曼光谱分析重新定义为二维图像识别任务。我们的方法引入了三项关键创新:首先,我们实现了格拉姆角差场(GADF)变换,将一维光谱信号编码为二维图像[5]、[7]、[9]、[16]。这种变换 crucially 保留了沿拉曼位移维度的基本依赖性,从而在生成的图像结构中保持了完整的“形状”和分子“指纹”信息。其次,转换为图像域后,我们利用成熟的计算机视觉增强技术,包括复杂的亮度和对比度调整[5]、[7]、[9]。与传统的单维增强相比,这些图像空间变换在特征空间生成了更加丰富和多样的训练样本,从根本上解决了小样本过拟合问题,并提供了更直接的实现方式。第三,增强后的GADF图像通过端到端的卷积神经网络(CNN)进行处理,该网络直接从图像表示中自动学习具有区分性的特征,用于最终分类[5]、[7]、[9]、[25]。这种集成的“光谱到图像到增强到分类”的流程为少样本拉曼光谱分析提供了一种新颖且强大的解决方案,有效解决了数据稀缺和背景干扰问题。
在这项工作中,我们提出了一种新颖的跨模态学习框架,有效解决了拉曼光谱中少样本学习和生物流体干扰的关键挑战。我们提出了GADF-Enhance-Network,它首次将格拉姆角差场图像编码与基于图像的数据增强相结合,将光谱分析转变为一个稳健的图像识别任务[7]、[9]、[16]。该框架在两个有限的数据集上进行了严格验证——一个包含140个有机分子光谱的自收集数据集和一个包含80个氨基酸光谱的公共数据集——其准确率显著高于传统方法[7]、[9]、[22]、[25]。此外,我们通过成功检测人血清背景中的氨基酸证明了其出色的鲁棒性,证实了其在临床应用中的可行性[5]、[10]、[12]。在不同仪器和目标分析物上的一致高性能证明了我们的方法是一种通用且通用的实际拉曼光谱应用解决方案[8]、[27]、[28]、[31]。
GADF-Enhance-Network的整体框架
所提出的GADF-Enhance-Network的整体架构如图1所示,它通过将一维光谱分类转换为二维图像识别任务,建立了一个端到端的流程,用于少样本拉曼光谱分析。该框架通过三个紧密连接的阶段运作:最初,GADF图像编码模块将输入光谱转换为结构化的2D图像,通过格拉姆角差场变换保留光谱依赖性。
结果
为了评估我们算法性能提升的真实性,我们进一步设计了GADF-Enhance CNN模型与基于原始泛化验证的基线模型之间的比较实验。基线模型定义为使用一维数据增强方法(包括小窗口平滑、随机峰值增强和高斯噪声添加)训练的1D-CNN、SVM和RF模型。我们展示了性能差异
GADF-Enhance Network性能背后的核心机制
所提出框架的卓越性能源于拉曼光谱的固有特征与卷积神经网络学习行为之间的结构对齐。消融实验直接提供了格拉姆角差场(GADF)变换中心作用的定量证据。移除GADF模块后,分类准确率从98.5%急剧下降到85.6%,相应的独立性能提升为
结论
本研究介绍了GADF-Enhance-Network,这是一种跨模态学习框架,它将一维拉曼光谱分类重新定义为二维图像识别问题,以解决少样本学习和复杂生物流体干扰问题。通过集成基于GADF的结构化编码、物理上有意义的图像增强和定制的CNN,该框架在两个小规模数据集上实现了近乎完美的准确率,并可靠地检测了人血清中的低浓度甘氨酸
CRediT作者贡献声明
李可青:撰写——原始草稿,软件。
谢泽中:方法论,研究。
杨慕慈:数据管理。
谢芳燕:监督,资金获取。
李功:验证,研究。
李世杰:验证,研究。
胡宇文:数据管理,概念化。
杨浩:撰写——审阅与编辑,撰写——原始草稿,数据管理。
陈健:监督,资源,资金获取。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争财务利益或个人关系。
致谢
本工作得到了中国自然科学基金(51973244, 22369002)的支持。