《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:Integrated LIBS–Raman spectroscopy coupled with explainable machine learning for biochemical characterization of melanoma
编辑推荐:
LIBS和Raman光谱结合ELM模型实现FFPE组织良恶性鉴别,通过SHAP分析揭示钾(766/769 nm)、钙(422 nm)及酰胺(3164 cm?1)、脂质/碳水化合物(1163 cm?1)等关键生化特征。
Muhammad Nouman Khan|周青松|郭家庆|刘立伟|胡瑞
深圳市大学射频异构集成国家重点实验室,物理与光电工程学院,教育部与广东省光电器件与系统重点实验室,中国深圳市518060
摘要
黑色素瘤仍然是最具侵袭性和致命性的皮肤恶性肿瘤之一,这凸显了需要客观且无标记的诊断方法来补充传统的组织病理学。在本研究中,联合应用了激光诱导击穿光谱(LIBS)和拉曼光谱来表征经福尔马林固定、石蜡包埋(FFPE)的黑色素瘤和正常人体组织,并使用极值学习机(ELM)在五种激活函数下对所得光谱进行了建模。通过SHapley Additive exPlanations(SHAP)分析实现了模型的可解释性。在测试的激活函数中,LIBS的平均测试准确率为92.43%(使用sine函数),拉曼光谱为74.41%(使用sigmoid函数),而在分层光谱交叉验证下,特征级融合使用sigmoid函数时平均测试准确率为77.88%。SHAP分析显示,LIBS中的K(约766/769 nm)和Ca(约422 nm)发射线以及拉曼光谱中的约3164和约1163 cm?1带是主要的鉴别特征,这些特征分别与离子失衡、钙信号调节紊乱以及蛋白质构象变化(酰胺A/N–H伸缩)和蛋白质-脂质相关的C–C/C–N振动改变相关,这些都是黑色素瘤进展的特征。这些结果建立了一个将光谱特征与生化机制联系起来的连贯且可解释的框架,并展示了紧凑、多模态和基于机制的光学诊断技术在精确、透明癌症评估中的潜力。
引言
黑色素瘤是最具侵袭性和致命性的皮肤癌形式之一,其发病率在全球范围内持续上升[1]、[2]。环境紫外线暴露、臭氧层破坏和人工晒黑被认为是其风险因素[3]、[4]。尽管皮肤镜检查和组织病理学仍然是诊断标准,但它们依赖于主观解释和侵入性采样[5]、[6]。新的光学方法如反射共聚焦显微镜(RCM)和光学相干断层扫描提供了非侵入性的见解,但受到分辨率和穿透深度的限制[7]、[8]。这些挑战凸显了需要能够量化与恶性肿瘤相关的生化改变的客观、无标记技术的需求。
在光学方法中,拉曼光谱和激光诱导击穿光谱(LIBS)已成为强大的互补工具。拉曼光谱探测分子振动,从而揭示与蛋白质、脂质和核酸相关的生化特征,而LIBS通过激光诱导的等离子体发射来检测离子和元素组成[9]、[10]、[11]、[12]。单独来看,这两种方法都显示出强大的诊断潜力,最近的研究表明,结合它们的正交对比(分子与元素)可以显著提高组织分类的准确性[13]、[14]。在经福尔马林固定、石蜡包埋(FFPE)的组织中,拉曼光谱主要捕获结构分子信息,而LIBS量化受代谢失衡影响的元素和离子含量,提供了更完整的肿瘤进展生化谱型[15]、[16]。
然而,LIBS和拉曼光谱都会产生高维光谱,其中包含重叠的峰,使得手动或基于规则的解释变得困难。因此,机器学习(ML)算法对于从复杂的光谱数据中提取潜在的诊断模式变得至关重要[17]、[18]。然而,传统的ML模型如支持向量机或深度神经网络要么需要大量的超参数调整,要么需要大型数据集,而这在生物医学光谱学中很少具备。为了克服这些限制,极值学习机(ELM)因其计算效率和分析可行性之间的独特结合而受到关注[19]、[20]、[21]。作为一种单隐藏层前馈网络,ELM具有随机初始化的隐藏参数和解析求解的输出权重,避免了迭代优化,同时保持了强大的泛化能力,这对于小样本、高维光谱数据集来说是理想的属性[22]。
ELM设计中的一个关键但经常被忽视的组成部分是激活函数(AF),它决定了隐藏层内如何捕获非线性光谱关系[23]。这些激活函数,即sigmoid、sine、triangular、hard-limit和radial basis,引入了不同的非线性映射,从而影响了ELM捕获光谱的方式。具体来说,sigmoid提供连续且平滑的响应,sine模型连续的振荡模式,triangular实现分段线性映射,hard-limit施加不连续的阈值,而radial basis函数(RBF)充当局部核。这些差异直接影响模型的表达能力、泛化能力和在训练和测试数据之间的稳定性,因此仔细选择激活函数对于准确的光谱分类至关重要。尽管ELM很受欢迎,但在光学光谱学背景下,特别是对于黑色素瘤分类,系统评估AF选择的工作仍然有限。理解AF选择如何影响光谱学习不仅提供了方法论上的见解,也为设计可解释的光谱模型提供了实际指导。
同样重要的是模型的可解释性,这是临床应用的前提。虽然ML模型可以实现高准确性,但它们的决策逻辑往往不透明,限制了其在生物医学诊断中的应用。为了弥合这一差距,SHapley Additive exPlanations(SHAP)提供了一个原理性的框架,用于量化每个特征对最终预测的贡献[25]、[26]。通过将模型输出分解为加性特征属性,SHAP将计算推理与物理上有意义的光谱变量联系起来,使得机器学习结果能够进行生化解释。当应用于LIBS和拉曼光谱时,SHAP可以揭示哪些元素线和振动带最具诊断性,从而在光学信号和分子机制之间建立了透明的联系。
在这项工作中,我们将LIBS和拉曼光谱与一个可解释的ELM分类器结合起来,以区分黑色素瘤和正常的FFPE组织。系统地比较了五种激活函数:sigmoid、sine、triangular、hard-limit和radial basis,以评估它们对分类性能和光谱表示的影响。使用SHAP分析来解释每种模式下的特征重要性,识别出支持诊断分离的元素和振动标记。在相同的训练/测试划分下,sigmoid激活函数取得了最平衡的性能。SHAP提供的可解释性一致地突出了接近766–769 nm的钾线和接近3164和1163 cm?1的拉曼带是最具信息量的特征,这与黑色素瘤中报告的离子稳态改变、蛋白质氢键/二级结构以及脂质/碳水化合物代谢的改变相一致。总体而言,这项研究建立了一个连贯且可解释的框架,整合了多模态光谱学和机器学习,用于透明的、基于机制的黑色素瘤诊断。
部分内容
组织样本
FFPE黑色素瘤和正常人体组织切片是通过商业途径获得的,并获得了伦理批准。FFPE黑色素瘤通常包含恶性细胞,以及由细胞外基质(ECM)、间质细胞和炎症细胞、坏死区域、色素颗粒(黑色素)和血管组成的微环境;其组成随阶段和厚度而变化。总共分析了20个黑色素瘤和20个正常FFPE切片。对于每个切片,在随机选定的位置收集了10个光谱,
LIBS和拉曼的光谱特征
我们首先检查了黑色素瘤与正常FFPE组织的原始光谱特征。LIBS光谱覆盖了大约190–1100 nm的范围,显示出两组之间一致的元素差异。在黑色素瘤组织中,766和769 nm附近的钾双线显示出相对于正常组织的显著增加,同时观察到钙(例如Ca I 422 nm)以及磷和钠线的信号增强;镁在黑色素瘤中的水平也较高
讨论
结果表明,LIBS和拉曼光谱捕获了互补且足够不同的生化信息,从而能够实现黑色素瘤和正常FFPE组织的准确、无标记分类[31]、[32]。尽管存在峰值重叠和样本间变异性,轻量级的极值学习机(ELM)仍然实现了高区分度,证实了浅层架构可以在不需要大量优化的情况下有效利用信息丰富的光谱方差。
结论
本研究表明,将激光诱导击穿光谱(LIBS)和拉曼光谱与可解释的极值学习机(ELM)框架相结合,可以实现黑色素瘤和正常FFPE组织的准确、无标记分类。在多种激活函数中,sigmoid非线性在模拟微妙、连续的光谱变化方面提供了最平衡的能力,而LIBS和拉曼数据在特征级别的融合进一步增强了可分离性
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
本工作部分得到了中国国家重点研发计划(2024YFE0215700)、国家自然科学基金(62225505/62175163/62127819/62475165/T2421003)、深圳人才创新项目(RCJC20210706091949022)的支持。作者还感谢Asif Khalid博士在修订本手稿期间提供的宝贵讨论和深刻建议。