编辑推荐:
为解决现有癌症筛查技术局限性问题,福建医科大学附属协和医院的研究人员开展基于血清 SERS 光谱的多癌早期检测研究。结果显示该方法检测性能良好,能区分多种癌症与正常样本,为临床癌症筛查提供新思路,值得一读。
癌症,这个全球公共卫生领域的 “头号大敌”,近年来愈发猖獗。2020 年,全球预估有 1930 万新增癌症病例,1000 万人因癌症离世,数字之庞大令人触目惊心。不过大家也知道,要是能在癌症早期就发现,那治疗效果往往会好很多,患者的经济负担也能减轻不少。就像乳腺癌,通过乳腺钼靶筛查能尽早揪出癌细胞;结直肠癌可以借助结肠镜检查来提前发现;低剂量 CT 扫描则能为肺癌的早期诊断提供帮助。
可这些筛查方法都有个大问题,它们只能针对特定的癌症类型,对于多种癌症的同时检测就无能为力了。后来,液体活检技术出现了,像检测游离 DNA(cfDNA)、循环肿瘤 DNA(ctDNA)、蛋白质、代谢物以及细胞衍生的外泌体等,给多癌种早期筛查带来了新希望,能让更多患者在早期就被发现。但这些检测方法成本高,对实验室质量控制要求也特别严格,普通医院很难广泛开展。所以,开发一种既可靠、成本又低、操作还简单的早期癌症预测方法,成了医学领域亟待解决的难题。
为了攻克这个难题,福建医科大学附属协和医院的研究人员展开了一场科研大冒险。他们的研究成果发表在了《BMC Medicine》期刊上,论文题目是《A serum-based surface-enhanced Raman spectroscopy platform for multi-cancer early detection》。经过一系列研究,他们发现了一种基于血清表面增强拉曼光谱(SERS)的超有效的多癌早期检测方法,这就像是为癌症筛查找到了一把新的 “神奇钥匙”,说不定能给临床实践带来全新的思路。
研究人员在这场科研之旅中,用了好几个 “厉害武器”。首先是 SERS 技术,这就像是给拉曼光谱分析加上了一个 “放大镜”,用纳米级金属基底增强拉曼散射强度,能更敏锐地捕捉到血清里那些和癌症有关的 “蛛丝马迹”。然后是数据维度增强技术,通过热图变换和连续小波变换(CWT),把一维的光谱数据变成二维图像,这样就能更好地适应卷积神经网络(CNN)的 “胃口”,让分析更准确。还有深度学习算法,他们用了残差神经网络(ResNet),这种网络能解决梯度消失的问题,在图像分类任务中表现超棒。最后是可解释性分析方法,用类激活映射(CAM)来探究光谱数据分类背后的生物学意义,就像给神秘的神经网络决策过程 “开了一扇窗”,让大家能看个明白。
下面来看看他们都有哪些重要发现吧。
参与者的基线特征
从 2021 年 3 月到 2023 年 5 月,研究人员在福建医科大学附属协和医院找来了 3551 名 “小伙伴”,其中 1655 人是早期癌症患者,包括 569 例乳腺癌、513 例肺癌、220 例甲状腺癌、215 例结直肠癌、100 例胃癌和 38 例食管癌患者;另外 1896 人是健康对照组。这么多不同的 “角色” 参与进来,为研究提供了丰富的数据基础。
SERS 光谱分析
研究人员用银纳米颗粒(AgNPs)作为 SERS 检测的增强基底,收集到了 3551 份光谱。乍一看,健康对照组和各种癌症患者的 SERS 光谱峰值好像挺像的。但仔细一分析差异光谱,就发现不同组之间的特征峰和强度差别可大了。研究人员还发现了好多特征峰,像 454、494、592 cm?1 等,这些特征峰能代表脂质、蛋白质和核酸等特定成分,就像是癌症的 “特殊密码”,这表明 SERS 光谱分析在癌症早期筛查方面潜力巨大。
样本重采样
在研究中,癌症样本的分布不太均匀,这可难不倒研究人员,他们想到了样本重采样这个办法。把样本按照 7:3 的比例分成训练集和测试集,然后用 SMOTE、ADASYN、BorderlineSMOTE 等方法对训练集进行重采样,还引入了调制因子 γ。经过对比,发现 BorderlineSMOTE 效果最好,当 γ 设为 0.85 时,分类结果最理想,准确率达到 93.15%,模型在区分癌症患者和健康对照方面表现出色。
基于重采样模型的 DNN 分类
为了看看不同重采样方法和调制因子对分类结果有啥影响,研究人员用深度神经网络(DNN)进行验证。他们精心调整模型参数,像设置输入层节点数、隐藏层神经元数量和层数,设定学习率,用 Adam 算法优化,经过 1200 次训练,结果发现 BorderlineSMOTE 真的很厉害,用它重采样后,模型在不同癌症类型和健康对照的分类上都表现优异,计算出的健康对照组、乳腺癌患者等的曲线下面积(AUC)值都很高。
数据维度增强
传统的拉曼光谱数据是一维的,限制了分类算法的选择。研究人员就用热图变换和 CWT 两种方法,把一维光谱数据变成二维图像。热图变换就像是给光谱数据披上了一件彩色 “外衣”,根据光谱信号强度显示不同颜色;CWT 则像一个 “时间 - 频率探测器”,把信号分解,得到不同频率信息。这两种方法为后续分析提供了更多样的信息。
残差神经网络分析
研究人员用 ResNet 对生成的二维图像进行分析,调整模型参数进行 160 次训练。结果发现,ResNet 比 DNN 分类性能更好,热图形式的图像分类效果略胜一筹。ResNet 在区分不同类别时表现出色,计算出的健康对照组、乳腺癌患者等的 AUC 值都很可观,不同癌症类型的准确率、精确率、召回率和 F1 分数也都很不错。而且和其他神经网络模型相比,ResNet18 在分类任务中优势明显。
类激活映射的可解释性分析
虽然深度学习模型在分类上表现很棒,但它就像一个 “黑匣子”,让人不明白为什么会做出这样的预测。于是研究人员用 CAM 来分析光谱数据的可解释性。通过一系列操作,发现基于热图的 ResNet18 模型在 800 - 1000 cm?1 等波数范围的信号强度,以及基于 CWT 图像的 ResNet18 模型在 1400 - 1600 cm?1 等波数范围的信号频率,在不同癌症分类中起着关键作用,这为理解癌症分类的原理提供了重要线索。
在这次研究中,研究人员开发出了一种基于血清 SERS 光谱和人工智能分析的多癌早期检测方法。这个方法在大规模研究中表现出色,能很好地区分健康对照和多种早期癌症患者。和传统的癌症筛查方法相比,SERS 光谱技术有着独特的优势,虽然之前也有相关研究,但样本量小、癌症类型有限。这次研究样本量大、类型多,还用了重采样策略和深度学习算法,解决了不少之前的问题。不过研究也有一些不足,比如参与者都来自一家医院,部分癌症类型样本量较小,可解释性研究还有提升空间。但不管怎么说,这项研究为癌症早期筛查开辟了新方向,未来要是能扩大样本范围,结合更多生物学信息,说不定能让这个 “神奇钥匙” 发挥更大的作用,帮助更多人在癌症早期就发现问题,为人类对抗癌症带来新的希望。