基于拉曼光谱技术结合机器学习诊断胰腺导管腺癌:开启精准医疗新篇章

【字体: 时间:2025年04月18日 来源:Scientific Reports 3.8

编辑推荐:

  胰腺癌的 5 年生存率极低,手术切除是重要治疗手段,但当前诊断方法难以区分肿瘤与炎症组织。研究人员开展 “拉曼光谱(RS)结合机器学习(ML)诊断胰腺导管腺癌(DA)” 的研究。结果显示,PCA+RFC 模型准确率高达~96%,该成果有助于提升胰腺癌诊断水平。

  在医学领域,癌症一直是威胁人类健康的重大难题,而胰腺导管腺癌(Pancreatic ductal adenocarcinoma,DA)更是其中的 “硬骨头”。它在全球癌症发病率中排第 12 位,可 5 年生存率却低至 4.2%。手术切除虽被视为减缓病情、提高生存率的有效方法,但在手术过程中,准确区分肿瘤组织和周围炎症组织成了一大挑战。传统的术中冰冻切片分析(Intraoperatice forzen - section analysis,IFSA)存在耗时久、组织切片质量差、诊断灵敏度低(仅约 33%)等问题;术中超声(Intraoperatice ultrasonography,IUS)虽成本低且安全,但对操作人员的技术要求高,视野范围小,难以检测深层组织的肿块;术中近红外(Intraoperatice near infrared,INIR)成像虽前景良好,却需要荧光探针,而这些探针存在量子产率不足、光漂白、与血浆蛋白亲和力高和易聚集等缺点。在这样的背景下,开发快速、精准的辅助诊断技术迫在眉睫。
来自意大利国家研究委员会生物物理研究所(CNR - IBF)、比萨大学医院等机构的研究人员,为了解决上述难题,开展了一项极具意义的研究。他们将共聚焦拉曼显微镜(Confocal Raman microscopy,CRM)与机器学习(Machine learning,ML)技术相结合,用于诊断胰腺导管腺癌。研究成果发表在《Scientific Reports》上,为胰腺癌的诊断开辟了新的道路。

研究人员主要运用了以下关键技术方法:首先,获取来自比萨大学普通外科的手术标本,经处理后制成石蜡切片。接着,使用 Horiba? Xplora Plus 共聚焦拉曼显微镜收集拉曼数据,设置激光功率、采集时间等参数,并将光谱区间限制在 400 - 。然后,对数据进行预处理,包括采用 SMOTE 算法平衡数据集、使用改进的多项式拟合算法去除荧光背景、运用 Savitzky - Gloay 滤波器去除高频噪声等。最后,运用线性判别分析(Linear discriminant analysis,LDA)、高斯朴素贝叶斯(Gaussian Naive - Bayes,GNB)和随机森林分类器(Random forest classifier,RFC)三种 ML 模型,并结合主成分分析(Principal component analysis,PCA)和光谱选择(SPectral SELection,SPSEL)两种降维技术进行分析。

定性解释拉曼光谱


研究人员对正常胰腺(Normal pancreas,N)、胰腺炎(Pancreatitis,P)和胰腺导管腺癌(DA)的平均拉曼光谱进行分析。发现波数大于 时,平均光谱重叠严重,难以区分不同组织;而在波数低于此阈值时,DA 与良性胰腺疾病(N 和 P)的拉曼信号强度差异明显。DA 在 424( 的对称伸缩振动)、476(多糖、直链淀粉、支链淀粉)、953(胆碱)和 (酰胺 III)等峰处的拉曼信号比 N 和 P 更强,这可能与癌细胞大量增殖、产生大量细胞物质有关。同时,DA 在 630(甘油或半胱氨酸)、695(反式(蛋氨酸))、760 和 (色氨酸)处的拉曼信号减弱,其中 处与蛋氨酸相关,可能与癌症组织中常见的 DNA 低甲基化现象有关。

PCA 的分类性能


研究人员运用 PCA 对预处理后的拉曼光谱数据进行降维,再分别用 LDA、GNB 和 RFC 进行分类。结果显示,GNB 的分类性能最差,可能是其假设特征呈正态分布且相互独立不成立,过拟合现象严重。RFC 表现最佳,当主成分数( )为 7 时,最大分类准确率达到(95.0 ± 1.8)%,且误差条窄,过拟合程度小。LDA 的分类性能介于 RFC 和 GNB 之间,当 为 7 时,准确率为(85.1 ± 3.0)% 。不过,RFC 的计算时间约为 12.0s,LDA 仅约 0.3s,RFC 计算复杂度更高。

SPSEL 的分类性能


研究人员采用 SPSEL 降维技术,将光谱范围划分为五个子区间(bins),用不同组合输入 ML 模型进行测试。结果再次表明,RFC 分类性能最佳,在 时,最大准确率可达~96%;GNB 最差。通过分析 LDA 的性能变化,发现小波数的光谱成分对区分不同组织更有潜力。进一步对 400 - 光谱范围进行 SPSEL 分析,确定 时,即 400 - 光谱区间,分类性能最佳,该区间包含与肿瘤恶性进展相关的化合物峰,如蛋氨酸,与 DNA 低甲基化有关。

研究结论表明,将 CRM 与 ML 技术相结合,尤其是结合 PCA 和 SPSEL 降维策略,在胰腺癌诊断方面展现出巨大潜力。RFC 在两种降维方法中均表现出色,分类准确率可达 95 - 96%,而 GNB 表现较差。SPSEL 虽计算时间略长,但能检测出与最大分类准确率对应的拉曼子带,有助于确定癌症生物标志物。不过,该技术仍需进一步完善,如增加感兴趣的类别,区分不同等级的 DA。未来可通过使用多个光谱作为输入或降低采集光谱的放大倍数等方法改进。这一研究成果对改善胰腺癌的诊断现状意义重大,有望应用于术中冰冻切片分析,为手术决策提供更及时、准确的依据,提升手术效率和患者预后。同时,也为开发用于术中诊断的工程化工具奠定了基础,推动体内诊断设备的发展,向实现实时临床应用迈进。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号