利用机器学习和表面增强拉曼光谱液体活检技术对糖尿病进行临床诊断:一项探索性研究
《Nanoscale Advances》:Clinical diagnosis of diabetes using machine learning and surface-enhanced Raman spectroscopy liquid biopsy: an exploratory study
【字体:
大
中
小
】
时间:2025年10月30日
来源:Nanoscale Advances 4.6
编辑推荐:
糖尿病早期诊断面临传统方法灵敏度不足的问题,本研究创新性地将无标记表面增强拉曼光谱(SERS)与机器学习(ML)结合,利用金纳米颗粒(AuNPs)对血清样本进行非侵入性分析。通过SMOTE数据增强技术平衡样本量(10健康 vs 42糖尿病),并评估KNN、ANN、SVM和QDA四种ML模型性能。结果显示,KNN模型在数据增强后对健康组(96%)和糖尿病组(94%)的分类准确率均显著提升,优于传统检测方法。该技术为液体活检提供了高灵敏度、低成本的糖尿病诊断新方案。
糖尿病作为全球范围内日益严重的健康问题,其影响正持续扩大,凸显了早期和准确诊断的重要性,以防止严重的并发症。然而,传统的诊断方法,如糖化血红蛋白(HbA1c)检测和口服葡萄糖耐量试验(OGTT),往往在检测疾病早期阶段时缺乏足够的灵敏度和特异性。因此,本研究提出了一种有前景的替代方案——无标记的表面增强拉曼光谱(SERS),该技术能够实现快速、无创的液态样本生化分析。通过使用金纳米颗粒(AuNPs)作为SERS的基底,我们对临床血清样本进行了无标记的SERS检测,以实现糖尿病的诊断。由于无标记SERS在分析生物样本时会产生复杂的光谱数据,我们开发了一套专门针对临床样本的机器学习流程,结合合成数据增强技术,以提升诊断的准确性。该方法在健康组和糖尿病组的分类准确率分别达到了96%和94%。研究结果表明,将无标记SERS与机器学习模型相结合,能够实现高效、准确的糖尿病诊断,通过液态活检(liquid biopsy)的方式提供了一种强大的工具,有望在全球范围内提高检测能力,从而改善患者的健康结局。
随着全球人口老龄化和生活方式的改变,糖尿病的患病率正在迅速上升。据估计,到2021年,全球20至79岁人群中已有5.37亿人患有糖尿病,预计到2045年这一数字将增加到7.83亿。长期的高血糖状态会对多个器官造成损害,如眼睛、肾脏和心脏等。糖尿病通常被分为1型和2型,前者由于自身免疫导致β细胞破坏,通常表现为完全缺乏胰岛素,而后者则与β细胞胰岛素分泌逐渐下降有关,常伴随胰岛素抵抗现象。因此,早期诊断在预防糖尿病引发的慢性并发症方面具有关键意义,如心血管疾病、肾衰竭和视网膜病变等,这些并发症可能导致残疾或过早死亡。
然而,目前常用的HbA1c和空腹血糖(FPG)检测方法虽然能够反映血糖水平,但其在诊断上的灵敏度和特异性仍存在局限。例如,HbA1c和FPG检测的灵敏度在某些患者群体中可能低于60%。此外,这些方法在检测糖尿病早期阶段时也显得不够理想。因此,需要开发一种新的诊断方法,以实现更高的灵敏度和特异性,同时具备成本低、操作简便和快速诊断的优势。
拉曼光谱作为一种非侵入性的分析技术,能够提供关于生物分子结构和成分的详细信息。它通过检测分子的拉曼指纹来识别样本中的化学成分,已在分析生物材料,如血浆样本等方面得到广泛应用。然而,传统的拉曼光谱技术依赖于光子的非弹性散射,这一过程效率较低,导致信号强度较弱,灵敏度不高。为了提高拉曼信号的强度,通常将样本置于等离子体材料的近场区域,从而实现信号增强。例如,金纳米颗粒能够通过其表面增强效应,将分子的拉曼信号强度提高数亿倍,这种方法被称为表面增强拉曼光谱(SERS)。SERS可以实现皮克摩尔(picomolar)甚至单分子级别的检测能力,因其快速、非侵入性和高灵敏度,被广泛用于环境、化学、制药和医学样本的分析。然而,无标记的SERS方法虽然具有快速和低成本的优势,但会产生复杂的光谱数据,这些数据在分析具有复杂成分的样本时,如液态活检样本,难以区分和解释。此外,大多数无标记SERS方法依赖于通过纳米加工技术获得的高精度金基底,这提高了测量的可靠性,但也限制了其在大规模应用中的可行性。尽管使用胶体金纳米颗粒(colloidal AuNPs)可以实现SERS检测,但其信号强度较低,给复杂样本的分类带来了挑战。
因此,开发能够从无标记SERS检测中提取可靠诊断信息的方法具有重要意义,因为胶体金纳米颗粒可以通过单步合成方法(one-pot synthesis)轻松制备,即使在资源有限的环境中也能实现。本研究通过将无标记SERS与机器学习模型结合,展示了这一技术在糖尿病诊断中的潜力。
在实验部分,我们首先通过Turkevich方法合成了金纳米颗粒。该方法是一种常用的制备胶体金的方法,通过化学还原金盐并使用柠檬酸作为还原剂和稳定剂。首先,将金盐(HAuCl?)溶解在去离子水中,制备成1 mM的溶液。随后,将柠檬酸溶解在去离子水中,作为还原和稳定试剂。这两种溶液被加热至100°C后,在磁力搅拌下混合。随着反应的进行,溶液的颜色由浅黄色逐渐变为深红色,表明金纳米颗粒已经成功形成。反应结束后,停止加热和搅拌,让溶液冷却至室温,并将其保存在4°C的环境中,以备后续使用。
为了进一步确认金纳米颗粒的性质,我们使用了透射电子显微镜(TEM)进行表征。首先,将合成的金纳米颗粒离心处理,并重新悬浮于去离子水中。然后,将该溶液滴加在200目碳涂层铜网上,使其在室温下自然干燥后,使用高千伏(100 kV)的TEM系统进行分析。此外,我们还使用了能量色散X射线光谱(EDS)来确认金纳米颗粒的成分,并通过微孔板读数仪评估其光学特性。这些表征手段确认了金纳米颗粒的尺寸、形态和化学成分,为后续的SERS分析提供了可靠的基础。
随后,我们收集了52份血清样本,其中包含10份来自健康个体的样本和42份来自确诊糖尿病患者的样本。这些样本来自巴基斯坦的Nishtar医学大学。为了确保样本的代表性,我们对所有样本进行了过滤处理,使用100 kDa的过滤装置去除低分子量的生物分子,因为糖尿病相关的潜在生物标志物通常具有较低的分子量。过滤后的血清样本与金纳米颗粒在4°C下混合30分钟,以确保均匀分布。混合后的样本被沉积在铝基底上,使用拉曼光谱仪记录其光谱数据。每个样本记录了15份光谱,以提高光谱的代表性和信噪比。
在数据预处理阶段,我们使用MATLAB R2023a软件结合标准化学计量学方法对原始SERS数据进行处理。预处理步骤包括去除铝基底信号、基线校正、数据向量标准化以及通过Savitzky–Golay滤波进行平滑处理。滤波参数设置为17阶多项式和14点窗口宽度,以提高光谱数据的质量。这些预处理步骤为后续的多变量分析和机器学习模型训练奠定了基础。
在多变量数据分析中,我们采用了主成分分析(PCA)来识别健康与糖尿病样本之间的光谱差异。PCA是一种统计方法,能够将大量相关变量转换为少数不相关的主成分,从而简化数据分析。通过对SERS数据进行PCA分析,我们发现健康样本与糖尿病样本在主成分空间中具有一定的分离性。其中,第一主成分(PC-1)解释了40.4%的总方差,第二主成分(PC-2)解释了14.4%的总方差。因此,PC-1在区分样本方面起到了关键作用。在分析过程中,我们观察到健康样本在PC-1轴上的值普遍高于0.15,而75%的糖尿病样本值低于该水平。然而,仍有25%的糖尿病样本在PC-1轴上与健康样本部分重叠,这可能与血清的变异性有关,如饮食、血糖水平和糖尿病的程度。
为了进一步理解健康与糖尿病样本之间的差异,我们分析了PCA载荷图。载荷图显示了健康与糖尿病样本在主成分空间中的分布差异,尤其是在PC-1轴上。例如,448 cm?1和720 cm?1的峰表现出显著的变化,这些峰通常与胆固醇和核酸相关。通过PCA得分分析,我们发现尽管健康与糖尿病样本在PC-1轴上存在部分重叠,但它们在统计上具有显著差异,且效应大小(Cohen's d)超过1.4,p值小于0.001。这些差异足以在PCA坐标下区分两类样本,但若仅依赖PCA进行诊断,可能在灵敏度和特异性方面受到限制。
为了进一步提高SERS在糖尿病诊断中的准确性,我们探索了机器学习模型的应用。我们选择了四种常见的机器学习模型,包括K近邻(KNN)、人工神经网络(ANN)、支持向量机(SVM)和二次判别分析(QDA)。在模型评估中,我们随机选取了80%的数据用于训练,剩余20%用于测试。为了避免数据泄露,我们在数据分割时确保测试集不参与训练,从而保持评估的公正性。同时,我们仅使用训练数据计算归一化参数,并将其应用于训练和测试集,以确保模型的评估不受偏倚影响。为了提高模型的稳定性,我们采用了5折交叉验证(5-fold cross-validation)来平均结果,从而提供更可靠的模型性能估计。由于我们的样本池存在类别不平衡的问题(糖尿病样本数量远多于健康样本),我们还引入了合成少数过采样技术(SMOTE),以平衡数据集。通过在交叉验证的每个折叠中仅对训练数据进行SMOTE增强,我们确保了测试集(真实数据)不受任何干扰,从而评估模型的真实泛化能力。最终,我们生成了480个合成健康样本,以匹配糖尿病样本的数量。
在没有合成数据的情况下,KNN模型在接收者操作特征(ROC)曲线中的曲线下面积(AUC)值为0.93,这是所有模型中最高的,表明其具有良好的分类性能。相比之下,ANN、QDA和SVM的AUC值分别为0.84、0.89和0.51,这些结果表明不同模型的性能存在显著差异,其中SVM在处理不平衡数据集时表现较差。进一步分析模型的性能指标,包括准确率、精确率、灵敏度和F1分数,KNN在所有四个指标中均表现出色,其值范围在0.76至0.93之间。有趣的是,尽管ANN的AUC值较高,但其性能指标却最低,值范围在0.48至0.50之间。这表明ANN在处理不平衡数据时可能出现了分类偏差,尤其是在对少数类(健康样本)的识别上表现不佳。QDA的性能指标较好,其值在0.75至0.85之间,与较高的AUC值一致。而SVM虽然在某些指标上表现较好,但其准确率和精确率较低,仅F1分数较高,达到0.94。通过引入SMOTE生成的合成数据,所有模型的性能均有所提升,其中KNN表现最佳,其AUC值达到0.97。此外,SMOTE的使用显著缩小了所有模型的95%置信区间(Table S2),表明其提高了模型的稳定性和泛化能力。KNN模型在所有性能指标中均表现最佳,尽管在引入合成数据后,其对健康样本的准确率提升至96%,而对糖尿病样本的准确率略有下降至94%,但整体诊断性能得到了显著改善。这些结果优于传统的金标准方法,如HbA1c和空腹血糖检测,通常这些方法的灵敏度可达80%,AUC值在0.80至0.92之间。
尽管其他模型也表现出相似的趋势,但它们的准确率始终低于KNN。此外,ANN在没有合成数据的情况下表现出较强的总体判别能力(AUC为0.84),但在混淆矩阵中显示出较差的类别特异性,如真阴性率(TNR)和真阳性率(TPR)分别为0.54和0.48。这一矛盾反映了AUC与混淆矩阵之间的差异,前者是阈值无关的,而后者依赖于具体的阈值设定。这表明虽然模型能够在不同阈值下有效区分类别,但所采用的阈值可能不够理想,从而限制了其分类性能。然而,本研究受限于样本数量较少,这可能影响预测模型的稳健性。因此,这些发现应被视为探索性的,并且需要在更大的患者群体中进行研究,以评估该方法的普适性和推广价值。
综合来看,SERS与机器学习模型的结合在糖尿病诊断中展现出较高的准确性(超过94%)。其中,KNN模型在所有性能指标中表现最佳。此外,通过引入SMOTE生成的合成数据,所有模型的性能均得到提升,尤其是在提高少数类(健康样本)的分类准确率方面。这表明,针对类别不平衡问题进行数据增强,对于提升诊断模型的性能具有重要意义。因此,SERS与机器学习的结合,特别是在使用合成数据增强的情况下,为糖尿病及其他代谢疾病的快速、无创诊断提供了新的可能性。未来的研究应进一步扩大样本规模,以验证该方法的可靠性和有效性,并探索其在更广泛临床场景中的应用潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号