《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:A rapid diagnostic approach for COPD utilizing multimodal serum spectra integrated with machine learning algorithms
编辑推荐:
血清荧光、拉曼及表面增强拉曼光谱联合机器学习算法对慢性阻塞性肺疾病、非COPD肺感染及健康人群的分类研究,发现SERS结合SMOTE-GB算法在三类分类中准确率达0.84,二分类超过0.98,光谱技术联合机器学习可提升COPD诊断效率。
方子怡|郑向翔|龚毅伟|赵慧|纳扎卡基·西马伊利|吴布拉提阿利夫·达武提|毕晓娟|林仁勇|吕国东
中国新疆医科大学第一附属医院临床医学研究所,中亚高发疾病发病机制、预防与治疗国家重点实验室,乌鲁木齐830054
摘要
慢性阻塞性肺疾病(COPD)是一种导致死亡和残疾的全球主要呼吸系统疾病。传统检测方法缺乏统一的标准,常常漏诊,并且无法探究疾病的分子机制。因此,需要一种高效便捷的诊断方法。本研究旨在评估利用血清荧光光谱、拉曼光谱以及表面增强拉曼光谱(FS、RS和SERS)结合八种机器学习算法诊断COPD、非COPD(肺部感染)和健康个体的潜力。实验通过比较COPD患者与对照组的血清FS、RS和SERS数据,发现了各光谱峰的变化。结果显示,将血清RS或SERS与机器学习算法结合使用,比单独使用血清FS获得了更优的分类效果。血清SERS与合成少数样本过采样技术(SMOTE)-梯度提升(GB)算法结合使用时,三分类准确率超过0.98。综上所述,血清SERS与SMOTE-GB机器学习技术的结合在COPD检测方面显示出显著前景。
引言
慢性阻塞性肺疾病(COPD)是一种全球范围内导致死亡和残疾的主要呼吸系统疾病[1]。其特征是持续性的呼吸问题及气流受阻,通常与严重的慢性炎症和呼吸道结构异常有关[2],在疾病晚期常伴随肺功能永久性损伤[3]。根据世界卫生组织(WHO)的数据,2021年COPD是全球第四大死因,导致350万人死亡(占所有死亡人数的5%),并在伤残调整生命年方面位列全球第八[4]。预计到2023年,COPD将成为全球第三大死因[5][6]。不同地区的经济损失存在显著差异[7]:东亚和太平洋地区由于人口众多和发病率高,经济损失达1.78万亿美元[7];南亚的损失为494亿美元,而北美的疾病负担占全球总量的5.7%,但其经济损失占比却高达24.8%[8]。COPD的主要成因包括长期吸烟、环境污染、工作场所粉尘和化学物质暴露、遗传因素、慢性炎症以及与衰老相关的氧化应激[9][10]。患病后,主要症状包括呼吸困难、咳嗽和痰液产生(如脓性痰),可能伴有发热和疲劳[10]。常见的COPD诊断方法包括肺功能测试和胸部影像学检查[7][9]。肺功能测试结果受个体差异、年龄、性别和种族影响,患者配合程度及其他心肺疾病也可能影响检测结果,导致假阳性[11][12][13]。CT检查费用昂贵,依赖设备且患者需暴露于辐射中,且无法直接评估气流受限等功能问题,图像质量也可能因患者配合不佳而受到影响,可能导致误诊[13][14]。现有的COPD诊断方法标准不一致,漏诊率较高,且无法提供相关生物学信息或对不同类型的疾病进行分类。因此,亟需一种快速、高灵敏度和高特异性的诊断方法。
目前,已有新的COPD检测方法出现[15]。一项研究通过结合电子健康记录(EHR)和多层感知器(MLP)成功区分了因哮喘急性加重或COPD住院的患者[16]。另一项研究利用超宽带雷达数据和决策树模型,COPD检测准确率达到100%[17]。使用血清表面增强拉曼光谱(SERS)和偏最小二乘判别分析(PLS-DA)的研究表明,这些模型能够以平均92%的准确率识别呼吸系统疾病和慢性心力衰竭[18]。然而,目前关于COPD患者、非COPD(肺部感染)患者及健康个体之间血清荧光光谱、拉曼光谱(RS)和SERS的比较研究尚不充分,同时关于这些组别的光谱组合算法分类研究也较少。
荧光光谱(FS)技术基于物质中分子吸收并重新发射光的过程进行光谱分析。由于其高灵敏度和易用性等优点,该技术在医学诊断中得到广泛应用[19][20][21]。Devanesan等人[22]发现,荧光光谱检测镰状细胞病的准确率超过90%;Borisova等人[23]指出该技术具有较高的分辨率,能有效识别结肠息肉、结直肠癌病变和下消化道正常黏膜[22][24][25]。在荧光光谱分析过程中,烟酰胺腺嘌呤二核苷酸磷酸(NADP)、黄素腺嘌呤二核苷酸(FAD)和卟啉等物质参与其中[22][24][25]。适当的激发波长有助于检测这些化合物。不同疾病具有独特的荧光分子特性,这可能是代谢异常的根本原因[25][26]。在医学诊断领域,机器学习算法也被广泛应用[27][28]。
拉曼光谱(RS)通过观察样品中分子振动引起的非弹性光散射来获取分子组成信息[29]。其优势包括高特异性、能够同时检测多种生物标志物、无创性、经济性、客观性和操作简便性。与机器学习结合使用时,可处理复杂的光谱数据[30]。近年来,由于其分类宫颈癌[31]、胃癌[32]、肺癌[34]、白血病[35]、喉癌[36]等疾病的潜力,RS在医学诊断中得到广泛应用。然而,由于拉曼散射截面较小导致信号较弱,且背景荧光较高,临床应用受到信噪比的限制[37]。表面增强拉曼光谱(SERS)是一种分子指纹技术,具有成本效益高、快速、无创、高灵敏度等优点,且不受水干扰[36],拉曼信号强度可增强10^8至10^14倍[38],在肺癌[39]、宫颈癌[40]和甲状腺癌[41]等癌症诊断中成为研究热点。光谱分析可为疾病状态和严重程度评估提供更多分子信息[42]。临床诊断的关键在于区分患病者和健康个体。但目前,荧光光谱、RS和SERS尚未用于COPD、非COPD及健康个体之间的光谱分析和算法分类。
在本研究中,我们结合血清荧光光谱、RS和SERS与机器学习算法,对COPD患者、非COPD患者和健康个体进行了分类和比较。这项初步工作为COPD的检测提供了一种新方法。
部分内容
血清样本的采集与制备
所有血清样本均来自新疆医科大学第一附属医院。我们从114名COPD患者、47名非COPD(肺部感染)患者和181名健康个体中采集了血液样本(详见表S1)。血清样本在4°C、3000 rpm条件下离心10分钟后,取上清液2 ml并置于-80°C保存,使用前需在4°C解冻。所有血清样本均经历了≤2次冻融循环。
荧光光谱数据分析
图1(a)展示了COPD、非COPD和健康个体血清样本的标准化荧光光谱,激发波长为405 nm,覆盖430–750 nm范围。COPD、非COPD和健康个体的血清荧光光谱显示出独特的大峰和小峰,通过分析荧光峰强度和位置的变化来区分正常与异常样本。
结论
本研究揭示了COPD患者与健康个体在血清荧光光谱、RS和SERS方面的差异,并阐明了这些差异与相关分子实体的关联。与RS或SERS相比,使用血清荧光光谱结合机器学习算法进行分类和诊断的效果有限。血清SERS与机器学习算法结合使用时,在使用SMOTE-GB算法的情况下,三分类准确率为0.84,显示出较高的区分效果。
伦理声明
本研究严格遵循《赫尔辛基宣言》中的伦理准则进行。新疆医科大学第一附属医院的伦理委员会批准了本研究方案(批准编号:K202405–51)。所有参与者均签署了知情同意书。
资金来源
本研究得到了
新疆维吾尔自治区天山人才计划(项目编号:2022TSYCCX0111)、
新疆维吾尔自治区重点研发项目(项目编号:2022B03013–2)、
新疆医科大学重大科研培育项目(项目编号:XYD2024ZX08)以及
中亚高发疾病发病机制、预防与治疗国家重点实验室基金(编号:SKL-HIDCA-2024-BC2, SKL-HIDCA-2024-14)的支持。
利益冲突声明
作者声明不存在可能影响本研究结果的已知财务利益或个人关系。
致谢
感谢新疆医科大学第一附属医院临床医学研究所中亚高发疾病发病机制、预防与治疗国家重点实验室提供的实验平台,以及
新疆维吾尔自治区天山人才计划(项目编号:2022TSYCCX0111)、
新疆维吾尔自治区重点研发项目(项目编号:2022B03013–2)的支持。