《Microchemical Journal》:Self-developed electronic nose coupled with adaptive ensemble learning for non-invasive pulmonary disease detection via exhaled breath analysis
编辑推荐:
非侵入式电子鼻系统联合自适应集成学习算法在肺癌和COPD早期筛查中表现优异,二分类准确率达96.42%,三分类精度达84.89%,显著优于传统方法。
唐宇|刘雷|罗宇|何梦佳|刘涛|戴林杰|皮西天|何志春|刘红英
教育部生物流变科学技术重点实验室,重庆大学生物工程学院,中国重庆
摘要
呼出气体中含有数千种挥发性有机化合物(VOCs),这些化合物可作为代谢活动和生理状态的生物标志物。电子鼻(e-nose)系统通过VOC分析提供了一种无创、高效且经济可行的疾病检测平台。然而,传统的电子鼻信号分析集成学习方法通常具有有限的泛化能力和较高的计算成本。为了解决这些问题,我们提出了自适应集成学习(AEL)框架,该框架能够根据数据集的特征分布自动选择最佳的特征提取方法、基础分类器、交叉验证模式和集成策略。我们使用了一个自主研发的电子鼻,该电子鼻配备了11个气体传感器以及温度和湿度传感器,分析了肺癌患者、慢性阻塞性肺疾病(COPD)患者和健康对照组的呼吸样本。AEL模型在二元分类(肺癌与健康)任务中表现出色,准确率、召回率、特异性、精确度和F1分数分别为0.9642、0.9462、0.9873、0.99和0.966。在多类分类(肺癌、COPD、健康)任务中,其准确率为0.8489,召回率为0.8612,特异性为0.9321,精确度为0.8662,F1分数为0.8493,超过了近期报道的基准值。这项探索性研究展示了所提出的AEL与自主研发的电子鼻系统在可靠且无创地筛查肺部疾病方面的潜力。
引言
肺部疾病是全球最常见的疾病之一,其中肺癌和COPD是最常见的类型。肺癌是男性和女性癌症发病率和死亡率的主要原因,5年生存率低于5% [1]。肺癌在早期阶段往往缺乏明显的临床特征,等到症状出现时,疾病通常已经进入晚期,错过了最佳治疗时机。COPD是肺癌的前兆,每年约有1%的患者会发展成肺癌 [2]。因此,及时筛查和治疗肺部疾病对于预防和控制肺癌至关重要 [3]。
目前,识别和诊断肺癌最常用的方法是计算机断层扫描(CT)、正电子发射断层扫描(PET)、磁共振成像(MRI)和X射线等成像技术。然而,这些方法在广泛进行早期筛查方面存在显著局限性,包括成本高昂、可及性有限、暴露于电离辐射 [4] [5],以及低剂量CT较高的假阳性率 [6]。肺功能测试是诊断和评估COPD的金标准 [7]。尽管这种方法主要能揭示通气功能的变化,并要求患者进行强制呼吸操作,但过程繁琐、耗时,且不适合儿童、老年人和病情严重的患者。因此,这种方法容易导致早期诊断的遗漏和诊断延迟 [8] [9]。重要的是,无论是成像技术还是肺功能测试都无法有效且无创地捕捉与疾病发作相关的早期代谢变化。鉴于传统方法在无创性、实用性和广泛应用性方面的这些显著局限性,迫切需要开发一种可靠、用户友好且经济可行的无创技术来进行肺部疾病的早期筛查和准确诊断。
人类呼出的气体中含有超过3000种VOCs,这些VOCs提供了反映代谢过程的特征信息 [10]。随着传感器检测和人工智能技术的快速发展,电子鼻检测技术在疾病检测中变得可行。通过分析呼出气体中的VOCs可以实现疾病检测。电子鼻模仿人类嗅觉系统的工作原理,能够识别不同的呼出气体以检测疾病。它们通常由传感器阵列、信号采集电路和模式识别模块组成。研究人员已经研究了电子鼻在检测多种疾病中的应用,如肺癌 [11] [12] [13] [14] [15] [16] [17] [18]、COPD [16] [17] [18] [19] [20] [21]、哮喘 [20]、膀胱癌 [22] [23]、肝病 [24] [25] [26]、前列腺癌 [27]、结肠癌 [28]、糖尿病 [29] [30] 和COVID-19 [31] [32],展示了电子鼻在疾病检测中的广泛应用前景。
模式识别算法在电子鼻信号处理中被广泛使用。Chen等人 [33] 使用主成分分析(PCA)和核主成分分析(KPCA)进行特征提取,并结合支持向量机(SVM)和极端梯度提升(XGBoost)进行分类,使用KPCA和XGBoost获得了最高的分类准确率93.59%。Li等人 [34] 使用SVM、随机森林(RF)和逻辑回归分析(LRA)对肺癌和健康对照组样本进行分类,其中RF获得了最高的准确率86.42%。Binson等人 [16] 使用XGBoost、自适应提升(AdaBoost)和RF对肺癌和COPD进行分类,XGBoost分别获得了79.31%的肺癌准确率和76.67%的COPD准确率。Binson等人 [35] 使用KPCA进行特征提取,并利用XGBoost进行分类,肺癌、COPD和哮喘的分类准确率分别为91.74%、89.84%和70.66%。
集成学习通过整合多个基础分类器的预测来提高分类性能,增强预测准确性和鲁棒性。尽管集成学习具有优势,但由于基础分类器的选择具有主观性,其在新数据集上的表现可能不佳。Liu等人 [36] 使用LRA、SVM、k近邻(KNN)、RF和决策树(DT)的集成对肺癌和COPD进行分类。在肺癌与健康对照组的二元分类任务中,肺癌的分类准确率为96.11%。在涉及健康对照组、COPD和肺癌的多类分类任务中,分类准确率分别为80.99%、77.55%和80.98%。Sun等人 [37] 使用SVM、概率神经网络(PNN)和线性判别分析(LDA)对人参气味进行分类,获得了91.75%的准确率。
在这项研究中,我们设计了一个配备11个气体传感器和湿度/温度传感器的电子鼻系统,用于分析COPD患者、肺癌患者和健康对照组的呼吸样本。为了解决传统集成学习的局限性,我们提出了一种自适应集成学习算法。首先构建了特征提取库、基础分类器库、交叉验证模式和集成策略。然后,使用特征提取库中的算法将提取的特征信息映射到三维空间,并选择最佳的特征提取算法。接着,使用交叉验证库评估基础分类器库中算法的性能,以确定最佳的交叉验证模式和表现最好的基础分类器。结合这些策略,构建了集成学习库,并从中选择最佳的集成学习算法以实现最佳的分类性能。这种自适应机制增强了算法的泛化能力和稳定性。
电子鼻系统
本研究设计的电子鼻系统主要包括气体室、传感器阵列、控制模块、数据采集模块和模式识别模块。气体室是一个体积为220毫升的矩形铝制腔室,用于固定传感器并提供气体浓度感知的空间。传感器阵列由11个气体传感器和温度/湿度传感器组成,用于检测呼出气体样本中各种气体成分的浓度并输出响应。
数据处理方法
通过电子鼻分析呼出气体样本后,对传感器响应信号进行了后续处理。首先,通过对数据进行缩放来进行标准化和归一化,以减少计算负担。然后构建了一个特征算法库,并通过可视化3D空间中的特征分布来确定最佳的特征提取算法。
实验方法
为了评估AEL的分类性能,本研究将其应用于两个数据集:用于二元分类的肺癌呼吸样本数据集和用于三元分类的肺部疾病呼吸样本数据集。根据数据集从基础分类器库中选择最佳的基础分类器,构建集成学习库。随后,根据分布从该库中识别出表现最佳的集成学习模型。
结论
总结来说,我们在这项探索性研究中开发了一个电子鼻系统,该系统配备了11个气体传感器和一组温度及湿度传感器。我们分析了患有肺部疾病的患者和健康对照组的呼吸样本,构建了两个数据集:包含214个样本的肺癌呼吸样本数据集和包含96个样本的肺部疾病呼吸样本数据集。在这项研究中,我们提出了AEL算法,该算法构建了一个特征提取库和基础
CRediT作者贡献声明
唐宇:撰写——原始稿件、可视化、验证、软件开发、方法论设计、实验设计、数据分析。刘雷:验证、数据整理。罗宇:验证、数据整理。何梦佳:验证、软件开发。刘涛:验证、数据整理。戴林杰:验证、数据整理。皮西天:验证、监督。何志春:撰写——审稿与编辑、验证、项目管理。刘红英:撰写——审稿与编辑、验证、监督、项目管理,
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。
致谢
本研究得到了重庆市技术创新与应用发展专项项目(编号:CSTB2024TIAD-STX0044)的资助。