《Scientific Reports》:Analysis of volatile organic compounds in biological samples of colorectal cancer patients using electronic nose-based machine learning techniques
编辑推荐:
本研究针对结直肠癌(CRC)早期筛查手段存在侵入性、成本高及灵敏度不足等问题,开发了一种基于电子鼻(eNose)技术结合机器学习(ML)的非侵入性诊断方法。研究人员通过分析CRC患者与健康对照者的血液、尿液和粪便样本中的挥发性有机化合物(VOCs)谱,利用主成分分析(PCA)及逻辑回归(LR)、K近邻(KNN)、支持向量机(SVM)和梯度提升(GB)等ML模型进行模式识别。结果表明,eNose系统能有效区分CRC患者与对照组,其中GB模型在粪便样本中分类准确率达100%,高斯数据增强后各模型性能显著提升(AUC>0.93)。该技术为CRC早期筛查提供了高灵敏度、高特异性的低成本解决方案,具有重要临床转化价值。
在全球范围内,结直肠癌(Colorectal Cancer, CRC)是威胁人类健康的重大疾病,其发病过程隐匿,确诊时往往已至中晚期,导致死亡率居高不下。尽管结肠镜检查作为诊断金标准具有高准确性,但其侵入性操作、高昂费用及潜在并发症限制了大规模筛查应用。而非侵入性方法如粪便隐血试验(Fecal Occult Blood Test, FOBT)和血清肿瘤标志物(如癌胚抗原CEA、糖类抗原CA19-9)又存在灵敏度低、特异性不足的缺陷。因此,开发一种准确、便捷、成本效益高的早期CRC筛查技术成为临床迫切需求。
近年来,挥发性有机化合物(Volatile Organic Compounds, VOCs)作为疾病诊断的新型生物标志物崭露头角。这些由机体代谢产生并释放至血液、尿液、粪便及呼出气中的小分子化合物,能够反映体内的病理生理状态变化。在CRC发生发展过程中,肿瘤细胞代谢异常及肠道菌群失调会导致特定的VOCs谱改变,这为无创检测提供了可能。电子鼻(Electronic Nose, eNose)技术模拟人类嗅觉系统,通过金属氧化物半导体(Metal-Oxide Semiconductor, MOS)传感器阵列检测样本顶空中的VOCs,并结合模式识别算法生成疾病特有的“气味指纹”。该技术具有快速、便携、操作简单等优势,尤其适合临床推广和基层医疗应用。
在此背景下,由Nada E. Ahmed、Mohamed S. Mshaly、Khaled M. Madbouly、Marwa A. Mohamed、Ebtsam A. Abdel-Wahab和Ehab I. Mohamed组成的研究团队在《Scientific Reports》上发表了题为“Analysis of volatile organic compounds in biological samples of colorectal cancer patients using electronic nose-based machine learning techniques”的研究论文。该研究创新性地将eNose技术与多种机器学习(Machine Learning, ML)算法相结合,系统评估了血液、尿液和粪便三种生物样本中的VOCs在CRC诊断中的价值,并探索了数据增强策略对模型性能的提升作用,为CRC的早期无创筛查提供了有力工具。
本研究主要采用了以下关键技术方法:首先,研究纳入了100名参与者(50名经结肠镜和病理确诊的III期CRC患者及50名健康对照),采集其血液、尿液和粪便样本。使用便携式PEN3 eNose系统(Airsense Analytics GmbH)检测样本顶空VOCs,获取10个MOS传感器的动态响应数据。随后,分别应用无监督学习算法主成分分析(Principal Component Analysis, PCA)和有监督学习算法(包括逻辑回归(Logistic Regression, LR)、K近邻(K-Nearest Neighbor, KNN)、支持向量机(Support Vector Machine, SVM)和梯度提升(Gradient Boosting, GB))对传感器数据进行分析,构建分类模型。为克服小样本数据限制,研究采用了基于高斯分布的数据增强技术扩充数据集。模型性能通过准确率、灵敏度、特异性、受试者工作特征曲线下面积(Area Under the Curve, AUC)等指标进行评估,并采用标准K折交叉验证和组K折交叉验证确保结果可靠性。
临床与实验室特征
研究对象的基线特征分析显示,CRC患者组与对照组在年龄和性别分布上无显著差异,避免了这些因素对结果的干扰。然而,CRC患者的体重和体重指数(Body Mass Index, BMI)显著低于对照组(p<0.01),这与癌症常见的恶病质或诊断前体重下降现象相符。血液学检查发现,CRC患者虽然红细胞计数略高,但血红蛋白水平较低,表明白细胞计数和血小板计数显著降低(p<0.01),同时伴有低白蛋白血症(p<0.01)。这些指标异常提示CRC可能导致慢性病性贫血、免疫抑制及营养状况恶化。临床症状方面,CRC患者普遍报告腹痛(80%)、便秘(52%)、腹泻(48%)、黏液便(40%)、便血(60%)以及体重减轻(80%)和贫血(72%)等。所有CRC病例均处于III期(IIIA期60%,IIIB期40%),反映了埃及上埃及地区普遍存在的诊断延迟现象。
eNose传感器响应模式
通过分析eNose传感器对不同生物样本的响应曲线,研究发现CRC患者的血液、尿液和粪便样本均显示出比对照组更高的VOCs信号。在血液样本中,对氮氧化物、氢气和甲烷敏感的传感器(S2, S4, S10)响应增强;尿液样本中,对芳香族化合物、含氮物质、硫化物、氨和甲烷敏感的传感器(S1, S2, S9, S10)活性升高;粪便样本则在对芳香族化合物、氨、烷烃、甲烷和醇类敏感的传感器(S1, S3, S5, S8, S9, S10)上表现出更强信号。这些结果表明CRC引起了系统性代谢改变,并特异性地影响了VOCs的排放模式,与既往研究发现的CRC相关VOCs(如醛类、酮类、短链脂肪酸等)相符。
无监督模型性能
PCA分析作为一种无监督降维技术,成功地将高维传感器数据投影到低维空间。结果显示,血液和粪便样本的PCA聚类图能清晰区分CRC患者和对照组,其累积解释方差分别达到97.64%和98.51%,而尿液样本的分离度相对较低(79.03%)。这表明血液和粪便中的VOCs蕴含更丰富的疾病判别信息,可能因为血液直接反映系统代谢状况,粪便则与肠道局部微环境(包括肿瘤本身和菌群)密切相关。PCA的整体分类准确率高达97.95%,AUC为0.98,证明了其在CRC VOC特征提取中的强大能力。
有监督模型性能(原始数据集)
在原始eNose数据集上,四种有监督ML模型表现出不同的分类效能。线性模型LR在血液样本中准确率最低(56%),但在粪便样本中提升至88%,显示出其对非线性数据分布的局限性。KNN模型在血液样本中表现较好(84%),但在尿液和粪便中准确率下降,表明其性能受数据结构和特征尺度影响。SVM在粪便样本中取得了96%的高准确率,但在血液样本中仅为62%,提示其分类效果依赖于样本类型的可分性。GB模型表现最为稳健和优异,在所有生物样本中均取得最高准确率,尤其在粪便样本中达到100%,凸显了集成学习在捕捉复杂VOCs模式方面的优势。总体来看,基于原始数据,GB模型的综合性能最佳(准确率90%,AUC 0.90)。
有监督模型性能(高斯增强数据集)
为了提升模型泛化能力,研究对原始数据集进行了高斯增强。这一策略显著改善了所有ML模型的性能。LR模型的准确率从83.33%提升至96.67%,特异性达到100%,说明数据增强有效缓解了其线性假设的约束。KNN和SVM模型的准确率分别达到93.33%和96.67%,特异性均为100%。GB模型在保持100%灵敏度的同时,准确率为93.33%。数据增强通过引入合理的噪声,增加了训练数据的多样性,使模型能够学习到更鲁棒的特征,减少过拟合,尤其对于KNN这类对数据密度敏感的算法以及小样本场景下的所有模型均有显著助益。
模型交叉验证与传感器重要性
研究进一步通过标准K折交叉验证和组K折交叉验证评估模型稳定性。在原始数据上,不同验证方法下模型性能存在波动,尤其是LR和SVM在组K折验证中标准差较大,表明存在因样本非独立性导致的潜在数据泄露风险。经过高斯增强后,所有模型在两种验证策略下均表现出接近完美或完美的分类准确率(如KNN和GB达到100%),且标准差急剧减小,证明了增强后模型的高度稳定性和可靠性。对传感器重要性的分析发现,传感器S1(对芳香族化合物敏感)在所有ML模型中均被赋予最高权重,提示其响应的VOCs在CRC鉴别中可能扮演关键角色。不同算法对传感器重要性的分布模式各异,例如GB模型几乎将所有重要性集中于S1,而KNN模型则对远端传感器(如S10)赋予较高权重,这反映了不同算法的内在决策机制差异。
本研究通过系统评估eNose技术结合ML算法在CRC诊断中的应用,得出以下核心结论:eNose能够有效检测CRC患者与健康对照者生物样本(血液、尿液、粪便)中的差异性VOCs谱。在多种ML模型中,集成学习算法GB和基于实例的算法KNN表现出 superior 的分类性能,特别是在粪便样本中。利用高斯噪声进行数据增强是一种有效的策略,能显著提升小样本数据集上ML模型的泛化能力和鲁棒性。血液和粪便样本因其较高的信噪比和丰富的疾病相关信息,比尿液样本更适合用于eNose为基础的CRC检测。
该研究的成功实践表明,基于eNose和ML的VOCs分析技术为CRC早期筛查提供了一条极具前景的新途径。这种方法非侵入性、成本低、操作简便,有望克服传统筛查方法的诸多障碍,提高筛查依从性,特别适用于医疗资源相对匮乏的地区。未来,通过扩大样本量、纳入更早期CRC患者、优化传感器阵列以及融合多组学数据,将进一步推动这一技术向临床常规应用的转化,最终为降低CRC发病率和死亡率做出重要贡献。