编辑推荐:
结直肠癌(CRC)发病率高且危害大,现有微生物与 CRC 关联研究多依赖宏基因组数据。研究人员用 MetaProD 重新分析 CPTAC 蛋白质组数据集,发现潜在相关微生物物种和蛋白,还构建了肿瘤检测模型。这为 CRC 诊断和治疗提供新思路。
在健康医学领域,结直肠癌(Colorectal Cancer,CRC)如同潜伏在人体内部的 “定时炸弹”,严重威胁着人们的生命健康。它是消化系统中极为常见的癌症类型,在全球范围内,其发病率和致死率都不容小觑。在美国以及世界其他地方,CRC 是导致癌症相关死亡的第二大 “元凶” 。令人担忧的是,尽管在老年人群中其发病率有所下降,但在 50 岁以下人群中却呈上升趋势,即便筛查方法不断改进、相关教育持续普及,这一趋势依旧没有得到有效遏制。
肠道微生物群与 CRC 之间存在着千丝万缕的联系,这已经成为科学界的共识。肠道微生物群的失衡,也就是所谓的肠道生态失调(gut dysbiosis),会引发免疫和代谢系统的紊乱,就像蝴蝶效应一样,看似微小的变化却能引发一系列严重后果。以往的研究表明,某些食物的摄入,比如红肉,可能与结肠癌的发生密切相关,它会引起炎症,进而增加与癌症相关的微生物群的流行。大规模的多队列粪便宏基因组研究也揭示了致病性真菌与 CRC 之间的关联,说明除了细菌,真菌在 CRC 的发展过程中也扮演着重要角色。
然而,现有的大多数研究都依赖于宏基因组数据。这种研究方法虽然能够提供物种表达的大致情况,以及与结肠癌相关的变化,但却存在着明显的局限性,它无法全面地识别与蛋白质检测和鉴定相关的信息,例如酶活性、翻译后修饰以及蛋白质丰度等。而这些蛋白质层面的变化,可能比物种层面的变化更加关键,对于揭示疾病的治疗靶点具有重要意义。
为了深入探究微生物与 CRC 之间的关系,填补现有研究的空白,来自美国印第安纳大学 Luddy 信息学、计算与工程学院(Luddy School of Informatics, Computing and Engineering, Indiana University)的研究人员 Jamie Canderan 和 Yuzhen Ye 开展了一项极具意义的研究。他们利用自己开发的工具 MetaProD,对临床蛋白质组肿瘤分析联盟(Clinical Proteomic Tumor Analysis Consortium,CPTAC)的 CRC 蛋白质组数据集进行重新分析。
研究人员在此次研究中用到了多个关键技术方法。首先,从 CPTAC 蛋白质组数据共享平台(PDC)下载了四个包含蛋白质组数据的结直肠癌质谱数据集,这些数据集样本来自不同患者且经过不同处理。接着,使用 MetaProD 分析管道对数据进行处理,该管道利用 UniProt 的微生物(和可选的人类)蛋白质 FASTA 数据库及两步搜索法分析数据。对于 CO1数据集,还使用 Reporter 生成归一化相对肽检测比率,并用 PEMM 和 DEqMS 分析以确定差异表达蛋白;CO2、CO3和 NO1数据集则用 MzMine 进行无标记定量分析。最后,利用微生物鉴定结果在 scikit-learn 管道中构建肿瘤检测预测模型,并与仅使用人类蛋白质的结果作对比 。
下面来看看具体的研究结果:
- 鉴定结果总结:研究分析了多个数据集,如 CO1、CO2、CO3和 NO1数据集。CO1数据集包含 96 名患者的肿瘤样本和 100 名患者的正常样本,CO2和 CO3为无标记肿瘤样本数据集,NO1是无标记正常样本数据集。通过质谱检测,统计各数据集的肽谱匹配(PSM)数、肽数、蛋白质数和物种数。结果显示,很多肽在有限数量的样本中被检测到,尤其是微生物肽。当要求肽至少在 50% 的样本中被检测到时,CO1数据集鉴定出的物种数下降,CO2、CO3和 NO1样本中没有微生物肽满足此条件 。
- 与先前人类蛋白质研究的比较:MetaProD 不仅能鉴定微生物蛋白,还能鉴定人类蛋白。与之前 CPTAC 仅关注人类蛋白的研究相比,本次研究基于 CO1数据集,在至少 50% 样本中检测到的显著人类蛋白数量增加。原因可能是使用了多种搜索引擎。进一步分析发现,更多人类蛋白在肿瘤或正常样本中差异表达,还确定了一些差异表达的关键蛋白 。
- 微生物属检测:对微生物肽检测数据进行筛选和分析,比较不同数据集和表型中微生物属的检测水平。结果表明,CO1数据集中两种表型都显示曲霉属(Aspergillus)最丰富,该属与结肠癌有关;不同数据集间微生物属检测存在差异,如 CO1和 CO3数据集虽有共享个体,但由于实验方法不同,前 8 个属中仅共享芽孢杆菌属(Paenibacillus) 。
- 微生物物种检测:在 CO1数据集中筛选出至少 50% 肽被检测到的物种,分析其正常和癌症样本中肽的检测水平。多数物种在正常和癌症样本中的检测水平相似,但 13 个物种在正常样本中的检测率更高,少数物种如 Deinococcus phoenicis 和 Anaerococcus hydrogenalis 在正常样本中的肽检测中位数显著高于癌症样本 。
- 差异丰度微生物蛋白的鉴定:分析 CO1数据集,鉴定出 13 种差异丰度微生物蛋白,其中 12 种在正常组织样本中更常见。这些蛋白与已知和结肠癌相关的物种有关,如 Aspergillus kawachii,部分蛋白所属物种此前未被证实与人类肠道微生物组有关 。
- 使用微生物鉴定构建肿瘤检测预测模型:基于 CO1数据集的微生物鉴定结果构建机器学习模型,不同特征选择方法和模型的 AUC(曲线下面积)分数相似,表明微生物蛋白可用于预测肿瘤组织和健康组织,且相比人类蛋白,使用微生物蛋白运行模型速度更快 。
在研究结论和讨论部分,研究人员通过重新分析 CPTAC 蛋白质组数据集,发现了许多与 CRC 相关的微生物蛋白,其中一些来自已知与结肠癌有关的物种,不过也有很多未被充分研究或功能未知。微生物肽检测水平在不同表型和数据集中差异显著,多重数据集(如 CO1)因样本来自同一人、处理方式相同,更有利于微生物鉴定和分析。但微生物鉴定仍面临挑战,如不同数据集间微生物肽检测差异大,可能受多种因素影响;使用大型微生物蛋白数据库时,命名约定差异会干扰检测;肽匹配可能因数据库信息问题而不准确。尽管存在这些局限,该研究仍成功从非针对性数据集鉴定出微生物肽,并用于物种鉴定和构建预测模型,为 CRC 的诊断和治疗提供了新的潜在生物标志物和研究方向,有望推动相关领域进一步发展,为攻克 CRC 这一难题带来新的曙光 。