
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于肠道菌群与AI-ML融合算法的结直肠癌预测工具CRCpred的开发与验证
【字体: 大 中 小 】 时间:2025年06月26日 来源:Computers in Biology and Medicine 7.0
编辑推荐:
本研究针对结直肠癌(CRC)传统筛查方法存在侵入性高、灵敏度不足等问题,开发了基于AI-ML混合算法的微生物组预测工具CRCpred。通过整合11项跨国研究的1728例宏基因组样本,采用XGBoost等算法实现平均AUC 0.90-0.91的预测效能,为无创CRC诊断提供新策略。
结直肠癌(CRC)作为全球第三大高发癌症,其早期诊断直接关系患者生存率。目前金标准的结肠镜检查虽准确但具侵入性,而粪便潜血试验(FIT/gFOBT)又存在灵敏度低的缺陷。更棘手的是,不同地域人群的肠道菌群特征差异显著,使得基于微生物标志物的诊断模型开发面临数据异质性挑战。印度科学教育与研究学院博帕尔分校的研究团队在《Computers in Biology and Medicine》发表的研究,通过构建跨国多中心队列的机器学习模型,为这一难题提供了创新解决方案。
研究团队采用Kraken2/Bracken进行物种级分类注释,整合11项研究的1728例样本(1022例CRC vs 706健康对照)构建标准化数据集。通过XGBoost、随机森林(RF)和人工神经网络(ANN)等算法比较,结合SHAP值进行特征重要性分析,最终开发出网页工具CRCpred。
【数据收集】
从8个国家11项研究中获取1891例宏基因组数据,经质控保留1728例。样本覆盖CRC、腺瘤和健康人群,来源包括PRJEB7774等11个BioProject。
【模型构建】
XGBoost表现最优,测试集AUC达0.90,验证集0.91。关键菌种特征包括促癌菌(如具核梭杆菌Fusobacterium nucleatum)和保护菌(如丁酸梭菌Clostridium butyicum)的丰度变化。
【网络服务器】
部署的CRCpred网页工具支持用户上传物种级丰度数据,实时返回CRC风险预测结果,界面包含示例数据和详细教程。
结论部分指出,CRCpred首次实现跨国多队列菌群数据的标准化整合,其采用的混合算法策略显著提升模型泛化能力。讨论中强调,该工具不仅验证了Bacteroides fragilis等已知标志物,还发现新的候选菌种如Flavonifractor plautii。值得注意的是,模型在腺瘤阶段的预测敏感性仍有提升空间,未来可通过增加早癌样本优化。该研究为微生物组辅助诊断提供了可扩展的技术框架,其开源特性有助于推动个性化医疗发展。
生物通微信公众号
知名企业招聘