基于多组学数据的结直肠癌复发转移预测模型构建与验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月16日 来源：BMC Medical Informatics and Decision Making 3.3

编辑推荐：

　　本研究针对结直肠癌术后复发转移预测难题，通过整合临床数据、体细胞突变、蛋白质组学和磷酸化蛋白质组学等多组学数据，开发了基于LR（逻辑回归）、SVM（支持向量机）和Naive-Bayes的集成学习预测模型。研究采用SMOTE算法增强数据，结合PCA降维和多种统计检验筛选关键特征，最终构建的模型显著提升了预测准确性，为临床精准干预提供了新工具。

结直肠癌是全球第四大高致死率癌症，术后复发转移是患者生存的主要威胁。然而，现有预测模型多依赖单一组学数据（如临床或基因表达数据），难以全面揭示疾病机制；同时，传统方法存在特征选择主观性强、样本量不足等问题。为此，来自上海医院等机构的研究团队在《BMC Medical Informatics and Decision Making》发表研究，通过整合多组学数据和机器学习技术，开发了高精度预测模型，为临床决策提供了新范式。

研究团队从146例结直肠癌患者中获取临床数据、体细胞突变（WES测序）、蛋白质组学（6,408个蛋白）和磷酸化蛋白质组学（22,000个磷酸化位点）数据，剔除2例无标签样本后纳入144例。关键技术包括：（1）联合Fisher检验、卡方检验、t检验、Mann-Whitney U检验和ANOVA筛选关键特征；（2）采用PCA对高维组学数据降维；（3）使用SMOTE算法将样本量从144扩增至288；（4）集成LR、SVM和Naive-Bayes构建预测模型。

特征选择与降维
通过多方法联合分析，筛选出3个临床特征（淋巴结转移、钙化结节）、3个体细胞突变基因（COL6A3、OTOG、KAL1）、89个蛋白质和15个磷酸化蛋白标志物。PCA降维后，蛋白质组和磷酸化蛋白质组数据分别保留前两个主成分（解释方差>80%），可视化显示能有效区分复发/非复发群体。

数据增强验证
样本量估算显示部分数据集需≥231例，SMOTE生成数据使总样本达288例。F1值评估显示生成数据重叠度（1.503）优于原始数据（1.260），证实数据质量满足建模需求。

模型性能比较
集成模型在准确率（0.92±0.03）、AUC（0.94）等指标上显著优于单一模型（LR/SVM/Naive-Bayes）。尽管Naive-Bayes灵敏度略高（0.89 vs 0.86），但集成模型综合ROC曲线更优，平衡了敏感性与特异性。

该研究首次将多组学数据与集成学习结合用于结直肠癌预后预测，突破传统单组学局限。特征选择中发现的COL6A3等基因与既往癌症研究吻合，验证了生物学合理性。SMOTE与PCA的创新应用解决了小样本高维度难题。未来需进一步探索蛋白质-磷酸化网络互作机制，并扩展至其他癌种验证普适性。研究成果为个体化医疗提供了可解释性强、临床易部署的决策工具。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号