基于多组学数据的结直肠癌复发转移预测模型构建与验证

【字体: 时间:2025年05月16日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  本研究针对结直肠癌术后复发转移预测难题,通过整合临床数据、体细胞突变、蛋白质组学和磷酸化蛋白质组学等多组学数据,开发了基于LR(逻辑回归)、SVM(支持向量机)和Naive-Bayes的集成学习预测模型。研究采用SMOTE算法增强数据,结合PCA降维和多种统计检验筛选关键特征,最终构建的模型显著提升了预测准确性,为临床精准干预提供了新工具。

  

结直肠癌是全球第四大高致死率癌症,术后复发转移是患者生存的主要威胁。然而,现有预测模型多依赖单一组学数据(如临床或基因表达数据),难以全面揭示疾病机制;同时,传统方法存在特征选择主观性强、样本量不足等问题。为此,来自上海医院等机构的研究团队在《BMC Medical Informatics and Decision Making》发表研究,通过整合多组学数据和机器学习技术,开发了高精度预测模型,为临床决策提供了新范式。

研究团队从146例结直肠癌患者中获取临床数据、体细胞突变(WES测序)、蛋白质组学(6,408个蛋白)和磷酸化蛋白质组学(22,000个磷酸化位点)数据,剔除2例无标签样本后纳入144例。关键技术包括:(1)联合Fisher检验、卡方检验、t检验、Mann-Whitney U检验和ANOVA筛选关键特征;(2)采用PCA对高维组学数据降维;(3)使用SMOTE算法将样本量从144扩增至288;(4)集成LR、SVM和Naive-Bayes构建预测模型。

特征选择与降维
通过多方法联合分析,筛选出3个临床特征(淋巴结转移、钙化结节)、3个体细胞突变基因(COL6A3、OTOG、KAL1)、89个蛋白质和15个磷酸化蛋白标志物。PCA降维后,蛋白质组和磷酸化蛋白质组数据分别保留前两个主成分(解释方差>80%),可视化显示能有效区分复发/非复发群体。

数据增强验证
样本量估算显示部分数据集需≥231例,SMOTE生成数据使总样本达288例。F1值评估显示生成数据重叠度(1.503)优于原始数据(1.260),证实数据质量满足建模需求。

模型性能比较
集成模型在准确率(0.92±0.03)、AUC(0.94)等指标上显著优于单一模型(LR/SVM/Naive-Bayes)。尽管Naive-Bayes灵敏度略高(0.89 vs 0.86),但集成模型综合ROC曲线更优,平衡了敏感性与特异性。

该研究首次将多组学数据与集成学习结合用于结直肠癌预后预测,突破传统单组学局限。特征选择中发现的COL6A3等基因与既往癌症研究吻合,验证了生物学合理性。SMOTE与PCA的创新应用解决了小样本高维度难题。未来需进一步探索蛋白质-磷酸化网络互作机制,并扩展至其他癌种验证普适性。研究成果为个体化医疗提供了可解释性强、临床易部署的决策工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号