
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多组学数据的结直肠癌复发转移预测模型构建与验证
【字体: 大 中 小 】 时间:2025年05月16日 来源:BMC Medical Informatics and Decision Making 3.3
编辑推荐:
本研究针对结直肠癌术后复发转移预测难题,通过整合临床数据、体细胞突变、蛋白质组学和磷酸化蛋白质组学等多组学数据,开发了基于LR(逻辑回归)、SVM(支持向量机)和Naive-Bayes的集成学习预测模型。研究采用SMOTE算法增强数据,结合PCA降维和多种统计检验筛选关键特征,最终构建的模型显著提升了预测准确性,为临床精准干预提供了新工具。
结直肠癌是全球第四大高致死率癌症,术后复发转移是患者生存的主要威胁。然而,现有预测模型多依赖单一组学数据(如临床或基因表达数据),难以全面揭示疾病机制;同时,传统方法存在特征选择主观性强、样本量不足等问题。为此,来自上海医院等机构的研究团队在《BMC Medical Informatics and Decision Making》发表研究,通过整合多组学数据和机器学习技术,开发了高精度预测模型,为临床决策提供了新范式。
研究团队从146例结直肠癌患者中获取临床数据、体细胞突变(WES测序)、蛋白质组学(6,408个蛋白)和磷酸化蛋白质组学(22,000个磷酸化位点)数据,剔除2例无标签样本后纳入144例。关键技术包括:(1)联合Fisher检验、卡方检验、t检验、Mann-Whitney U检验和ANOVA筛选关键特征;(2)采用PCA对高维组学数据降维;(3)使用SMOTE算法将样本量从144扩增至288;(4)集成LR、SVM和Naive-Bayes构建预测模型。
特征选择与降维
通过多方法联合分析,筛选出3个临床特征(淋巴结转移、钙化结节)、3个体细胞突变基因(COL6A3、OTOG、KAL1)、89个蛋白质和15个磷酸化蛋白标志物。PCA降维后,蛋白质组和磷酸化蛋白质组数据分别保留前两个主成分(解释方差>80%),可视化显示能有效区分复发/非复发群体。
数据增强验证
样本量估算显示部分数据集需≥231例,SMOTE生成数据使总样本达288例。F1值评估显示生成数据重叠度(1.503)优于原始数据(1.260),证实数据质量满足建模需求。
模型性能比较
集成模型在准确率(0.92±0.03)、AUC(0.94)等指标上显著优于单一模型(LR/SVM/Naive-Bayes)。尽管Naive-Bayes灵敏度略高(0.89 vs 0.86),但集成模型综合ROC曲线更优,平衡了敏感性与特异性。
该研究首次将多组学数据与集成学习结合用于结直肠癌预后预测,突破传统单组学局限。特征选择中发现的COL6A3等基因与既往癌症研究吻合,验证了生物学合理性。SMOTE与PCA的创新应用解决了小样本高维度难题。未来需进一步探索蛋白质-磷酸化网络互作机制,并扩展至其他癌种验证普适性。研究成果为个体化医疗提供了可解释性强、临床易部署的决策工具。
生物通微信公众号
知名企业招聘