基于决策树机器学习筛选结直肠癌血清miRNA标志物及其调控网络的整合分析
《Scientific Reports》:Decision tree-based machine learning methods for identifying colorectal cancer-associated microRNA signatures and their regulatory networks
【字体:
大
中
小
】
时间:2025年10月07日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对结直肠癌(CRC)缺乏高特异性无创诊断标志物的难题,通过Boruta特征选择算法结合随机森林(RF)与XGBoost机器学习模型,从血清miRNA表达谱中筛选出9个关键miRNA(如hsa-miR-1228-5p、hsa-miR-6787-5p等)。模型在内部验证中AUC达100%,外部独立数据集验证AUC超95%,并通过功能注释揭示了这些miRNA与WNT信号通路、E2F转录因子等CRC相关机制的关联。该研究为CRC早期诊断提供了高精度候选标志物,并深化了对miRNA调控网络的理解。
结直肠癌(Colorectal Cancer, CRC)是全球第三大常见癌症,其发病率和死亡率居高不下,早期诊断对改善患者预后至关重要。然而,传统的诊断方法如结肠镜检查具有侵入性,且基于组织活检的分子标志物检测操作复杂,限制了其大规模筛查应用。近年来,循环microRNA(miRNA)因其在血液中的稳定性及与肿瘤发生发展的密切关联,成为极具潜力的无创诊断标志物。但血清中miRNA数量庞大,如何从中筛选出高特异性、高灵敏度的CRC相关miRNA组合,仍是当前研究的难点。
为解决这一难题,来自伊朗塔比亚特·莫达雷斯大学和塔布里兹医科大学的研究团队在《Scientific Reports》上发表了一项创新性研究。他们整合了三种血清miRNA表达数据集(GSE106817、GSE113486、GSE113740),采用Boruta这一基于包装法的特征选择技术,结合决策树类机器学习方法(随机森林和XGBoost),系统筛选CRC相关的关键miRNA标志物,并深入探索其调控网络与功能机制。
研究利用GEO数据库中的三个血清miRNA表达数据集(GSE106817为训练集,GSE113486和GSE113740为验证集),首先通过Boruta算法从2568个miRNA中筛选出与CRC显著相关的特征,再分别用随机森林和XGBoost建模。模型性能通过10折交叉验证和外部独立数据集验证,并采用SMOTE技术处理类别不平衡问题。功能注释部分使用miRAnno、miRNet、ToppFun等工具分析miRNA相关通路、靶基因及转录因子调控网络。
Boruta算法从训练集GSE106817(115例CRC患者 vs. 2759例非癌对照)中初步识别出146个潜在生物标志物。随机森林和XGBoost模型进一步分别筛选出20和16个重要miRNA,其中10个为共有。最终基于平均显著性评分(MS > 50%),确定9个核心miRNA:hsa-miR-1228-5p、hsa-miR-6787-5p、hsa-miR-1343-3p、hsa-miR-6717-5p、hsa-miR-3184-5p、hsa-miR-1246、hsa-miR-4706、hsa-miR-8073和hsa-miR-5100。外部数据集GEO2R分析显示,这些miRNA在CRC患者血清中均呈现显著差异表达(调整后p值 < 0.0001),例如hsa-miR-1228-5p和hsa-miR-3184-5p在两组验证集中均下调。
随机森林和XGBoost模型在训练集上均表现出色,准确率分别为99.88%和99.71%,AUC值分别达100%和99.9%。在外部验证中,随机森林在GSE113486和GSE113740上的AUC分别为97.8%和96.7%,XGBoost分别为98.9%和95.8%。热图分析进一步证实了所选miRNA在区分癌与非癌样本中的有效性。
通路富集分析(miRAnno)揭示这些miRNA与多个癌症通路密切相关,如hsa-miR-1228-5p关联硒代谢通路、hsa-miR-6787-5p参与FGFR1信号传导、hsa-miR-1246与WNT信号通路相关。miRNet构建的miRNA-靶基因-疾病网络识别出815个靶基因和59种癌症相关疾病,包括结直肠腺癌等。ToppFun分析表明靶基因主要富集于转录调控、细胞凋亡负调控等生物学过程。此外,转录因子(TF)调控网络分析发现E2F1、E2F4、CREB1、REST和JUND为关键调控节点,其中hsa-miR-3184-5p与GMEB2的直接相互作用提示其在CRC中的潜在调控轴。
本研究通过整合机器学习与生物信息学方法,首次系统筛选出9个血清来源的miRNA作为CRC诊断的高效生物标志物组合,模型在内外验证中均表现出卓越的判别能力。功能分析不仅证实了这些miRNA与经典癌症通路(如WNT、EGFR)的关联,还揭示了其与E2F家族转录因子等新型调控轴的潜在联系。尽管缺乏实验验证和临床病理信息整合是当前研究的局限,但所选miRNA在多种癌症中的已有报道(如hsa-miR-1228-5p在肝癌、hsa-miR-3184-5p在膀胱癌中的作用)进一步支持其跨癌种的调控重要性。该研究为CRC无创诊断提供了新的候选标志物,并为理解miRNA在CRC发病机制中的复杂网络奠定了理论基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号