在机器学习的指导下识别与转移相关的microRNA(miRNA),并将其整合到基于PFI(Platypus Risk Index)的Cox风险评分和诺模图中

《Computers in Biology and Medicine》:Machine learning–guided identification of metastasis-associated miRNAs and their integration into a PFI-based cox risk score and nomogram

【字体: 时间:2026年01月13日 来源:Computers in Biology and Medicine CS13

编辑推荐:

  本研究通过整合TCGA数据、机器学习模型和实验验证,发现miR-150、miR-5694、miR-6510和miR-7156可作为乳腺癌肺转移及预后预测的生物标志物,并构建了整合N/M分期和miRNA评分的临床nomogram,支持液体活检应用。

艾哈迈德·A·埃马姆(Ahmed A. Emam)| 穆罕默德·Y·福达(Mohamed Y. Foda)| 曼纳尔·雷法特(Manar Refaat)| 萨尔瓦·M·阿布·埃尔-凯尔(Salwa M. Abo El-khair)| 萨拉·埃尔-法拉什(Sara Elfarrash)| 奥马利·Y·埃尔-卡瓦加(Omali Y. El-khawaga)
埃及曼苏拉大学(Mansoura University)理学院生物化学系,曼苏拉,35516

摘要

背景

转移是导致乳腺癌患者死亡的主要因素。我们致力于寻找miRNA生物标志物,这些标志物能够(i)区分转移潜力,(ii)对预后进行分层,以及(iii)转化为具有临床实用价值的PFI(Progression-Free Interval)预测工具。

方法

我们分析了858个TCGA-BRCA原发性肿瘤样本(20个M1阶段,838个M0阶段)。在筛选出低表达的miRNA后,DESeq2软件识别出10个在M1阶段下调的miRNA。通过ADASYN方法解决了类别不平衡问题;经过50次迭代的随机森林(Random Forest)和XGBoost特征重要性分析,最终确定了4个候选miRNA(hsa-miR-150、-5694、-6510、-7156)。我们使用嵌套调整方法训练了10个机器学习模型(包括单一模型和集成模型),并在平衡测试集和原始队列上进行了评估。通过Kaplan–Meier检验和Cox回归分析了这些miRNA的预后价值,评估指标包括总生存期(OS)、无疾病生存期(DSS)、疾病无进展生存期(DFI)和PFI。基于这些指标的Cox β系数计算出了miRNA风险评分;我们还结合N分期(Node Stage)和M分期(Metastasis Stage)制定了PFI评分图表。我们在细胞系(MCF-7、MDA-MB-231)以及4T1小鼠模型中研究了miR-150及其异构体(3p/5p形式),并确认了肺转移的发生。同时,还检测了血清中的循环/转移相关生物标志物(如LDH/PDH比值、VEGF、Angiopoietin-2、MMP-2)。

结果

集成模型在平衡数据上的区分性能接近完美,并且在原始队列中也表现出良好的泛化能力(测试AUC值:Bagging ≥0.979,Random Forest 0.981;原始队列的XGBoost模型AUC为0.973 ± 0.008)。miR-150和miR-6510的高表达与更长的总生存期和无疾病生存期相关;对于PFI指标,miR-150、miR-6510和miR-5694具有积极作用。这三个miRNA组成的PFI评分能够独立预测疾病进展(多变量HR = 1.85;95%置信区间:1.14–3.01),并且结合N分期和M分期后,显著提高了3年和5年PFI的区分能力(AUC分别为0.68和0.70)。实验结果显示,miR-150(3p/5p形式)在转移组织和血液中的表达水平降低,而转移小鼠的LDH/PDH比值、VEGF、Ang-2和MMP-2水平升高,这表明miRNA抑制、代谢重编程、血管生成和基质重塑之间存在内在联系。

结论

本研究通过整合四种miRNA,识别出与肺转移相关的生物标志物组合,并开发出了实用的PFI评分图表。实验结果和血清生物标志物的数据支持了这一发现的生物学合理性和临床应用潜力,包括其在液体活检中的应用。

引言

乳腺癌(Breast Cancer, BC)是全球女性中最常见的恶性肿瘤,也是癌症相关死亡的主要原因[1]。2020年,世界卫生组织国际癌症研究机构(IARC)发布了全球癌症负担数据,显示全球乳腺癌发病率已超过226万例,首次超过了肺癌的发病率。因此,乳腺癌被列为全球最主要的恶性肿瘤,取代了多年来一直位居首位的肺癌[2]。 根据分子亚型,乳腺癌可分为四类:Luminal A型、Luminal B型、人表皮生长因子受体2(Her2)阳性型和三阴性乳腺癌(Triple-Negative Breast Cancer, TNBC)。这些亚型在转移特征、预后和治疗方案上存在显著差异[3,4]。针对乳腺癌的分子靶向治疗策略主要针对Her2酪氨酸受体激酶,其在Her2阳性病例中显示出显著疗效[5,6,7]。研究表明,约20–25%的乳腺癌肿瘤中Her2过度表达,这与癌细胞的侵袭性密切相关[8]。三阴性乳腺癌(TNBC)是最具侵袭性的乳腺癌类型,缺乏雌激素受体(ER)、孕激素受体(PR)和Her2的表达。尽管TNBC仅占乳腺癌病例的15–20%,但通常在晚期才被诊断出来,导致较高的复发率和较差的生存率[9,10]。此外,TNBC缺乏有效的靶向治疗手段,主要转移到大脑、骨骼、肺和肝脏[11,12]。表1总结了TNBC的分子特征、发病率、预后和典型转移模式,这些信息具有重要的临床价值。 转移是一个复杂的过程,通过这一过程,原发肿瘤会在远处形成继发性肿瘤。它是癌症导致治疗失败的关键因素,最终导致许多患者死亡[13,14]。因此,患者的预后与转移密切相关。大多数癌症类型的转移阶段被视为疾病的最终阶段。转移涉及多种细胞机制,包括从原发肿瘤脱离、侵袭、逃避免疫监视以及组织微环境的改变。上皮-间质转化(Epithelial-Mesenchymal Transition, EMT)在大多数恶性肿瘤的转移过程中起着关键作用[15]。 尽管在检测和治疗方面取得了显著进展,但仍有约30%的乳腺癌患者会在主肿瘤被识别和治疗后的多年内出现远处复发(即转移[16]。尽管之前已经利用临床病理特征和分子生物标志物来指导乳腺癌的治疗决策[17]、预测预后[18]和预测远处转移[19,20],但即使在相同的组织学和分子亚型中,长期生存率和预后也存在很大差异[21,22]。肿瘤内部和之间的显著异质性,以及影响每个患者癌症进展的多种因素,给治疗和临床护理带来了诸多挑战[23]。 在医疗实践中有效应用信息和通信技术(Information and Communication Technology, ICT)对于振兴医疗系统至关重要,尤其是在癌症护理领域[24]。人工智能的发展证明了机器学习具有强大的数据挖掘能力,使其能够应用于多个领域。机器学习强调通过创建算法来最佳表示数据集,使计算机能够从数据中学习,并基于数据分析结果做出明智的判断和预测[25]。 通过将机器学习与医学挑战相结合,可以开发出更先进的辅助诊断工具,从而延长治疗时间并提高患者的康复前景。近年来,机器学习在乳腺癌诊断、生存分析、预后预测等相关领域展现出了重要作用[26,27]。目前,利用机器学习算法预测乳腺癌生存风险已成为人工智能与医学交叉研究的热点[28]。在癌症研究中,机器学习的一个重要应用是早期识别体内的癌细胞并预测患者的预期生存时间。多年来,这些统计方法在评估相关风险和预期寿命方面的应用越来越受到重视[29]。 因此,我们的研究旨在通过整合TCGA的转录组数据和机器学习算法,并进行体内实验验证,识别和验证一种新的基于miRNA的生物标志物组合,以预测乳腺癌的肺转移和不良预后,从而实现早期检测、风险分层和转移性疾病的临床管理。

数据检索与处理

我们使用TCGAAbiolinks R包(版本2.24.4)从癌症基因组图谱(The Cancer Genome Atlas, TCGA)中获取了乳腺癌侵袭性癌(Breast Invasive Carcinoma)的miRNA表达数据[44]。数据于2024年10月4日从GDC门户网站(项目ID:TCGA-BRCA)下载。查询条件为:GDCquery(project = "TCGA-BRCA", data.category = "Transcriptome Profiling", data.type = "miRNA Expression Quantification", workflow.type = "BCGSC miRNA Profiling", sample.type = c("Primary solid Tumor", "Solid Tissue Normal"),从而获取了原始读数。

M1阶段与M0阶段的差异表达分析

经过数据预处理和临床筛选后,共有943个BRCA样本被保留用于后续分析,其中858个为原发性肿瘤样本。在这些肿瘤样本中,有20例被确定为具有远处转移(M1阶段),其余样本被归类为M0阶段。应用miRNA筛选标准后,仅保留了在至少50%的样本中表达量≥5的miRNA,最终得到444个可检测到的miRNA。

讨论

转移仍然是乳腺癌(BC)最致命的特征,导致了近90%的癌症相关死亡[71,72]。尽管在外科治疗和系统疗法方面取得了显著进展,但转移性乳腺癌(MBC)患者的临床预后仍然较差,这主要是由于缺乏可靠的、非侵入性的生物标志物来准确预测转移过程,尤其是向关键器官(如肺)的转移[73]。在本研究中,我们采用了一种综合方法...

结论

本研究确定了一组关键的miRNA(miR-150、miR-5694、miR-6510和miR-7156),它们能够区分乳腺癌的转移潜力并具有明确的预后价值,其中miR-150在所有评估指标中表现最为一致。结合N分期和M分期的三miRNA进展评分构建的评分图表显著提高了3年和5年PFI的区分能力,为风险咨询和随访计划提供了实用的支持。细胞实验结果也证实了这一结论...

CRediT作者贡献声明

艾哈迈德·A·埃马姆(Ahmed A. Emam): 负责初稿撰写、软件开发和方法论设计。 穆罕默德·Y·福达(Mohamed Y. Foda): 负责初稿撰写、软件开发和形式化分析。 曼纳尔·雷法特(Manar Refaat): 负责初稿撰写、监督工作、研究设计、概念构思和验证。 萨尔瓦·M·阿布·埃尔-凯尔(Salwa M. Abo El-khair): 负责初稿撰写、监督工作、研究设计、概念构思和验证。 萨拉·埃尔-法拉什(Sara Elfarrash): 负责审稿和编辑、初稿撰写、监督工作、研究设计及概念构思。 奥马利·Y·埃尔-卡瓦加(Omali Y. El-khawaga): 负责审稿和编辑、初稿撰写以及验证工作。

资金来源

本研究得到了曼苏拉大学(Mansoura University)的博士学位资助(项目编号:MU-SCI-23-48)。该资金来源并未参与研究设计、数据收集、数据分析、报告撰写或决定提交文章发表的过程。

利益冲突声明

我们确认本研究中不存在任何已知的利益冲突,也没有任何外部资金支持可能影响研究结果。所有署名作者均已阅读并批准了手稿内容,且没有其他符合作者资格但未列入名单的人员。同时,我们也确认了手稿中作者的排序得到了所有作者的认可。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号