Serum-MiR-CanPred:一个用于泛癌症分类和miRNA靶向药物发现的深度学习框架
《RNA Biology》:Serum-MiR-CanPred: deep learning framework for pan-cancer classification and miRNA-targeted drug discovery
【字体:
大
中
小
】
时间:2025年11月04日
来源:RNA Biology 3.4
编辑推荐:
血清miRNA跨癌症分类与靶向治疗研究。血清miRNA作为非侵入性生物标志物,通过开发Serum-MiR-CanPred模型,结合MLP深度学习框架和SHAP可解释性分析,实现12种癌症的高效分类(AUC=96.87%)。关键发现包括88个共识miRNA标记集,hsa-miR-5100作为核心致癌miRNA,通过分子对接鉴定出AC1MMYR2等潜在靶向药物,并验证了其在多种癌症中的异常表达。
癌症的早期诊断对于改善整体健康结局至关重要。然而,目前的癌症诊断技术大多具有侵入性,并且往往只能在疾病晚期才能准确识别。微小RNA(miRNA)作为一类小的非编码RNA,在血清中表现出良好的稳定性,被广泛认为是具有潜力的非侵入性生物标志物。尽管如此,其在泛癌诊断和治疗中的应用仍然非常有限。本研究中,我们开发了一种名为Serum-MiR-CanPred的深度学习框架,使用多层感知机(MLP)模型,基于来自12种癌症类型和健康对照的20,271个样本的血清miRNA表达数据,从基因表达数据库(GEO)中获取。该模型实现了96.87%的AUC值和96%的准确率,具备良好的泛癌分类能力。通过外部数据集的验证,展示了其在临床中的应用潜力。使用SHapley Additive exPlanations(SHAP)方法,我们识别出hsa-miR-5100作为关键的生物标志物,其在肺癌、膀胱癌和胃癌等癌症中表现出异常表达。通过分子对接(rDock)和分子动力学模拟(GROMACS),我们发现AC1MMYR2可能是一种高亲和力的配体,其与pre-miR-5100的结合稳定性得到了验证。结论表明,Serum-MiR-CanPred结合了可解释的AI和分子建模技术,推动了基于miRNA的诊断和药物发现,为精准肿瘤学提供了新的方向。
当前,癌症仍然是全球主要的健康问题之一,每年导致数百万人死亡,是全球死亡率最高的疾病之一。世界卫生组织预计,到2040年,新的癌症病例将显著增加,主要原因是人口老龄化和生活方式因素,尤其是在资源匮乏的地区,早期检测面临较大挑战。因此,开发一种敏感、非侵入性且适用于多种癌症类型的诊断工具变得尤为迫切。传统的癌症诊断技术,如乳腺X光检查、内窥镜检查和组织活检,通常存在侵入性、成本高以及难以进行常规筛查的缺点。相比之下,基于蛋白质的生物标志物,如前列腺特异性抗原(PSA),往往缺乏特异性,容易导致假阳性结果和不必要的干预。这些局限性凸显了需要更高效、更精准的诊断手段的重要性。
近年来,研究者们对循环miRNA作为癌症诊断标志物的兴趣日益增加。循环miRNA因其在血液和其他体液中的稳定性而受到关注,它们被包裹在囊泡中或与蛋白质结合,从而避免了降解。miRNA在癌症相关过程中的作用显著,包括细胞增殖、凋亡和转移。某些特定miRNA的表达失调在多种癌症类型中普遍存在。例如,miR-21作为一种已知的癌基因,在乳腺癌和结直肠癌中被过度表达,而miR-34a则作为一种肿瘤抑制因子,在肺癌中常被下调。此外,一些循环miRNA,如miR-141和miR-122,与前列腺癌和肝癌的转移及预后密切相关。
在这一背景下,本研究开发了Serum-MiR-CanPred,这是一种可复现的人工智能(AI)框架,结合了深度学习和可解释AI技术,用于基于血清miRNA的泛癌分类,同时探索关键miRNA的药理学靶向。通过使用GEO数据库中的公开数据,我们训练了一个优化的MLP分类器,涵盖12种癌症类型和健康对照,达到了96.87%的AUC值和96%的准确率。模型在外部验证数据集中的表现证明了其广泛适用性。为了增强模型的可解释性,我们应用了SHAP分析,以识别对预测具有最大贡献的miRNA。其中,hsa-miR-5100在11种癌症类型中表现出显著的异常表达,包括乳腺癌、前列腺癌、肺癌、胃癌和肝细胞癌等。进一步的体外分析显示,AC1MMYR2可能是一种能够稳定结合pre-miR-5100的分子,这可能有助于调控其表达。
本研究的成果不仅展示了基于miRNA的非侵入性癌症诊断的潜力,还提出了潜在的药物靶点。Serum-MiR-CanPred通过结合深度学习和分子建模,为精准肿瘤学提供了新的研究方向,同时也连接了计算生物学和转化医学。通过可解释的深度学习模型和分子对接技术,我们不仅能够识别癌症的生物标志物,还能够探索其治疗可能性。这为癌症的早期检测和治疗策略的优化提供了新的工具和思路。
在数据处理和特征选择方面,我们采用了一系列先进的方法。首先,我们从GEO数据库中获取了基因表达数据,涵盖了多种癌症类型和健康对照。数据经过预处理,包括批次效应校正和类别不平衡处理(使用SMOTE技术)。接着,我们使用递归特征消除(RFE)和五种不同的估计器(如随机森林、线性回归、Lasso、LightGBM和支持向量机)来筛选出最重要的miRNA特征。最终,我们确定了88个miRNA组成共识特征集(CFS),这不仅减少了数据维度,还保持了生物显著性。通过比较不同模型的性能,我们发现MLP模型在泛癌分类任务中表现最佳,具有较高的准确率和F1分数,且在外部验证数据集中的表现稳定。
为了进一步验证模型的泛化能力,我们使用了三个额外的GEO数据集进行外部验证。这些数据集均使用相同的Toray’s 3D-Gene miRNA微阵列平台进行测量,涵盖了所有相关癌症类型。模型在这些数据集上的表现同样出色,达到了99.03%、99.62%和94.27%的AUC值。此外,我们还使用了多种数据可视化技术,如热图、主成分分析(PCA)和t-分布随机邻域嵌入(t-SNE),以展示miRNA在不同癌症类型中的表达模式。这些技术不仅帮助我们识别了miRNA的异常表达,还揭示了癌症与非癌症样本之间的清晰分离,进一步验证了模型的诊断价值。
在功能验证方面,我们对CFS中的miRNA进行了目标基因的分析,利用miRecords、miRTarBase和TarBase数据库,筛选出至少在两个数据库中出现的基因目标。通过Metascape和KEGG通路分析,我们发现这些miRNA目标基因主要参与淋巴细胞激活、免疫调节、细胞周期进展和细胞对刺激的反应等关键癌症相关通路。这些结果不仅加深了我们对miRNA在癌症生物学中的作用的理解,还为miRNA作为潜在治疗靶点提供了理论依据。
在药物发现方面,我们选择了hsa-miR-5100作为重点研究对象,因为它在多种癌症类型中表现出重要的预测价值。通过分子对接和分子动力学模拟,我们评估了AC1MMYR2与pre-miR-5100的结合能力。结果显示,AC1MMYR2与pre-miR-5100的结合能力显著优于其他已知的miRNA抑制剂,如pre-miR-21。此外,我们还通过随机miRNA作为负对照,验证了AC1MMYR2的特异性。这些模拟结果表明,AC1MMYR2与pre-miR-5100之间存在稳定的相互作用,可能成为一种有效的治疗手段。
尽管本研究取得了显著进展,但也存在一些局限性。首先,使用公开的GEO数据集可能会引入技术异质性,尽管我们通过PyComBat进行了批次效应校正。其次,缺乏临床元数据(如肿瘤分期、分级、患者年龄和性别)限制了对模型预测结果的上下文解释。此外,血清中的miRNA表达谱可能与血浆或全血样本存在差异,影响结果的可重复性。最后,虽然分子对接和动力学模拟提供了初步的治疗见解,但仍需体外实验验证以进一步确认其临床应用潜力。
综上所述,本研究通过开发Serum-MiR-CanPred这一深度学习框架,不仅提高了基于miRNA的泛癌诊断的准确性和可解释性,还探索了关键miRNA的治疗潜力。这一框架结合了可解释的AI和分子建模技术,为精准肿瘤学的发展提供了新的方向。通过使用公开数据和先进的计算方法,我们不仅验证了模型的泛化能力,还识别了具有重要临床意义的miRNA生物标志物和潜在药物靶点。未来的研究应进一步纳入外部验证队列、纵向样本和临床协变量,以提高模型的转化应用能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号