综述:基于机器学习的microRNA癌症分类方法的新兴角色

《Biochemistry and Biophysics Reports》:The emerging role of machine learning-based methods in cancer classification using microRNA

【字体: 时间:2026年02月16日 来源:Biochemistry and Biophysics Reports 2.2

编辑推荐:

  本文综述了机器学习与microRNA数据整合在癌症诊断与分型中的革命性潜力。重点阐述了miRNA作为稳定生物标志物(可从血液、唾液等体液检测)的独特优势,并系统梳理了支持向量机、随机森林、深度学习等多种机器学习算法如何识别癌症(如乳腺癌、肺癌、结直肠癌)及其亚型的差异化miRNA特征。文章还讨论了特征工程和选择技术(如递归集成选择、miRNA-mRNA网络分析)如何提升模型的准确性和可解释性,为精准医疗和个性化治疗策略提供了前沿视角。

  
癌症是全球主要死亡原因之一,其早期检测和准确分类对于改善患者预后至关重要。传统方法在肿瘤诊断和分类方面仍面临挑战。在此背景下,微小RNA作为一种潜在的生物标志物崭露头角,为精确的肿瘤分类和亚型区分带来了希望。这些长度约18-22个核苷酸的非编码RNA,在癌症进展中可作为致癌基因或抑癌基因调节基因表达。更重要的是,它们在血液、尿液和唾液等体液中稳定性高,使其成为非侵入性诊断程序的理想选择。
机器学习模型的出现,为从海量miRNA数据中挖掘信息提供了强大工具。通过分析癌症基因组图谱等大型数据库提供的高通量测序数据,机器学习能够识别出对各种癌症(如乳腺癌、肺癌、结直肠癌和肾癌)具有鉴别意义的miRNA特征。其工作流程通常包括数据收集与预处理、数据划分、特征选择、评估和建模等关键步骤。机器学习算法可以分为监督学习无监督学习两大类,前者利用标记数据进行模式识别以区分预定义的肿瘤类别,后者则分析未标记数据以揭示其内在分组或亚结构。
在机器学习的癌症分类应用中,数据预处理是构建稳健模型的关键第一步,旨在处理原始数据的高维性、稀疏性和噪声。特征工程则是将原始数据转化为具有生物学意义的新变量,例如构建失调的miRNA–mRNA网络,这能更深刻地揭示癌症中调控关系的重编程。紧随其后的特征选择环节至关重要,它能从成千上万的miRNA中筛选出最具信息量的子集,从而提高模型效率、泛化能力和可解释性。常用的特征选择方法包括过滤法、包装法和嵌入法。
具体到不同癌症类型,机器学习与miRNA的结合展现出巨大潜力。
乳腺癌分类中,研究表明,利用简单的决策树规则(如“若miR-139低表达且miR-183高表达,则样本归类为肿瘤”)即可有效区分肿瘤与正常组织。而基于血清miRNA表达谱的线性支持向量机模型,甚至能在小样本数据集上对Luminal A、Luminal B、三阴性乳腺癌和HER2+亚型实现接近100%的准确分类。这凸显了机器学习处理高维小样本数据的能力。
对于肾癌,深度学习模型显示出独特优势。例如,长短期记忆网络模型能够对miRNA表达谱进行序列化、上下文感知的处理,从而捕捉区分密切相关的肾癌亚型的细微分子特征。而结合了深度学习与模糊逻辑可解释性的自组织深度神经模糊系统,则能在保持模型透明度的同时,有效处理高通量基因组数据中的高维问题。
结直肠癌的早期无创诊断方面,研究焦点转向了粪便miRNA。通过机器学习管道,可以从数千个候选miRNA中筛选出稳健的5-miRNA特征谱,在独立验证队列中展现出极高的诊断性能(曲线下面积高达0.96)。此外,随机森林等模型还能根据miRNA表达谱将结直肠癌样本精确划分为具有不同生物学和临床特征的共识分子亚型。
对于肝细胞癌,研究致力于区分其与肝转移癌。比较多种机器学习模型后发现,随机森林在区分肝癌与肝转移、以及肝癌与正常样本方面均表现最优,其处理不平衡和非线性数据的能力是取得高精度(准确率达91%,AUC超过0.95)的关键。
尽管前景广阔,该领域仍面临挑战,包括数据集不平衡、批次效应以及可重复性问题。未来,整合miRNA数据与其他分子数据(如基因组学、蛋白质组学数据),将为更全面地理解癌症发展的分子机制和通路提供可能。总体而言,基于机器学习的miRNA癌症分类方法,正推动癌症诊断向更精准、个性化的新时代迈进。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号