综述:人工智能与RNA生物标志物在癌症中的整合:诊断与靶向治疗进展
【字体:
大
中
小
】
时间:2025年10月11日
来源:Cell Communication and Signaling 8.9
编辑推荐:
本综述系统探讨了人工智能(AI)与RNA生物标志物(包括miRNA、lncRNA、circRNA)在癌症诊断与治疗中的前沿融合。文章重点介绍了机器学习(ML)和深度学习(DL)算法如何高效解析复杂RNA表达数据,发现新型生物标志物,并推动癌症的早期检测、分型、预后预测及治疗反应监测。尽管面临数据标准化与临床验证等挑战,AI驱动的研究策略为肿瘤精准医疗带来了革命性前景。
RNA生物标志物与人工智能在癌症中的应用
RNA不仅传递遗传信息,还在转录和转录后水平发挥关键调控作用。尽管RNA在酸性环境中不稳定,但其在极低浓度下仍易于检测和定量。RNA生物标志物的敏感性和特异性高于蛋白质生物标志物,且检测成本更低。通过下一代测序技术,可以在全基因组范围内测量RNA表达水平,从而更准确地检测低表达非编码RNA(ncRNA)和细微的表达变化。
RNA表达差异与疾病病理存在正相关或负相关。多基因表达模式已被用作癌症治疗成功的生物标志物。例如,PAM50 50基因面板已成功用于乳腺癌(BC)分类。BRCA1和BRCA2的高外显率突变与卵巢癌和乳腺癌显著相关,因此是癌症风险评估的优秀生物标志物。
近年来,许多不编码蛋白质的非编码RNA(如miRNA、circRNA和lncRNA)被发现具有重要功能,其中许多有潜力作为生物标志物。这些ncRNA参与转录和转录后调控,有些充当癌基因或肿瘤抑制因子,其他则在细胞分化、增殖和凋亡过程中发挥重要作用。
人工智能驱动的RNA生物标志物发现模型
人工智能(AI)已开始作为计算机工具来识别和评估潜在的癌症生物标志物。通常,与生物标志物识别相关的AI技术包括深度学习(DL)、机器学习(ML)和计算搜索方法。计算搜索算法使用结构化、顺序的方法来评估一组变量,而机器学习技术具有内在的反馈循环,允许在训练期间更改模型参数,然后在测试中进行验证。这些方法经常利用控制学习,这是一种依赖于结果数据和标记变量的方法。
许多研究使用机器学习评估RNA测序(RNA-seq)数据,以发现区分肿瘤和正常组织的新转录本生物标志物。Gupta等人使用这种方法识别了三种新型生物标志物,可区分HCC肿瘤和正常肝组织:SPON2-203、PARP2-202和CYREN-211。最后一种转录本被确定为非编码,而前两种为蛋白质编码。这表明转录本的编码状态并不总是其生物标志物意义的可靠指标,非编码转录本仍可发挥重要的调控作用。他们从文献研究中汇编的已建立的HCC生物标志物具有最高的预测价值,但添加上述转录本提高了整体精度。
Gholizadeh等人尝试利用生物信息学分析和ML算法识别mRNA;他们还创建了一种筛选技术,可区分健康和HCC组织。这项工作除了三种诊断生物标志物(AFP、CYP2E1和ARK1C3)外,还产生了四个额外的预后标志物(MAGEA6、RDH16、SOCS2和RTN3)。Zhang和Liu在研究中使用了来自癌症基因组图谱(TCGA)的高通量组学数据。他们专注于ML特征选择技术,选择了六个基本特征子集作为可靠生物标志物,并随后检查了已发现生物标志物的功效。他们发现许多重要基因存在重叠,包括EPHB1、SKAP1、STC2、CDHR2、MUC6、FAM134B、PHOSPHO1和OXT,这些基因都以某种方式与HCC的发生相关。这些已被证明与HCC的发生和传播密切相关的生物标志物支持了这种方法。
同样,Zhao等人使用机器学习(特别是随机森林技术)识别了用于HCC检测的差异表达mRNA和miRNA生物标志物。五种miRNA(hsa-miR-183-5p、hsa-miR-10b-5p、hsa-miR-224-5p、hsa-miR-10b-3p和hsa-miR-182-5p)靶向mRNA SFRP1、EDNRB、NR4A3、FHL2、NKX3-1、IL6ST和FOXO1,这些miRNA与HCC癌变的发展相关,可提供诊断和预后信息。除了比较正常组织与HCC组织外,基因表达谱的荟萃分析通过转录组网络发现了区分HCC和胆管癌的生物标志物。
利用高效机器学习方法构建的强大癌症诊断工具是带有突变靶向RNA修饰的血清miRNA。Liao等人使用改进的机器学习方法研究了RMvar相关miRNA是否与靶向RNA修饰的miRNA变异形成的肿瘤特征显著相关,从而识别这些miRNA。利用43,047个临床样本和504个血清RMvar相关miRNA,使用九种不同的ML算法创建了用于检测癌症的诊断特征(在验证队列中AUC值为0.998,特异性为93.1%,敏感性为99.3%)。
RNA生物标志物在癌症管理中的应用
AI支持的RNA早期癌症诊断
分子生物学的重要进展是发现RNA作为癌症早期识别的潜在生物标志物。其中一种RNA生物标志物,如特定的miRNA特征,可能在早期准确检测尚未可见的肿瘤方面发挥重要作用。例如,Lu等人筛选了来自300多名患者衍生生物样本(包括各种恶性肿瘤样本)的miRNA表达谱。仅miRNA分析就能正确分类低分化癌症,而其mRNA对应物则极其不准确。这显示了miRNA分析在癌症识别方面的潜力。
此外,Shi等人最近研究了miRNA作为慢性胰腺炎患者早期胰腺癌(PC)诊断的潜在工具。该研究使用强大的排名聚合(RRA)机器学习技术评估了用于早期胰腺检测的潜在miRNA生物标志物的表达谱。例如,发现血清中的miR-205-5p能够以91.5%的准确率区分胰腺炎和PC患者。此外,结果表明miR-205-5p表达可作为晚期疾病的生物标志物。具体来说,在R1/2切除切缘(指示残留肿瘤)内具有高表达率的肿瘤标本与在R0切除切缘内具有低表达率的肿瘤标本相比,预后更差。将进化驱动的AI学习方法应用于癌症检测和早期治疗决策可以大大改善结果,包括提高总生存率和降低癌症复发率。
CancerSig程序是一个进化学习示例;它利用双目标组合遗传算法来理解可能促进癌症早期识别的miRNA特征。其表达为C(n, m),其中‘n’是从4,667名患有15种不同癌症类型(包括来自TCGA的HCC)患者中采集的7,117个可能miRNA的池,‘m’是特定于癌症阶段的miRNA谱。泛癌miRNA特征研究表明,三种miRNA(let-7i-3p、miR-362-3p和miR-3651)可以区分肿瘤和非肿瘤样本。在研究的15种癌症类型中,有八种中这三种miRNA显著影响阶段预测。
通过整合机器学习和生物信息学的替代技术,已识别出可能的PC诊断miRNA生物标志物。该研究数据集检查了来自基因表达综合(GEO)数据库的三个不同数据集,每个数据集包含血清衍生的miRNA表达谱。三种ML算法——随机森林、最小绝对收缩和选择算子回归分析以及支持向量机(SVM)——发现了三种候选miRNA(miR-125b-1-3p、miR-4648和miR-3201),由于它们改变的差异表达模式,显示出作为诊断生物标志物的潜力。组合模型在训练和验证期间表现出卓越的性能和准确性,报告的AUC值分别为0.926和0.935。
使用RNA生物标志物进行AI癌症分期预测
根据美国癌症联合委员会制定的TNM分期系统第八版进行的评估具有最重要的意义,就像在大多数实体瘤的管理中一样。由于癌症在不同阶段可能差异很大,这种分期方法对于确定治疗和预后选项至关重要。
人工智能正在彻底改变癌症研究和治疗的许多方面,特别是在诊断、预后和治疗选择等领域。人工智能在肿瘤学中一个非常有前景的应用是基于RNA生物标志物的癌症分期预测。RNA生物标志物,包括mRNA和非编码RNA(miRNA和lncRNA),在细胞内的基因表达和调控过程中扮演关键角色。这些RNA的失调通常与癌症进展相关,并可提供关于肿瘤阶段和侵袭性的重要见解。
人工智能技术,特别是ML和DL,正越来越多地用于分析癌症患者的RNA表达谱并预测疾病阶段。这些RNA生物标志物的表达水平根据癌症类型和阶段而变化。随着癌症从早期(局部)进展到晚期(侵袭性)阶段,它们的表达可能上调或下调,提供关于肿瘤侵袭性的线索。
人工智能系统通常处理由高通量RNA测序或微阵列技术生成的数据。这些平台可以测量样本中数千种RNA分子的表达水平。预处理步骤如标准化、噪声减少和特征选择至关重要。人工智能模型需要干净、高质量的数据来检测相关模式。特征选择技术如递归特征消除(RFE)或主成分分析(PCA)有助于减少不相关或冗余的RNA标志物数量。此外,支持向量机(SVM)、随机森林和神经网络等人工智能模型在标记的RNA生物标志物上进行训练,用于癌症分期预测,例如淋巴结转移(LNM)和远处转移。最近,卷积神经网络(CNN)等深度学习技术已被用于协助医疗专业人员通过超声图像识别淋巴结转移。通过超声成像识别LNM是一种直接而精确的诊断方法;然而,诊断通常发生在转移之后。
许多研究记录了淋巴结转移过程中的非典型基因表达。Okugawa等人的研究表明,KiSS1表达与结直肠癌中的LNM显著相关。Zhang等人利用差异表达的mRNA和ncRNA预测了LNM。mRNA和ncRNA的表达数据是研究和预测LNM的重要工具。基因连接的失调比孤立基因更准确地阐明了癌症的进展和传播。例如,AKT1在各种癌症类型中异常表达,其上调与LNM相关。然而,新研究表明,在舌鳞状细胞癌中,miR-138通过与AKT1结合来调节其表达。相反,miR-519d通过调节口腔鳞状细胞癌和BC中的MMP3来抑制LNM。
在癌症领域,ceRNA网络的研究为理解组学数据提供了新机会。许多计算方法已被创建用于建立用于转移预测的ceRNA网络。Lee等人设计了一种新方法,通过分析癌症中miRNA与其靶RNA之间的差异相关性来预测LNM和远处转移,利用广泛的RNA测序和临床数据。miRNA与其靶RNA之间的差异相关性表明,包含miRNA-RNA对的miRNA-RNA相关性和网络在预测预后和转移方面更有效,使用了具有径向基函数(RBF)核的SVM和逻辑回归(LR)机器学习算法。
Li等人开发了新方法来提取重要的基因特征,并训练机器学习分类器来预测肾细胞癌样本的阶段。他们使用具有Elastic-net、Lasso和Adaptive lasso惩罚的多变量Cox回归以及最佳子集回归分析来识别预后相关的miRNA特征,并使用来自TCGA的miRNA表达谱预测ccRCC的早期和晚期肿瘤阶段。为了提高膀胱癌分期的准确性,Qureshi等人提出了使用人工智能和基于MRI/RNA测序的放射组学。他们提出了一个模型,能够区分膀胱内和膀胱外癌症,平均敏感性、特异性和准确性分别为94%、88%和92%。同样,Sathipati和Ying提出了基于SVM的分类器和SVM-BRC,将BC患者分为早期和晚期阶段。研究人员分析了来自TCGA的386名BC患者的miRNA表达谱。SVM-BRC从503种miRNA中识别出34种作为特征,10倍交叉验证的平均准确率为80.38%,敏感性、特异性和马修斯相关系数值分别为0.79、0.81和0.60。
总体而言,人工智能在RNA生物标志物方面的准确性和敏感性能够很好地区分已建立的肿瘤特征及其阶段,从而实现有效的癌症管理。然而,在标准化肿瘤分期预测和确保准确结果方面仍然存在重大障碍,这两者对于有效的癌症治疗都至关重要。
AI基于RNA生物标志物预测癌症复发
考虑到治疗的长期目标,了解哪些患者更可能经历肿瘤复发是有益的。它还将帮助医生和患者清楚地了解疾病的进展,从而制定更有针对性的治疗计划。
人工智能可以通过提高肿瘤复发预测的准确性来显著影响临床结果和治疗计划。Rodriguez-Luna等人使用人工神经网络(ANN)进行微卫星突变或缺失基因分型,预测了19名接受肝移植的HCC患者的肿瘤复发,判别力为89.5%。Shen等人利用机器学习和公共数据库制定了HCC肿瘤复发的预测模型。他们通过寻找与复发相关的遗传特征来验证模型。通过将人工智能与传统的统计方法(如卡方检验和生存分析)相结合,他们的模型在预测肿瘤复发方面达到了74.19%的精确度。
在此基础上,Fu等人创建了一个人工智能模型,用于早期检测HCC复发预测,使用ncRNA(如通过机器学习获得的lncRNA特征)结合TNM分期和AFP值。他们使用了多变量Cox分析和三种ML算法——LASSO、随机森林和SVM-RFE——来选择适当的lncRNA特征。根据他们的多变量分析,有三个独立的HCC复发指标:ML风险评分(HR=1.5,p=0.015)、AFP水平(HR=1.74,p=0.012)和TNM分期(II+IV期HR=2.01,p=0.01)。
该领域的研究还尝试通过使用人工智能和机器学习方法创建和验证许多非编码基因特征来预测癌症复发。例如,HSIC算法识别非编码基因表达与癌症基因复发之间的关联,这些基因受多个风险因素控制。Srividhya等人使用带有相关矩阵的HSIC模型来寻找可能预测宫颈癌(CC)基因复发的lncRNA。他们建立了递归RNN模型来查找与CC复发相关的枢纽基因。他们使用LSTM模型在一定程度上预测了CC的传播。他们的研究使用人工鱼群算法(AFSA)来识别增殖的CC细胞。他们提出了一种新方法,使用指示CC复发高可能性的正风险评分和指示CC低可能性的负风险评分来解决风险值问题。所提出的方法显示正风险评分为45.987,负风险评分为-32.654。
另一个问题是缺乏全面的注释RNA数据库,特别是对于罕见癌症,很难发现大规模数据集。协作的、多机构的数据共享网络可以帮助克服缺乏完整注释RNA数据库的问题。通过合并来自多个研究中心和医院的数据,可以构建更多样化和庞大的RNA样本集合,从而增强统计强度和注释深度。合成数据创建技术,如基于人工智能的预测建模,在缺乏实际数据的情况下也可以用于重现RNA表达模式。
Nirmal等人的实验和Frasca等人获得的数据仍然强调需要将ML与领域特定知识相结合。数据研究人员和领域专家之间的有效合作是构建模型、解释结果并使算法与领域特定要求和限制保持一致的唯一途径。
根据欧盟的AI法案,强调算法需要为用户提供“足够的透明度”,人工智能系统的可解释性现在对于高风险应用是强制性的。该主题至关重要,因为它涉及理解模型操作动态并向非专家提供有价值的见解,以确保负责任、合乎道德和可辩护的人工智能使用。
尽管存在这些挑战,由于其深远的临床意义,利用计算工具有效准确地预测恶性肿瘤的存在和阶段,包括以前无法检测的肿瘤,仍然受到相当大的热情。总之,未来的转化观点表明,将基于人工智能的模型与高质量、标准化的RNA数据集和可解释框架相结合,以及协作的多机构网络,可以推动RNA生物标志物的临床应用走向精准肿瘤学和智能医学。
讨论
人工智能与RNA生物标志物研究的整合正在重塑癌症诊断和治疗的前景。 reviewed literature underscores AI's capacity to enhance the discovery, validation, and clinical application of diverse RNA molecules, including miRNAs, lncRNAs, and circRNAs. 这些非编码转录本曾被认为是转录副产物,现已被确立为致癌和肿瘤抑制通路的关键调节因子。通过将高通量转录组技术与人工智能算法结合,研究人员可以从复杂数据集中提取临床相关模式,而传统的分析方法往往无法解析这些模式。
本研究中强调的最重要发现之一是人工智能对早期癌症检测和分期的贡献。支持向量机、随机森林和深度神经网络等模型在区分恶性和良性组织、分类肿瘤亚型和预测复发风险方面表现出高准确性。例如,使用miRNA表达谱与人工智能结合在低分化肿瘤的早期分类中已显示出优于基于mRNA的方法。同样,预测生存或复发的lncRNA特征的识别说明了人工智能如何实现对患者更精细的分层,推进了精准肿瘤学的目标。
尽管有这些有希望的结果,但一些限制因素影响了人工智能辅助的RNA生物标志物分析的临床转化。一个持续的挑战是缺乏足够大、标准化和表型注释的数据集,特别是对于罕见癌症。样本处理、测序平台和计算流程的差异引入了可变性,可能使模型训练产生偏差并影响可重复性。即使人工智能在模式检测方面很出色,但理解和使用复杂模型的困难是临床使用人工智能的另一个障碍。临床医生需要透明且具有生物学意义的解释来说明算法预测,以建立信心并确保符合监管要求,正如欧盟AI法案等框架所强调的那样。
将人工智能整合到肿瘤学的伦理和实际影响也必须仔细解决。数据隐私、训练数据集中潜在的偏见以及人工智能驱动技术的公平获取等问题是负责任实施的关键考虑因素。协作的、多机构的数据共享倡议和可理解的人工智能模型代表了克服这些障碍的可行策略。此外,将人工智能驱动的预测与已建立的临床参数(如TNM分期和生物标志物面板)相结合的混合方法可能会产生更强大和临床可接受的结果。
展望未来,人工智能、RNA生物学和多组学整合的融合为更智能的癌症护理提供了道路。人工智能驱动的模型不仅可以促进患者的早期检测和分层,还可以促进新型治疗靶点的识别和RNA-based疗法(如siRNA和反义寡核苷酸)的优化。然而,要实现这一目标,需要临床医生、统计学家、分子生物学家和政府机构之间的合作。通过连接这些领域,人工智能支持的RNA生物标志物研究可以从概念验证研究过渡到常规临床实践,最终改善患者结果并减轻癌症护理的负担。
结论
这项全面的研究表明,人工智能和RNA生物标志物分析的结合如何在癌症预后和诊断方面产生了显著进步。在整个审查的研究中,基于人工智能的技术显示出约90-92%的平均诊断准确性,集成和深度学习方法在某些数据集中通常达到>95%的准确性。敏感性值平均约为92-94%,而特异性通常保持在88-90%,表明具有强大的分类能力。显著的是,报告的AUC值一直很高,平均为0.90-0.95,一些ML模型如随机森林、XGBoost和人工神经网络达到接近完美的性能(AUC~1.0)。
当这些发现结合在一起时,跨多个数据集的平均准确度约为91%,敏感性约为93%,特异性约为89%,AUC约为0.92,可用于描述基于生物标志物的癌症分析中AI-RNA生物标志物模型的整体性能。这些基准表明人工智能驱动方法在癌症分析中的一致性和可靠性。
ML技术,如逻辑回归、决策树、随机森林和梯度提升,已获得91-98%的准确度,特异性接近100%,敏感性经常超过95%。与经典模型类似,深度
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号