外泌体miRNA液体活检标志物的计算预测模型构建与验证

【字体: 时间:2025年08月26日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对液体活检中exosomal miRNA(外泌体微小RNA)预测的挑战,开发了整合序列比对与人工智能的EmiRPred模型。研究人员通过MERCI和BLAST挖掘序列特征,结合机器学习(ML)、深度学习(DL)和预训练语言模型(PLM),构建了AUC达0.73的集成模型,揭示了GgapAAGCAC等关键motif。该成果为无创诊断提供了新型计算工具,相关平台已开源。

  

在精准医疗时代,液体活检技术因其无创特性成为疾病诊断的新宠。然而传统生物标志物如循环肿瘤DNA(ctDNA)存在丰度低、稳定性差等局限。近年来,外泌体(exosome)因其携带的miRNA具有高度稳定性,成为液体活检的明星靶标。但外泌体miRNA的筛选机制如同"分子黑箱",实验验证耗时费力,且现有计算方法预测精度不足——这正是Akanksha Arora和Gajendra Pal Singh Raghava团队在《Scientific Reports》发表研究的突破口。

研究团队采用多组学策略,首先从RNALocate和miRBase数据库收集1912条人源miRNA序列(956条外泌体来源,956条非外泌体),构建训练集与验证集。关键技术包括:1)MERCI软件挖掘序列motif;2)BLAST短序列比对;3)Nfeature提取核苷酸组成等214维特征;4)结合随机森林(RF)、卷积神经网络(CNN)等7种算法;5)DNABERT语言模型进行序列嵌入。最终通过加权集成策略融合三类方法优势。

Alignment-based classification methods

通过MERCI发现GgapAAGCAC等11个外泌体特异性motif,但仅覆盖5.2%序列。BLAST在e-value=10-2时准确率最高,但覆盖率仅29%。

AI-based classification methods

特征分析显示外泌体miRNA偏好1号位点C碱基(C_1)、21号位点U(U_21)等结构特征。集成模型在验证集达到AUC 0.707,其中反向互补序列三核苷酸RDK_CAC差异最显著(p<0.0001)。

Hybrid classification method

融合motif搜索、BLAST比对和Extra Trees算法,最终模型AUC提升至0.73,准确率67.62%,显著优于miRNALoc等现有工具(AUC 0.494)。

该研究首次系统揭示了外泌体miRNA的序列特征规律,开发的EmiRPred平台(https://webs.iiitd.edu.in/raghava/emirpred/)包含四大功能模块:预测、设计、motif扫描和序列比对。值得注意的是,模型在EL-RMLocNet数据集测试中AUC高达0.891,证实其强泛化能力。尽管当前外泌体异质性仍带来预测挑战,但这项工作为癌症、心血管疾病等领域的无创诊断提供了新型计算框架,其设计的突变体生成功能更为RNA疗法开发开辟了新思路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号