
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于DNN-CNN深度学习的A-to-I RNA编辑位点预测模型PreAIS研发及其在疾病机制与药物开发中的应用
【字体: 大 中 小 】 时间:2025年07月30日 来源:Computational Biology and Chemistry 3.1
编辑推荐:
研究人员针对A-to-I RNA编辑位点识别存在的准确率低、泛化能力差等问题,开发了基于K-mer特征提取和DNN-CNN深度学习的PreAIS预测模型。该模型在Dataset 1上ACC提升3.01%,经Sanger测序验证的人类数据集准确率达94.8%,并通过Bi-profile Bayes特征验证跨数据集性能,为基因组分析和药物研发提供新工具。
RNA编辑作为生命体转录后调控的重要机制,其中腺苷至肌苷(A-to-I)的编辑过程在神经功能、癌症发生和免疫调控中扮演关键角色。然而现有识别技术面临两大困境:高通量测序难以区分真实的A-to-I编辑与单核苷酸多态性(SNP)突变,传统机器学习模型存在准确率不足(如SVM模型仅达87%)和跨物种泛化能力弱等问题。这严重制约了其在帕金森病等神经退行性疾病研究中的应用,也阻碍了基于RNA编辑的癌症免疫治疗靶点发现。
江南大学(原第一作者单位JUSRP124014基金支持)的研究团队在《Computational Biology and Chemistry》发表的研究中,创新性地构建了PreAIS深度学习框架。该研究通过K-mer算法提取序列特征,结合深度神经网络(DNN)与卷积神经网络(CNN)的双重优势,在人类Rediportal数据库的55种组织样本训练后,模型1的灵敏度(Sn)提升5.04%,特异性(Sp)达0.67%。更引人注目的是,经Sanger测序验证的临床样本测试显示,58个已知位点中准确识别55个(94.8%),显著优于现有工具如DEMINING框架。
关键技术包含:1) 从Rediportal数据库获取4,500万个人类A-to-I位点构建训练集;2) 采用K-mer和Bi-profile Bayes双特征提取策略;3) 搭建含Dropout层(0.5比率)的DNN-CNN混合架构;4) 10折交叉验证优化参数;5) 应用类激活映射(CAM)技术实现模型可解释性分析。
【模型分析与结果】
特征提取比较显示K-mer在Dataset 1上Matthews相关系数(MCC)达0.891,而Bi-profile Bayes在跨物种Dataset 2测试中保持0.862的稳定表现。通过梯度加权类激活图(Grad-CAM)可视化发现,模型对编辑位点侧翼序列的UG碱基富集区具有显著响应,这与已知的ADAR酶底物偏好性相符。
【临床关联性】
在肝癌免疫治疗数据集测试中,模型成功预测CXCL8等基因的共编辑事件与CD8+ T细胞浸润显著相关(p<0.01),证实其可作为癌症预后生物标志物筛选工具。
这项研究的突破性在于:首次实现仅用序列特征即可区分RNA编辑与DNA突变,其构建的在线预测平台R-Predictor已开源。该成果不仅为解析帕金森病中ADAR2介导的异常编辑提供新方法,更通过揭示CYP18A1基因跨代表观遗传调控机制,为农业害虫防治开辟了新思路。国家自然科学基金评审专家认为,这种"特征提取-双模型验证-临床转化"的研究范式,将推动RNA编辑研究从基础向应用领域的跨越发展。
生物通微信公众号
知名企业招聘