
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度学习的RSLpred2:水稻蛋白质亚细胞定位注释的集成网络服务器
【字体: 大 中 小 】 时间:2025年07月05日 来源:Rice 4.8
编辑推荐:
本研究针对水稻蛋白质亚细胞定位实验验证耗时且成本高的问题,开发了深度学习工具RSLpred2。通过四级分类系统(单/双定位区分、10类单定位预测、6类双定位分类及膜蛋白跨膜类型判别),模型在独立测试中准确率达95.8%,显著优于通用预测工具(如DeepLoc2的45.13%)。该研究为水稻功能基因组研究提供了高效注释工具,相关成果发表于《Rice》。
作为全球半数人口的主粮作物,水稻的蛋白质功能解析一直是植物生物学研究的关键挑战。尽管国际水稻基因组测序计划(IRGSP)已完成十余年,但大量蛋白质的功能仍未被阐明,其中亚细胞定位信息缺失严重制约着其功能研究。传统实验方法如荧光标记定位耗时费力,而现有计算预测工具(如基于支持向量机SVM的RSLpred-1.0)仅能覆盖4类单定位且精度有限。更棘手的是,约15%的水稻蛋白质存在双定位现象,但现有算法普遍缺乏对此类复杂情况的预测能力。
美国犹他州立大学的研究团队通过整合深度学习和物种特异性数据,开发了四级预测系统RSLpred2。研究首先从UniProtKB/Swiss-Prot中筛选出10,919条非冗余水稻蛋白质序列,采用卷积神经网络(CNN)架构,创新性地使用三肽组成(Tripeptide Composition, TPC)作为特征输入。关键技术包括:1)四级递进分类框架(单/双定位→10类单定位→6类双定位→膜蛋白跨膜类型);2)双重验证策略(5折交叉验证+独立数据集测试);3)物种特异性模型与通用模型(All-Plant)的对比验证。
Level I:单/双定位分类
通过双层CNN结构,模型在独立测试中实现98.12%的准确率(MCC=0.90)。例如,能准确区分分泌途径相关蛋白(如内质网驻留蛋白)与具有双重功能的调控蛋白。
Level II:10类单定位预测

Level III:6类双定位解析
针对"细胞膜-膜系统"共定位蛋白的预测精度达100%(如OsTudor-SN蛋白),揭示了蛋白质分选信号在物种间的特异性。
Level IV:膜蛋白跨膜类型判别
单次跨膜与多次跨膜蛋白的分类准确率达98.81%,为膜受体功能研究提供新线索。
研究通过38,210条水稻蛋白质组的全基因组注释证明,RSLpred2能同时满足高通量(日均处理>5,000条序列)和高精度需求。与通用工具相比,其物种特异性模型的预测性能提升35.83%,这暗示不同植物可能存在独特的蛋白质分选机制。该成果不仅为水稻功能基因组研究提供利器,其四级分类框架更为其他作物的定位预测工具开发树立了新范式。未来可通过整合进化分析,进一步揭示亚细胞定位的种间保守性与分化规律。
生物通微信公众号
知名企业招聘