
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ShortStop机器学习框架:突破微蛋白发现瓶颈的创新工具
【字体: 大 中 小 】 时间:2025年08月02日 来源:BMC Methods
编辑推荐:
研究人员针对微蛋白(smORFs)功能鉴定难题,开发了ShortStop机器学习框架。该研究通过构建人工合成序列PRISMs作为负对照,结合Swiss-Prot已知微蛋白特征,实现了90%以上准确率的分类(SAMs/PRISMs),成功发现被传统方法遗漏的StARuMP等功能性微蛋白,为癌症等疾病研究提供了新靶点筛选工具。
在人类基因组中,隐藏着超过300万个被称为小开放阅读框(smORFs)的短序列,它们可能编码长度小于150个氨基酸的微蛋白(microproteins)。这些分子虽小,却可能扮演着重要角色——从调控基因表达到参与疾病发生。然而长期以来,科学家们面临一个巨大挑战:如何从海量的smORFs中识别出真正具有生物功能的微蛋白?传统方法如核糖体图谱(ribosome profiling)和进化保守性分析存在明显局限,前者可能遗漏重叠阅读框,后者则无法识别新近进化产生的微蛋白。
美国索尔克生物研究所(Salk Institute for Biological Studies)的Brendan Miller团队在《BMC Methods》发表的研究给出了创新解决方案。研究人员开发了名为ShortStop的机器学习框架,通过构建"人工合成微蛋白"PRISMs作为负对照,与Swiss-Prot数据库中已知微蛋白(SAMs)进行特征比对,实现了对smORFs编码潜力的高精度预测。该系统分类准确率达90-94%,成功发现了被传统方法忽略的功能性微蛋白如StARuMP,并在肺癌组织中鉴定出差异表达的微蛋白候选物。
关键技术包括:1) 基于Mudge-2022数据集生成匹配氨基酸组成的PRISMs序列;2) 整合CTD(组成-转换-分布)、CKSAAP(k间隔氨基酸对组成)和APAAC(两亲性伪氨基酸组成)特征工程;3) 采用XGBoost算法进行三分类(PRISMs/胞内SAMs/分泌型SAMs);4) 结合质谱验证从HEK293T和K562细胞系中检测到900余个新型微蛋白;5) 利用29例非吸烟肺癌患者RNA-seq数据筛选差异表达微蛋白。
模型构建与验证
研究团队设计了1000次重复的PRISMs生成和训练流程,XGBoost模型在区分SAMs与PRISMs时表现出最优性能(AUC=0.97)。特征重要性分析揭示N端疏水性和LxL(亮氨酸-X-亮氨酸)、GxR(甘氨酸-X-精氨酸)等基序是关键判别指标。当应用于7274个已知翻译的smORFs时,仅8%被归类为SAMs,提示大多数翻译事件可能不产生稳定蛋白。
生物学特征解析
SAMs显示出独特的理化特性:C端疏水性降低(减少蛋白酶体降解)和N端亲水性增强(提升溶解度)。典型案例是lncRNA PTPRG-AS1编码的人类特异性微蛋白,其信号肽序列与LEPROTL1蛋白有78.7%同源性。对调控性uORFs的分析发现,ATF4的uORF被正确分类为PRISM(无蛋白功能),而MKKS的两个uORF则被归类为SAMs,与既往报道的线粒体定位现象一致。
技术整合优势
与传统方法对比显示,ShortStop能识别被TIS Transformer和核糖体图谱遗漏的微蛋白。在质谱验证中,341个HEK293T细胞特有SAMs未被任何现有方法报道。特别值得注意的是StAR基因上游重叠smORF编码的StARuMP——尽管在K562细胞核糖体图谱中检测到翻译信号,但因侧翼多映射区域干扰未被常规流程识别。放射性免疫测定显示该微蛋白在睾丸(500 pg/mg)和脑脊液(1102 pg/mg)中含量显著,提示组织特异性调控。
临床转化潜力
在非吸烟肺癌队列中,ShortStop鉴定出116个肿瘤特异性表达的HLA-I呈递微蛋白。最显著的是COL1A1转录本编码的富含亮氨酸肽段LAPLVHLV,其RNA水平在肿瘤组织中显著上调并通过免疫肽组学验证。这些发现为癌症生物标志物开发提供了新思路。
这项研究的意义在于建立了首个标准化微蛋白分类体系,解决了该领域缺乏可靠负对照数据集的核心瓶颈。ShortStop的创新性体现在:1) 通过PRISMs模拟非功能性翻译产物的理化特征;2) 实现与质谱、核糖体图谱等多组学数据的无缝整合;3) 发现传统方法难以检测的调控性微蛋白。未来,该框架可广泛应用于疾病相关微蛋白筛选、药物靶点发现及基因组注释优化,推动这个新兴领域向标准化、系统化方向发展。
生物通微信公众号
知名企业招聘