
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于表格Transformer的LPItabformer模型:增强lncRNA-蛋白质相互作用预测的泛化能力
【字体: 大 中 小 】 时间:2025年05月30日 来源:Computational and Structural Biotechnology Journal 4.5
编辑推荐:
推荐:本研究针对现有lncRNA-蛋白质相互作用(LPI)预测方法存在的数据泄露和泛化性不足问题,开发了基于表格Transformer框架的LPItabformer模型。通过引入域偏移不确定性(DSU)模块和蛋白质聚类分组验证策略,显著提升了模型对未知结合模式的预测能力,在人类和小鼠数据集上均优于现有方法,为揭示lncRNA功能机制提供了新工具。
长链非编码RNA(lncRNA)在生理和病理过程中扮演关键角色,其功能解析的核心在于理解lncRNA-蛋白质相互作用(LPI)网络。然而当前LPI预测面临三大困境:实验验证成本高昂、计算模型存在数据泄露风险、现有算法对真实生物场景的泛化能力不足。尤其值得警惕的是,传统随机拆分数据集的方式掩盖了RNA结合蛋白(RBP)固有的特异性结合模式,导致模型在遇到全新蛋白质家族时预测失效。
针对这一挑战,国内某研究机构团队在《Computational and Structural Biotechnology Journal》发表了创新性解决方案。研究者从RNAInter v4.0数据库构建了人类LPI250342和小鼠LPI346223数据集,采用MMseqs2序列聚类和APPRIS数据库分别确保lncRNA转录本和蛋白质亚型的可靠性。核心创新是开发了LPItabformer框架——将lncRNA的3-mer频率特征转化为类别数据,蛋白质1-mer特征作为数值数据输入FT-Transformer,并集成DSU模块增强域适应能力。通过蛋白质聚类引导的GroupKFold验证策略,首次系统评估了模型对未知蛋白结合模式的预测性能。
关键技术包括:1)基于MMseqs2的序列聚类分组;2)RNA与蛋白质k-mer特征差异化编码;3)Transformer Encoder与DSU模块的集成(TEDM);4)蛋白质特异性交叉验证策略。研究团队特别设计了四种特征编码模式对比实验,发现RNA分类+蛋白质数值的模式最优。
【GroupKFold揭示模型泛化缺陷】
通过对比标准5FCV与蛋白质GroupKFold,发现现有方法(LION、RPISeq等)在分组验证下性能下降30-80%,证实传统评估存在严重数据泄露。而LPItabformer在人类数据集保持98.51%准确率(ACC)和99.85% AUC,验证了其抗过拟合特性。
【DSU模块增强域适应】
调节DSU应用概率p发现:当p=0.8时,小鼠数据集G5FCV的F1-score提升4%,表明适度引入特征统计量不确定性可有效改善分布外预测。
【跨物种验证显优势】
在独立测试集LPI1853(含6个新蛋白质)上,LPItabformer预测准确率达69%,显著优于基线模型。案例研究证实其能准确预测癌症相关lncRNA MALAT1的4/6已知互作蛋白,并发现13个高置信度的新靶点。
【心脏病学应用验证】
通过分析心脏衰竭转录组数据锁定关键lncRNA SNHG18,实验验证其与心肌肥大的关联性,LPItabformer预测其互作蛋白被后续实验证实,为心血管疾病治疗提供新靶点。
该研究突破了LPI预测的泛化瓶颈,首创的蛋白质中心验证范式为生物网络建模树立了新标准。LPItabformer的轻量化设计(单层Transformer)尤其适合处理高通量测序数据,其开源实现将加速非编码RNA功能解码。未来可扩展应用于RNA药物靶点筛选和复杂疾病机制研究,为精准医学提供算法支撑。
生物通微信公众号
知名企业招聘