综述:翻译后修饰的生物信息学新星

【字体: 时间:2025年10月10日 来源:Journal of Molecular Biology 4.5

编辑推荐:

  本综述系统回顾了薛宇教授在翻译后修饰(PTM)生物信息学领域的开创性贡献。文章重点介绍了其开发的GPS系列算法(如Group-based Prediction System)及多种PTM数据库(如CPLM、EPSD),并深入探讨了如何通过人工智能(AI)技术预测PTM位点功能、分析PTM组学(PTMomic)数据及解析动态调控网络。作者结合实验验证,揭示了PTM在疾病机制(如癌症代谢、神经退行性疾病)中的关键作用,并前瞻性地提出"生命分子语言(vit-molecular language, VML)"概念,为PTM研究提供了全新范式。

  
Abstract
薛宇是华中科技大学生命科学与技术学院教授,并兼任湖北洪山实验室研究员。他于2002年在中国科学技术大学(USTC)获得高分子科学与技术和计算机科学双学士学位,2006年获得USTC细胞生物学博士学位。主要研究方向为蛋白质翻译后修饰(PTMs)的计算分析,该领域被他称为PTM生物信息学。自2004年起,其团队开发了包括Group-based Prediction System(GPS)在内的多种算法,用于预测PTM位点及其功能相关性。他们还构建了多个PTM相关数据库,并设计了分析PTM组学数据和推断关键调控酶的方法。通过广泛合作和自主实验工作,他们预测并发现了动态生物过程中的新PTM位点和调控因子。他担任中国生物物理学会人工智能生物学(AIBIO)分会联合创始人兼秘书长。2023年,他提出"生命分子语言(vit-molecular language)"概念,将PTM调控与人类自然语言进行类比。他预见前沿AI技术结合传统生物信息学和实验方法将深刻赋能未来PTM研究。
Introduction
PTMs是调节生命系统中几乎所有生物过程的关键调控机制。顾名思义,PTMs发生在DNA转录为RNA和RNA翻译为蛋白质之后,涉及蛋白质中共价键的形成或破坏。因此,PTMs也被称为蛋白质共价修饰。在生命过程中,PTMs在时间和空间上调控蛋白质的活性、构象、稳定性、细胞运输、相互作用和交叉对话,决定了生命系统的动态性和可塑性。迄今已发现超过700种PTM类型,体内可能存在超过1040种具有不同PTM位点组合的蛋白质形式。然而,在任何确定的生理或病理过程中,只有有限数量的PTM位点具有显著的生物学效应。如何系统识别功能重要的PTM位点,以及阐明它们在生物调控网络中的分子机制,已成为重大挑战。
PTMs可以靶向氨基酸残基的侧链或肽骨架。大多数众所周知的PTMs是侧链PTMs,可分为两类:包括小化学基团(如磷酸化、乙酰化、S-棕榈酰化和甲基化)的共价连接,以及与小型蛋白质标签(如泛素化和SUMO化)的共轭。侧链PTMs通常是可逆过程,由保守的三元系统协调,包括催化功能基团添加的写入器(如蛋白激酶)、介导其去除的擦除器(如蛋白磷酸酶)和解释修饰信号的读取器(如具有磷酸结合结构域的蛋白质)。另一方面,肽骨架PTMs由蛋白水解酶不可逆催化。在细胞中,侧链PTMs促进对环境刺激的快速动态响应,而骨架PTMs导致维持细胞稳态的永久性改变。这种双重调控策略使生命系统能够整合瞬时信号和长期指令,凸显了PTM系统的功能多样性和复杂性。
识别PTM位点是进一步理解其分子机制和调控作用的第一步。以磷酸化为例,传统实验如胰蛋白酶磷酸肽作图、定点诱变和体外激酶测定耗时、费力且通量低。高通量串联质谱(HTP-MS/MS)的出现为大规模鉴定磷酸化位点(p-sites)提供了强大手段。目前,单次运行可定量表征数万个p-sites,为学界积累了越来越多数据。至少已在真核生物中鉴定到约2.8 M个p-sites和0.6 M个赖氨酸修饰位点。然而,仅32,762个p-sites(1.2%)被报道具有功能相关性,粗略估计只有约两千个功能相关的赖氨酸修饰位点,包括1117个人类泛素化位点和568个乙酰化位点。因此,识别PTM位点的功能相关性、其上游调控酶及其下游信号事件,对该领域提出了巨大挑战。过去二十年,我的实验室结合生物信息学、人工智能(AI)技术和实验方法分析PTMs。我们的努力不仅为学界产生了新算法、工具和数据资源,还提供了解决重要生物学问题的原理验证应用。
Prediction of PTM sites
对于此主题,读者可参考大量全面综述以及NetPhos、NetPhosK、Scansite和PredPhospho等开创性研究。此处我主要描述自己在此主题上的贡献。
2004年,我的第一个问题是如何从蛋白质序列预测p-sites。当时一个主要假设是p-sites周围的短侧翼序列决定了磷酸化的主要特异性。因此,单个位置氨基酸残基的特征可通过经典机器学习算法学习,如人工神经网络(ANNs)或支持向量机(SVMs)。此外,潜在p-sites可通过匹配预定义的共识基序简单搜索。我将此问题与姚博士讨论,他告诉我生物学家通常通过将短肽以p-sites为中心与报道的磷酸肽比对。如果他们肉眼感觉某个推定磷酸肽与一个或多个已知磷酸肽相似,他们会选择它作为进一步实验的候选。显然,这种方法不严格,因为不同生物学家有不同感觉,我的使命是将这种直觉转化为定量、可重复且准确的算法。
对于我的GPS算法开发,我们的基本假设是相似肽可能具有相似功能。首先,我们定义p-site肽PSP(m, n)为p-site周围m个左侧残基和n个右侧残基。然后,我们测量查询肽P与训练数据集中所有已知p-sites的平均相似性得分(S)。多年来,我并未真正理解我所做的工作,直到2015年阅读Brendan Frey博士的论文,他使用卷积神经网络(CNNs)深度学习框架开发DeepBind预测DNA和RNA结合蛋白的序列特异性。在现代视角下,GPS中的初始BLOSUM62矩阵可视为可训练嵌入层,将氨基酸投影到特征空间。位置特异性权重Wj功能类似于一维卷积核,通过扫描肽序列。相似性得分S的计算,随后是类似整流线性单元(ReLU)的操作S = 0(如果S < 0),反映了具有ReLU激活的单卷积层。尽管当时是启发式的,但这种简单架构共享了CNNs中特征提取和非线性变换的核心原理。与更复杂的深度学习模型相比,GPS的简单性使其高度可解释且成本效益高,适用于预测PTM位点,尤其是在训练数据有限时。基于组的预测策略还为分层和多任务学习提供了高效框架,如在GPS 6.0和pFunK中所示。
因此,尽管我在2015年前从未学习深度学习,我的直观设计与AI发展趋势一致。此评分方法从GPS 1.0到5.0基本未变。2020年,我的一位前研究生宁万山博士将单标量S替换为231维特征向量。该向量由查询肽与训练集中所有已知PTM位点之间的成对氨基酸替换得分构建,以更丰富的高维格式捕获序列上下文。该向量随后用作各种深度学习方法的训练模型输入。
然后,我的第二个问题是如何预测激酶特异性p-sites,或计算分配特定蛋白激酶给已知或预测的p-sites。我们的假设是相似激酶可能识别相似的序列谱进行磷酸化。在GPS 1.0和1.10中,我们基于序列相似性将蛋白激酶聚类到不同组。后来在2008年,我们使用Gerard Manning博士建立的原理,他将所有人类蛋白激酶分层分类为组、家族、亚家族和单激酶。当时,Phospho.ELM 6.0发布,包含3,161个报道的激酶特异性p-sites。使用此数据集训练,我们开发了GPS 2.0软件包,构建了144个丝氨酸/苏氨酸激酶和69个酪氨酸激酶预测器。GPS 2.0可分层预测408个人类激酶的激酶特异性p-sites。当时,第二全面的预测器Scansite仅能预测约20种激酶。即使在今天,此数量也未被他工具超越,如NetPhorest、NetworKIN和KinomeXplorer。2023年,我们使用深度学习后迁移学习策略开发GPS 6.0,可预测185种真核生物中44,046种激酶的激酶特异性p-sites。GPS算法已扩展用于预测其他类型PTM位点,并帮助许多生物学家识别新的重要p-sites。
我的第三个问题是如何预测PTM位点的功能相关性。2012年,Pedro Beltrao博士及其同事通过对11种真核生物约200,000个磷酸化、乙酰化和泛素化位点的分析进行了试点研究。他们预测功能性PTMs如果参与调控PTM交叉对话、蛋白质活性或蛋白质-蛋白质相互作用。经过一系列后续研究,Pedro Beltrao博士开发了名为funscoR的方法,整合59种序列、结构、蛋白质组和进化特征预测p-sites的功能相关性。对于模型训练,他们使用了2,638个报道具有功能相关性的p-sites数据集。与磷酸化相比,许多PTMs如丙酰化、β-羟基丁酰化、乳酸化和巴豆酰化尚未得到充分研究,分别仅13、9、11和21个位点被报道具有功能性。预测这些较少研究的PTMs的功能相关性是典型的小样本学习或少样本学习任务。直接使用此类小数据集训练模型将高度不稳定且容易过拟合。在最近研究中,我们借鉴了蛋白激酶分层分类的思想,并将其扩展为分层学习框架pFunK。对于训练pFunK,我们首先使用29种赖氨酸PTM类型的145,657个非冗余位点的大数据集学习赖氨酸修饰位点周围短序列中的"上下文"信息。初始模型首先使用6,932个报道的β-羟基丁酰化位点微调,然后使用9个报道功能性的β-羟基丁酰化位点微调。分层学习能够使用微小训练数据集准确预测功能重要的PTM位点,并帮助发现醛缩酶B(ALDOB)K108的β-羟基丁酰化在生酮饮食下抑制癌细胞代谢中必需。
Development of AI-ready PTM databases
发布GPS 2.0后,我们立即发现AI就绪数据已成为我们任何进一步发展的主要瓶颈。除算法外,预测准确性主要受两个因素限制:报道的PTM位点数量和PTM调控因子的全面分类。
为解决第一个问题,我们决定开发自己的PTM位点数据库。2010年,由于PTM组学技术的进步,实现了大规模鉴定赖氨酸乙酰化位点。通过收集3311种蛋白质中的7151个实验鉴定的乙酰化位点,我们开发了第一个PTM位点数据库CPLA。该数据库后来扩展用于维护蛋白质赖氨酸修饰,并重命名为CPLM。2022年,我们发布了CPLM 4.0,包含219种真核和原核生物105,673种蛋白质底物中的592,606个报道位点,涉及29种蛋白质赖氨酸修饰类型。对于磷酸化,我们首先开发了三个数据库:dbPSP用于原核生物已知p-sites,dbPPT用于植物已知p-sites,dbPAF用于人类、动物和真菌已知p-sites。后来,后两个数据库合并为单一资源EPSD。最新EPSD 2.0包含223种真核生物362,707种蛋白质中的2,769,163个报道p-sites。特别地,EPSD 2.0还维护了32,762个报道功能性的p-sites,代表功能相关p-sites收集的12.4倍增长。
对于第二个问题,我们开发了EKPD用于维护和分层分类真核生物中的蛋白激酶和蛋白磷酸酶。2019年,我们进一步包含具有磷酸蛋白结合结构域的蛋白质,并开发了iEKPD 2.0,包含164种真核生物中的109,912种激酶、23,294种磷酸酶和68,748种具有磷酸蛋白结合结构域的蛋白质。除GPS 6.0外,iEKPD和EPSD中的数据还用于开发GPS-PBS预测122种磷酸蛋白结合结构域组的磷酸结合位点,以及GPSD通过构建103个个体磷酸酶特异性预测器预测磷酸酶特异性去磷酸化位点。我们还开发了UUCD和iUUCD,包含148种真核生物中的136,512种泛素和泛素样连接调控因子。使用iUUCD和CPLM数据,我们开发了GPS-Uber通过构建112个E3特异性预测器预测E3特异性赖氨酸泛素化位点,以及GPS-SUMO预测SUMO化位点和SUMO相互作用基序。此外,我们开发了WERAM维护和分类148种真核生物中的20,033种组蛋白修饰调控因子。同样,WERAM和CPLM数据用于开发KprFunc和pFunK预测丙酰化和β-羟基丁酰化的功能相关性。
2009年,我的实验室开始建立湿实验室。进行实验不仅可以验证我们的预测,还可以通过做出新的生物学发现提供原理验证应用。我开发了MiCroKit 3.0/MiCroKiTS 4.0收集报道定位于中体、中心体、动粒、端粒和/或纺锤体的蛋白质,CGDB收集真核生物中的节律基因,THANATOS/iPCD收集调控自噬和细胞死亡的蛋白质,以及DrLLPS收集真核生物中与液-液相分离相关的蛋白质。PTM信息也被整合,这些数据库对我们自己的实验以及合作研究有用。由于异常PTMs与人类疾病密切相关,我们开发了PTMD收集疾病相关PTM事件。目前,PTMD 2.0包含15,105种蛋白质中的342,624个PTM-疾病关联,涉及93种PTM类型和2083种疾病。显然,此数据资源可用于构建预测器识别潜在疾病相关PTM事件。
这些数据库的长期维护至关重要。目前,所有提及的数据库托管于https://www.biocuckoo.cn/,并在各种研究资助支持下定期更新。除手动管理外,我们越来越多地采用模块化架构和自动化数据集成管道以确保可持续性。我们还在探索与更广泛生物信息学联盟(如中国国家基因组数据中心NGDC)的合作,以确保它们对研究界的可用性和持续更新。
Analysis of PTMomic data
除计算预测外,使用HTP-MS/MS进行PTM组学分析可以大规模、可靠地产生大数据PTM数据。2001年,Zhou等人进行了开创性磷酸化蛋白质组分析,总共鉴定了13种酵母蛋白质中的24种磷酸肽。2004年,Beausoleil等人首先从HeLa细胞中鉴定了967种蛋白质中的2002个p-sites。目前,单次运行鉴定数千个PTM位点已成为常规分析。读者可参考许多关于PTM组学分析的优秀综述。对于分析PTM组学数据,可以执行经典生物信息学方法,如差异表达分析、富集分析和网络建模。下面我主要描述自己在此主题上的贡献。
我的主要兴趣是从PTM组学数据预测PTM酶的动态状态。PTM酶如蛋白激酶负责修饰其底物。人类基因组编码约520种蛋白激酶基因。给定特定生物过程,只有少量蛋白激酶功能重要。无疑,蛋白激酶的表达水平和活性统称为"激酶活性"或"激酶状态",有助于确定其功能重要性。在细胞中,由于蛋白激酶的高度动态性,实验监测激酶活性或状态困难。
2004年,我偶然阅读了Kao等人发表的论文,他们建议基因表达数据可用于反向推断转录因子活性。受此研究启发,我感觉蛋白激酶活性可能也可以从磷酸化蛋白质组数据推断。2012年,我们开发了激酶活性分析(KAA)算法,在过去十年中不断改进。尽管已开发许多变体,但关键原理未变。此处,我仅描述用于双样本比较(如处理 vs. 对照)的一种解决方案。首先,我们可以通过聚合其底物p-sites的归一化强度(NI)值定义样本A中蛋白激酶i的总底物值(TSV)。然后,我们计算样本A中m种激酶的TSV。然后,我们可以执行Yate卡方检验,计算卡方2×2列联表。χ2可如下确定。Perl模块Statistics::Distributions的函数chisqrprob(degree, χ2)可直接用于计算p值,其中自由度设为1。然后,选择p < 0.05或替代阈值作为过滤器优先考虑潜在功能激酶。
在现代视角下,我们的方法可视为图神经网络(GNNs)特殊类别的简化未训练形式,因为激酶和底物之间的复杂关系("图")用于推断激酶("节点")。除我们的努力外,其他科学家也开发了类似方法,如激酶-底物富集分析(KSEA)。读者可参考关于这些方法的几篇全面综述。同样,所有这些方法可视为简化未训练的GNNs。
Addressing PTM-related biological problems
2012年,我作为联合创始人之一与刘晓乐教授及其他朋友在中国建立了青年生物信息学PI(YBP)研讨会。在第二次YBP研讨会上,中国青年生物信息学家讨论了生物信息学家是否应该做实验的关键问题。尽管我们在此问题上达成了"是"的共识,但我们不清楚生物信息学家为什么应该做实验。此处,我希望给出合理解释。AI中存在三大思想学派:基于规则或推理的符号主义、基于学习的连接主义和基于强化的行为主义。强化学习的力量可通过优化AlphaGo和ChatGPT/GPT 3.5例证。显然,高通量实验验证可视为成本效益高的强化学习,立即加强相应预测模型。然后,可以进一步执行常规低通量实验以做出新的生物学发现,进一步强调预测的有用性。
然而,结合生物信息学和实验从未简单。尽管我们与实验生物学家合作超过15年,我们仍在追求成功。此处,我们分享在此道路上的教训而非经验。2009年,我们开始与邹汉法博士和叶明亮博士合作,他们是磷酸化蛋白质组分析专家。他们提供了人类非肿瘤肝组织的大规模磷酸化蛋白质组数据集,我们结合蛋白质-蛋白质相互作用数据和GPS算法开发了软件包体内GPS(iGPS)预测激酶特异性p-sites,以及上述KAA算法。然而,我们的预测未经过实验验证,因为我们都擅长方法开发而非生物学发现。因此,我们的教训1是方法科学家应与有生物学问题的生物学家合作。后来2012年,我们开始与沙家豪博士和郭雪江博士进行第二次合作,他们是生殖生物学专家。他们生成了成年小鼠睾丸的大规模磷酸化蛋白质组数据集,我们改进了KAA算法预测多种蛋白激酶(如POLO样激酶PLKs、MAPKs、CDK2和CDC2)在睾丸中活性上调。确实,我们实验验证了一种激酶PLK1在睾丸中具有更高活性,PLK1的药理抑制导致精母细胞G2/M阻滞。投稿期间,审稿人质疑我们发现的重要性,因为未研究PLK1的作用机制。因此,我们的教训2是实验验证后应阐明作用机制。
2014年,我们与李敏博士和陈磊磊博士合作,他们先前从中药钩藤中分离出两种小分子化学物质柯诺辛碱(Cory)和柯诺辛碱B(Cory B)。他们发现两种化学物质对神经退行性疾病显示治疗作用,因此我们定量分析了用或不用Cory或Cory B处理的磷酸化蛋白质组。我们将KAA算法改进为硅基激酶组活性分析(iKAP),并预测了多种受Cory或Cory B差异调控的激酶。进一步实验验证siRNA介导的Map2k2或Plk1沉默显著抑制Cory诱导的神经保护性自噬,促进细胞中阿尔茨海默病或帕金森病相关蛋白质聚集体的清除。投稿期间,审稿人质疑我们进一步实验验证的候选选择标准。然后,我们的教训3是不做手动选择,而是无偏筛选 top-scored 候选。
在与黄鹏宇博士和舒以莱博士的合作中,我们将KAA改进为CKI并筛选 top-scored 候选。我们验证了三种cAMP依赖性激酶Prkaca、Prkacb和Prkx在小鼠细胞中肝细胞成熟所需。我们还发现两种激酶PIM1和PIM2通过诱导肝系基因表达、抑制重编程诱导的铁死亡和解除细胞周期阻滞促进肝转化。我们被争论所有这些实验在细胞中而非体内进行,我们的教训4是体内验证不可忽视。然后在与张洛英博士的合作中,我们开发KprFunc预测丙酰化的功能相关性,并验证了H2B赖氨酸17丙酰化(H2BK17pr)在决定果蝇头部全局蛋白质稳态中功能重要。再次,我们被争论果蝇与哺乳动物差异很大,应在小鼠中进行额外验证,作为我们的教训5。去年,我们与贾达博士合作,开发pFunK预测功能重要的β-羟基丁酰化位点。通过学习5个教训,我们做了几乎所有实验验证预测,并发现醛缩酶B(ALDOB)K108的β-羟基丁酰化在生酮饮食下抑制癌症代谢中必需。我们不再被质疑生物学发现的重要性,研究成功发表在Nature Metabolism。
Future Directions
我们都正在见证世界的宏伟革命,因为前沿AI技术每天都在改变我们的生活。AI用于科学或反之已被预期为重塑科学格局的范式转换力量。对于我们生物信息学家,虽然经典生物信息学已经结束,下一代生物信息学、生物信息学2.0或AI生物学已成为新的跨学科前沿。除经典计算方法和常规实验方法外,AI、高通量实验方法和工程应整合以解决重要生物学问题。
2013年,我参加了国家自然科学基金委(NSFC)生命科学部组织的关于AI用于生物学的小型在线会议。在那次会议上,我创造了"生命分子语言"概念,或正式称为"生命分子语言(VML)",以PTMs作为VMLs的典型类型例证。自然,VML框架邀请自然语言处理(NLP)技术的应用。例如,分词可在多个级别应用,如个体PTM位点、以PTM位点为中心的短肽、甚至包含PTM位点的功能蛋白质结构域。此外,注意力机制使模型能够关注序列中最相关的部分,特别适用于识别决定PTM特异性或功能相关性的关键残基。例如,pFunK是基于Transformer的模型,用于预测功能重要的赖氨酸β-羟基丁酰化位点。在pFunK中,我们将蛋白质序列视为句子,赖氨酸β-羟基丁酰化位点视为特定"单词"。多头注意力使模型能够关注序列中不同位置氨基酸的信息,不仅依赖局部邻近特征。pFunK的卓越性能展示了其以类似于语言模型解析句子语义的方式"理解"序列上下文的能力。因此,在语言样框架中分析PTMs将为理解其复杂动态性质提供有前景的范式。下面我分享自己对PTM生物信息学领域未来方向的看法。
首先,语言样AI就绪数据将是该领域任何发展的基础资源。目前,所有PTM相关数据库都是具有结构化数据的关系数据库。除PTM位点和PTM酶介导修饰事件的注释外,PhosphoSitePlus数据库和我们的EPSD 2.0已开始收集报道p-sites的下游效应和调控影响信息。这些数据库对大型语言模型(LLMs)不够友好,LLMs擅长处理非结构化文本数据。如上所述,PTM事件是动态和情境依赖的,一个PTM位点可能仅在特定条件下真正修饰且功能重要。这些细节难以精确结构化,实际上相应描述可以直接以文本准备。除蛋白质序列数据和文本数据外,其他PTM相关数据类型,如批量或单细胞水平的多组学数据、生物和医学成像数据以及电子医疗记录(EMRs),应考虑用于更好理解PTMs。
然后,第二个方向是如何整合多模态数据。最近,Cui等人强调了多模态基础模型(MFMs)解决单细胞任务的潜力。显然,构建MFMs也可用于PTM生物信息学中的各种学习任务。另一方面,领先LLMs如GPT-4o和DeepSeek表现出新兴特征如思维链推理,超越学习。如果机器学习和逻辑推理可以结合,计算预测将与PTMs的现有领域知识整合。然后,所有PTM预测器将不是黑箱方法,预测可以使用文献知识轻松解释。
第三,PTM生物信息学家应参与开发新的高通量实验方法。先前,我们开发了视频跟踪仪器同时监测多个移动物体。使用此仪器,我们进行了全基因组筛选,数据量>100 TB,并识别了758个可能调控睡眠和活动的果蝇基因。去年,Gao等人提出了"AI科学家"概念,并证明机器人代理可能实现生物学研究的自动化,从基础研究到转化。确实,Insilico Medicine公司已建立此类自动平台,并发现了小分子TNIK抑制剂作为特发性肺纤维化的抗纤维化治疗。引入机器人代理将革命化PTM研究并促进PTM靶向治疗的转化。
第四,PTM生物信息学家应通过合作或亲自参与做实验。我的实验室自2014年开始做实验。我们向俞立博士学习了自噬和相关实验技能。我们与任建博士合作开发了DeepPhagy深度学习框架定量测量酿酒酵母中的自噬活性。我们与高锦豪博士合作识别了CDK7-CDK4信号轴在二氧化硅纳米颗粒诱导的自噬激活中必需。我们与贾达博士开发了算法iCAL,帮助发现人类癌症中改变自噬选择性的突变。没有合作,我们识别了新的酵母自噬调控因子。通过做实验,我们理解了生物学发现的逻辑,并试图找到PTMs是关键调控机制的生物学场景。例如,突变而非PTMs是驱动癌症的最重要决定因素,转录调控是发育中的关键机制。对于动态过程如睡眠和代谢稳态,PTMs更重要。结合AI就绪数据和领先AI技术,我的实验室主要专注于识别这些动态过程中的关键PTM事件。
除上述潜在方向外,PTM生物信息学领域仍有几个挑战需要解决。首先,数据偏差是一个重要问题。目前,PTM数据库严重偏向于充分研究的模式生物和"经典"修饰类型,可能导致模型在较少表征物种或稀有PTMs上性能差。积极收集和整合来自代表性不足来源的数据至关重要。可解释性是另一个障碍。尽管深度学习模型通常实现更高准确性,但它们通常是"黑箱"。可解释AI(XAI)技术如SHAP或注意力图,如在我们pFunK和其他深度学习预测器中,对于解释预测和生成可生物学检验假设至关重要。最后,训练大型模型的计算成本,尤其是在大规模PTM组学数据集上,非平凡。利用云计算、开发更高效模型架构以及为学界创建共享预训练基础模型将是民主化访问这些先进分析能力的关键。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号