综述:内分泌活性的计算机预测
《TRENDS IN Endocrinology & Metabolism》:In silico prediction of endocrine activity
【字体:
大
中
小
】
时间:2025年10月26日
来源:TRENDS IN Endocrinology & Metabolism 11.4
编辑推荐:
本综述系统评述了计算毒理学在预测内分泌干扰化学物(EDCs)方面的最新进展,重点聚焦于雌激素、雄激素、甲状腺和类固醇生成(EATS)通路。文章详细探讨了基于配体和基于结构的预测方法(如机器学习、深度学习、分子对接和自由能计算)的优势与局限,并展望了其在监管应用中的前景,为早期识别和优先筛选潜在EDCs提供了有力的计算工具。
内分泌干扰化学物(EDCs)是能够干扰内分泌系统精细平衡的外源性物质,与生殖障碍、代谢疾病、神经发育障碍和癌症风险增加等多种不良健康结局相关。评估一种化学物是否对雌激素、雄激素、甲状腺和类固醇生成(EATS)通路具有干扰作用仍然是一项具有挑战性的任务。传统的体外和体内测试方法速度慢、成本高且需要大量动物实验。因此,加强计算机(in silico)方法的使用有助于更早、更多地发现潜在的EDCs。
为了识别EDCs,研究人员开发了各种计算策略。典型的基于配体的方法涉及使用已知的EDCs和非EDCs数据集训练预测模型。然而,这种方法受限于已评估化学物的稀缺性,严重限制了所得模型的适用性域。另一种思路是,基于配体和基于结构的模型可以通过模拟化学物与内分泌系统中特定蛋白质靶点的生物活性来直接预测内分泌活性。这些模型侧重于预测分子起始事件或关键事件,而非不良结局。
由于内分泌活性的确定通常发生在监管背景下,必须考虑几个关键因素以确保模型适用于监管用途。经济合作与发展组织(OECD)为监管应用中的(定量)结构-活性关系[(Q)SAR]模型验证制定了原则。这些原则包括:(i)明确定义的端点;(ii)明确的算法;(iii)定义的适用性域;(iv)适当的拟合优度、稳健性和预测性度量;以及(v)可能情况下的机制解释。这些原则为评估基于配体和基于结构的方法预测内分泌活性提供了重要标准。
在EATS通路中选择生物学上相关的蛋白质靶点进行计算评估仍然具有挑战性。蛋白质-配体结合本身并不一定导致内分泌干扰,因为生物系统通常具有补偿机制和替代通路来减轻不利影响。纳入不相关的蛋白质靶点可能导致假阳性发现,降低这些计算工具的实际应用价值。反之,遗漏相关蛋白质可能导致错过关键的相互作用,对化学品风险评估程序产生负面影响。
可以通过多种策略选择这些蛋白质靶点,包括文献综述、AOP-helpFinder等专用工具或转录组学分析。另一种方法是筛选AOP-wiki。对于AOP-wiki中的大多数不利结局通路,已经在分子起始事件和不利结局之间建立了机制联系,阐明了配体结合等分子相互作用如何导致个体或群体水平的不利效应。因此,干扰相关的蛋白质靶点被认为是导致不利效应的合理驱动因素,并被视为生物学上相关的靶点。
基于配体的方法利用化学结构信息和已知的生物活性数据来训练预测模型,通常采用机器学习(ML)或深度学习(DL)技术。这些方法在高通量和准确性方面表现出色,能够快速识别潜在的内分泌活性物质,但其适用性域和可解释性有限。
基于配体建模的最新创新显著提高了内分泌活性预测模型的性能。例如,基于分子图的表示(将原子编码为节点,将其连接性编码为边)现已被广泛采用。最近的研究通过将不同类型的特征(如分子图和描述符)整合到单个模型中,进一步提高了性能,从而在预测雄激素受体(AR)结合方面实现了高精度。此外,蛋白质化学计量学(PCM)方法将蛋白质序列信息与配体特征结合起来,捕捉配体与其生物靶点之间的基本相互作用。将PCM或蛋白质描述符纳入模型已被证明可以提高对大量核受体和转甲状腺素蛋白(TTR)的预测性能。
与此同时,出现从单任务模型转向多任务模型的趋势。多任务架构通过共享网络组件来学习可泛化的模式,然后分支进入特定靶点的子网络或“头”,从而利用多个蛋白质靶点的数据。当单个靶点的数据稀疏时,这种方法特别有益。这种方法已在与甲状腺激素干扰相关的蛋白质靶点子集上得到证明。此外,针对大型核受体(NRs)集合,多任务深度学习方法已被证明比单任务模型性能更高。尽管如此,一些多任务模型的性能与单任务模型相当,但代价通常是可解释性较差。
当旨在提高计算机预测的置信度时,常用方法是使用共识建模。共识模型利用多个单独模型的预测来达成共识决策,从而增强模型的可靠性和稳健性。共识方法在与其单模型对应物比较时表现出良好的性能。著名的例子包括CERAPP和COMPARA模型。其他研究表明,多任务共识方法在22个核受体中的17个上优于其单估计器对应物。在Tox24挑战赛(一项创建预测化学物与TTR结合模型的竞赛)中表现最好的11个模型里,有10个使用了共识方法。后续研究使用了其中九个模型来开发另一个共识模型,其性能超过了每个单独模型。
如图1所示,基于配体的方法一旦模型训练完成,就能快速预测大量分子。这些模型可以实现高预测性能,主要针对模型适用性域内的化学物。在适用性域之外进行的预测可靠性较低,这凸显了清晰传达每个预测相关不确定性的重要性。
一种估计适用性域的替代方法是使用保形预测(CP)。与大多数机器学习模型不同,保形预测返回的不是一个特定值,而是一个区间,在该区间内,给定用户指定的可容忍错误率,真实值很可能位于其中。由于适用性域内的化学物预测置信度更高,因此预期预测区间更小。此外,保形预测适用于不平衡数据集的不确定性估计,这在计算毒理学中很常见。
除了量化预测不确定性,解释模型如何达成某个决策对于基于配体方法仍然具有挑战性。传统的机器学习模型具有一定程度的可解释性,但其深度学习对应物通常被认为是“黑箱”。为了解决这个问题,可解释人工智能(XAI)方法被开发出来,以阐明模型如何得出结论。这些解释通常识别在EDCs中富集的结构警报或关键特征。传统上,此类EDC结构警报源自专家知识,但越来越多地通过统计计算机方法开发。一些研究使用特征的相对重要性来突出显示分子的哪个部分对预测贡献最大,从而有助于风险评估人员的可解释性。尽管XAI方法可以识别预测的重要分子特征,但它们不一定对应于生物学上相关的相互作用。
同时,深度学习方法的可解释性正在迅速发展。最近使用基于注意力的神经网络的进展为了解隐藏层特征提供了见解。例如,交叉注意力机制可以精确定位对某些预测贡献最大的分子子结构和相应的蛋白质残基,为各种核受体的蛋白质-配体相互作用提出了机制性见解。一个潜在的机遇领域是集成对话式AI模型。此类模型有可能以自然语言交流发现,从而弥合计算专家和毒理学家之间的障碍。
基于结构的方法依赖于实验推导或计算预测的蛋白质结构,从基于物理学的角度模拟蛋白质-配体相互作用。基于结构的方法包括分子对接、分子动力学(MD)和基于自由能的方法。
基于结构的建模方法提供了多种工具来预测内分泌活性化学物如何与其生物靶点相互作用。在基于结构的方法中,分子对接是应用最广泛的技术。它已被有效地用于筛选数千种潜在的EDCs与各种核受体的相互作用。此类大规模对接研究已经确定了12种核受体(包括AR、ERs和TRs)配体结合域内的两个保守子口袋。激动剂倾向于在两个子口袋中建立强相互作用,从而稳定受体的活性构象。相反,拮抗剂通常至少失去与一个子口袋的接触,采用更多变的结合模式来抑制激活。此外,对接方法已被应用于评估饮用水中未管制污染物的毒性潜力,通过评分它们与核受体的相互作用,从而优先考虑最可能作为内分泌活性化学物的化合物。组合多个对接评分功能可增强可靠性并减少假阳性结果。虽然实验确定的蛋白质结构仍然有限,但AlphaFold结构的可用性实现了全蛋白质组范围的对接。一项研究将1251种潜在EDCs对接到超过20,000个人类蛋白质结构中,总计超过6600万个对接姿态。这项工作提出了多种易受EDC结合的蛋白质,并识别了结合多个蛋白质的化学簇。尽管取得了这些成功,但对接本质上是静态的,将蛋白质-配体复合物视为一个快照,而动力学对于确定结合亲和力至关重要。
分子动力学模拟提供了蛋白质随时间动态的见解,有助于识别配体特异性的构象变化。在激素核受体中,螺旋12(H12)的重新定位是一个重要的构象变化,因为这种结构转变指导共激活因子的招募。AR的分子动力学模拟表明,传统的MD技术可以检测到与激动剂 versus 拮抗剂结合时该区域灵活性的差异。然而,特定的大规模构象转变,如H12重新定位,通常发生在标准MD方法无法达到的时间尺度上,因此需要增强采样方法。例如,加速MD已成功捕获了与激动剂和拮抗剂结合相关的H12的 distinct 动态波动。由于激动和拮抗相互作用导致差异性的蛋白质动力学,这些先进的MD方法有望预测新型配体的功能效应。此外,MD模拟有效地揭示了以前未被识别的结合口袋,从而阐明了潜在的作用机制。另外,通过比较动态行为(如关键的配体-蛋白质相互作用)与已确定的共结晶参考配体,MD模拟可以评估配体稳定性并验证预测的结合模式。MD在探索蛋白质突变如何影响配体相互作用方面也发挥了重要作用,这一应用对于疾病相关突变(如与激素相关癌症相关的突变)特别有价值。最后,MD也被应用于解释加速TTR四聚体解离的TTR突变的实验观察效应。
MD模拟提供了关于蛋白质灵活性和配体结合模式的宝贵见解。然而,生物学相关事件(如结合和解离)的时间尺度通常超过模拟时间尺度,阻碍了直接计算收敛的结合自由能。为了解决这个问题,采用了专门的自由能计算方法。中阶方法如分子力学-广义波恩表面积(MM-GBSA)和分子力学-泊松-玻尔兹曼表面积(MM-PBSA)将源自对接姿态或MD快照的分子力学能量与隐式溶剂模型相结合,这些模型近似溶剂的总效应而无需显式模拟每个水分子。这些方法相对于简单的对接评分提高了亲和力预测的准确性,在计算成本和预测精度之间提供了平衡,并常规应用于识别和优先考虑潜在的EDCs。尽管其实用性,但由于熵和隐式溶剂处理的近似,准确性仍然有限。
更先进的自由能方法,如线性相互作用能(LIE)、热力学积分(TI)和自由能微扰(FEP),通过严格的统计采样显式计算结合自由能。虽然更准确,并且能够可靠地将配体亲和力排名在实验值的约1-2 kcal/mol范围内,但这些技术需要显著更大的计算资源和专业知识来进行适当的设置和验证。LIE被证明能够将大多数多样化芳香化酶抑制剂的结合亲和力预测在1 kcal/mol以内。另一项研究使用对接、MD和FEP对一组配体与芳香化酶两个不同口袋的结合亲和力进行排名,随后通过体外实验验证。在单独的应用中,一种炼金术自由能方法能够预测ERα的结合亲和力的正确顺序并接近实验研究或文献得出的估计值。虽然先进的自由能方法在精确识别内分泌活性化学物方面具有巨大潜力,但由于计算费用和复杂性,它们目前的使用仍然有限,使得MM-GBSA/PBSA成为计算机内分泌活性预测的实用替代方案。
基于结构的方法为准确识别内分泌活性化学物提供了巨大机会。然而,需要注意的是,这些方法的有效性在很大程度上取决于高质量蛋白质结构的可用性。对于许多蛋白质,这些结构是通过实验确定的,但仍有大量感兴趣的蛋白质缺乏实验解析的晶体结构。随着AlphaFold2及后续模型的引入,现在大多数蛋白质的计算预测结构可用于建模目的。虽然AlphaFold2预测极大地扩展了结构覆盖范围,但其准确性可能会变化,特别是在灵活、无序或复杂区域,对预测结构进行专家评估仍然很重要。
如图1所示,基于结构的方法通常能够准确预测蛋白质-配体相互作用。尽管对接实现了分子的高通量并且非常适用于姿态预测,但预测的结合亲和力通常不可靠,表现为较低的准确性。一个主要原因是对接的(半)静态性质,无法捕捉构象变化。这通过MD和FE方法得到解决,这些方法具有显著更高的计算成本,因此通量较低。此外,它们通常需要专业知识进行适当的设置和验证,但这些方法往往能达到更高的准确性。因此,这些方法针对内分泌活性识别的不同部分,可以启动对接筛选进行命中发现,然后对这些命中进行更复杂的筛选方法跟进。
与基于配体的方法相比,基于结构的方法的一个显著优势在于其能够提供对化学物-蛋白质相互作用的更深入的机制见解,返回高度可解释的结果。通过识别负责配体结合的关键物理相互作用,基于结构的方法阐明了详细的分子作用模式。此外,它们不受训练数据适用性域的限制,允许对更大部分的化学空间进行预测。然而,实验数据对于基于结构预测的彻底验证仍然至关重要。
为了克服基于配体和基于结构方法的局限性,越来越多地采用组合或集成方法来利用各自的优势。一个常见的工作流程使用分层方法,其中基于配体的模型对化学库进行快速初步筛选,标记出潜在的内分泌活性化学物。这些命中然后通过基于对接的评分进一步优先排序和评估,这提供了额外的机制见解和互补验证。最后,选定的候选物可以进行更详细的基于结构的模拟,以阐明结合机制并增强对其预测活性的置信度,正如针对ER和AR所展示的那样。此外,这些方法可以减少假阴性结果的数量,这对于风险评估目的尤为重要。
或者,使用结合对接和ML模型的集成预测来提供额外的置信度。例如,当ML模型预测配体为活性且对接评分和MM-GBSA达到某个阈值时,对于一组核受体,这些化学物被认为是活性的。类似地,研究将对接与药效团方法相结合,共识方法在大多数核受体上往往优于个体预测。此外,从对接姿态获得的结构特征可以纳入ML模型。当基于结构和基于配体的特征组合在单个预测模型中时,结果比单独使用任一方法获得的结果更稳健。
本文重点介绍了计算机识别内分泌活性化学物的最新进展。识别内分泌活性化学物是检测EDCs的关键第一步,尽管在何种条件下内分泌活性会导致实际的内分泌干扰仍不清楚。尽管如此,计算机方法为筛选大量可用化学物提供了强大的工具。
基于配体的方法进展迅速,特别是随着蛋白质描述符、多任务模型和共识方法等额外信息源的整合。共识方法结合了不同架构或特征类型的预测,通过减轻个体模型的不确定性,显示出提高性能的强大潜力。因此,在预测EATS通路的内分泌活性时,建议使用它们。虽然这些增强功能推进了模型能力,但基于配体的模型仍然受限于其适用性域和有限的可解释性。进一步的进展可以探索纳入测定描述符,其中关于测定条件的文本信息提供了额外的背景。相反,基于结构的方法不受训练数据适用性域的限制,并且一些方法提供了高度准确和可解释的内分泌活性预测,尽管计算成本更高。结合基于配体和基于结构的方法旨在利用两种方法论的优点。分层筛选策略,其中计算要求更高的方法保留给越来越小的化合物子集,可能会被更广泛地采用。此外,个体和组合方法都可以针对特定目标进行优化,例如最小化假阴性结果,这对风险评估目的尤为重要。
基于配体模型的一个关键考虑因素是它们设计用于预测的生物学端点。因为这些模型依赖于它们的训练数据,它们仅限于预测那些数据中代表的特定生物学事件。例如,如果训练数据对应于较晚的关键事件,模型将仅预测该事件。相比之下,基于结构的方法总是预测与蛋白质靶点的直接相互作用,提供了机制视角。基于配体和基于结构模型的一个显著优势是它们能够同时预测多个靶点的内分泌活性,可能捕捉不同通路的组合效应。此外,这些计算机方法有助于识别内分泌活性代谢物。代谢物的结构可以从数据库收集或通过计算机工具预测。一些研究已经显示了代谢物的预测内分泌活性,而其母体分子是无活性的。由于大多数体外测定缺乏代谢能力,无法将母体化合物转化为其代谢物,这些计算机工具可能有助于发现否则具有挑战性的内分泌活性途径。预测内分泌活性化学物的能力正在迅速提高,为早期识别和优先排序潜在EDCs提供了工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号