
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:计算机辅助药物-靶点相互作用预测方法
【字体: 大 中 小 】 时间:2025年09月25日 来源:Cell Reports Methods 4.5
编辑推荐:
本综述系统探讨了计算机辅助(in silico)药物-靶点相互作用(DTI)预测方法的最新进展,重点分析了从传统分子对接、定量构效关系(QSAR)到基于机器学习(如GNN、CNN、LSTM)和深度学习(如Transformer、注意力机制)的技术演进。文章深入剖析了影响DTI预测准确性的四大关键因素(问题建模、数据质量、特征工程、实验设置),并针对数据稀疏性、冷启动等挑战提出了多模态融合、迁移学习及AlphaFold2结构整合等创新策略,为加速药物发现提供了重要理论支撑与技术路线。
药物在改善人类健康、延长预期寿命和提高生活质量方面发挥着不可或缺的作用。新药研发是医学进步的基石,推动创新疗法的发现,促进更有效的疾病管理。近年来,人工智能(AI)、基因编辑和高通量筛选等技术的突破显著加速了药物开发进程。然而,新药从初始研究到上市通常需要10-15年时间,耗资约23亿美元,且总体成功率较低,近年来已降至6.3%左右。超过90%的候选药物最终未能进入市场,这些失败项目进一步增加了研发成本,凸显药物发现固有的财务挑战。
药物开发通常包括五个阶段:发现、临床前研究、临床试验、监管批准和上市后监测。每个阶段都有独特的目标和挑战。鉴于该过程的高成本、长周期和巨大风险,研究人员努力提升各阶段的效率和成本效益。药物-靶点相互作用(DTI)预测是发现阶段的关键组成部分,对新药研发推进至关重要。准确的目标预测和药物分子优化有助于降低临床试验失败风险。精确的目标识别最大限度地减少无效药物-靶点对的验证,实现更集中的实验和高效的资源利用。DTI预测有助于识别潜在的脱靶效应,促进安全风险的早期检测,从而提高药物安全性。它对于识别有希望治疗复杂疾病的多靶点药物也很有价值。因此,DTI预测在药物研究中引起了广泛关注。
随着生物活性数据、化合物库和蛋白质序列数据的大量增长,计算机辅助方法已成为预测DTI的强大工具。这些计算方法能够对数千种化合物进行初步筛选,显著减少对劳动密集型实验验证的依赖,并加速药物开发流程。本文综述进一步总结了影响DTI预测的四个关键因素,并系统概述了当前计算方法面临的持续挑战。我们提出了针对性策略和见解,以解决数据稀疏性和特征表示等关键问题。希望这项工作有助于缩小计算预测与实验验证之间的显著差距,并促进DTI研究融入实际药物发现流程。
早期用于DTI预测的计算机辅助方法主要集中于分子对接和基于配体的虚拟筛选技术。分子对接是该领域最早的计算方法,由Kuntz等人于1982年提出。该技术利用靶蛋白的三维(3D)结构将候选药物分子定位在活性位点内,从而模拟潜在的结合相互作用。对接算法估算结合自由能以预测药物与其靶点之间最有利的结合构型。
基于配体的虚拟筛选方法,例如定量构效关系(QSAR)和药效团模型,通过利用已知的生物活性数据预测新的候选药物。QSAR模型建立分子结构与生物活性之间的数学相关性。药效团模型识别对生物活性至关重要的功能团的空间排列。通过捕捉生物活性化合物之间的共享特征,药效团模型有助于对化合物库进行高效的虚拟筛选,以寻找结构相似的候选物。
早期DTI预测的计算机辅助方法具有显著局限性。分子对接高度依赖蛋白质3D结构的可用性,而在其应用早期这些结构稀缺或难以获得。尽管同源建模可以近似未知结构,但当模板与靶蛋白之间的序列相似性低时,其准确性显著下降。基于配体的方法也假设化学结构与生物活性之间存在线性关系,然而现实世界的分子相互作用通常复杂且非线性,使得此类方法不足以捕捉动态结合行为。此外,这些技术严重依赖已知活性化合物,限制了它们探索新化学空间的潜力,并降低了它们在早期药物发现中的普遍适用性。
总之,早期DTI预测计算机辅助方法的局限性,例如对3D结构数据的依赖、捕捉复杂构效关系方面的不足以及解决数据稀缺性方面的困难,催化了机器学习技术在DTI预测中的采用和发展。
机器学习的出现带来了DTI预测的重大突破。机器学习已成为药物筛选和靶点识别的强大工具,因为它使计算模型能够从数据中自主学习模式和关系。Yamanishi等人通过构建一个整合化学和基因组信息的双层模型,开创了基于机器学习的DTI预测。
各种机器学习算法和方法已应用于DTI预测,每种都贡献了独特的策略和框架。Table 1总结了该领域的里程碑和代表性研究,以下部分重点介绍几项有影响的研究和应用。
KronRLS:该方法将药物化学结构相似性与靶序列的Smith-Waterman相似性分数整合到Kronecker正则化最小二乘框架中。这是首个正式将DTI预测问题定义为回归任务的研究,为定量DTI预测奠定了基础。
SimBoost:首个用于连续DTI预测的非线性方法,SimBoost引入了预测区间作为置信度度量,以及从药物相似性矩阵、蛋白质相似性矩阵、药物-靶点亲和力矩阵和邻近关系衍生的可解释特征。
DGraphDTA:DGraphDTA是首个利用蛋白质结构中固有的空间信息,基于蛋白质接触图构建蛋白质图的方法。蛋白质接触图是一个二维(2D)矩阵,捕捉蛋白质3D结构内的残基相互作用,这对于准确预测结合亲和力至关重要。
MT-DTI:该模型首次将注意力机制应用于药物表示,解决了基于卷积神经网络(CNN)的方法在捕捉远距离原子之间关联方面的局限性,从而提高了DTI模型的可解释性和预测能力。
MVGCN:与大多数用于DTI预测的监督学习方法不同,它引入了多视图图卷积网络(MVGCN)框架,用于生物医学二分网络内的链接预测。通过将相似性网络与二分网络整合,MVGCN构建了一个多视图异质网络,并使用自监督学习进行初始节点嵌入。
DrugVQA:借鉴视觉问答(VQA)概念,DrugVQA将DPI任务框架化为一个VQA问题。蛋白质的距离图被用作“图像”,药物的SMILES字符串作为“问题”,相互作用预测作为“答案”,为DPI任务提供了创新视角。
DeepAffinity:该模型通过无监督预训练捕捉蛋白质残基和化合物原子之间的非线性依赖关系。这些“长距离”依赖关系对于化合物-蛋白质相互作用至关重要,因为3D空间中邻近的残基或原子可能共同参与分子相互作用。
BridgeDPI:虽然基于学习的方法侧重于个体DPI,但BridgeDPI引入了“guilt-by-association”原则以增强网络级信息,有效结合了基于网络和基于学习的方法来改进DTI预测。
DTINet:DTINet整合来自不同来源(例如,药物、蛋白质、疾病和副作用)的数据,并学习药物和蛋白质的低维表示,以管理大规模生物数据的噪声、不完整性和高维特性。
DeepICL:该模型表征了四种蛋白质-配体相互作用模式(疏水相互作用、氢键、盐桥和π-π堆积),并提出了一个整合相互作用感知特征的3D分子生成框架,以推进基于结构的药物设计。
MMDG-DTI:利用预训练的大语言模型(LLMs),MMDG-DTI捕捉跨生物词汇的泛化文本特征,展示了在处理未见样本和提取鲁棒、判别性特征方面的强大能力。
NerLTR-DTA:将DTI预测框架化为排序任务,NerLTR-DTA使用学习排序(LTR)原则,为多种应用场景创建独特查询,包括新药和新靶点的发现。
BHCNS:该方法通过识别可靠阴性样本并应用逆假设(即与已知靶点不相似的蛋白质不太可能是化合物的相互作用候选)来提高预测准确性。这种方法增强了样本可靠性,使BHCNS与传统CPI预测模型区分开来。
已确定影响DTI预测的四个关键因素:问题表述(二元分类或回归)、数据质量和数量、特征工程以及实验设置。
大多数研究将DTI预测表述为一个二元分类任务,以确定一种药物(通常是小分子化合物)是否与一个生物靶点(如蛋白质、酶或受体)相互作用。药物与其靶点之间的亲和力反映了相互作用的结合强度,是药物效能的关键指标。因此,亲和力预测构成了DTI预测中一个专门且精确的子任务。
亲和力预测通常被表述为一个回归任务,需要复杂的模型来准确量化药物和靶点之间的结合强度。尽管DTI和药物-靶点亲和力(DTA)预测关注药物开发的不同方面,但它们是互补且关键的。DTI通过识别潜在相互作用为药物发现提供基础,而DTA预测则为优化药物特性提供详细见解。DTI和DTA预测任务都吸引了越来越多的兴趣和大量的研究投资。Figure 1概述了使用机器学习方法进行DTI和DTA预测所涉及的步骤(A),并说明了近年来关于DTI和DTA的研究数量(B)。

数据质量和数量是影响模型性能和泛化能力的关键因素。在非代表性数据上训练的模型可能在特定情境下表现良好,但难以泛化到新情况。因此,高质量数据集对于促进模型泛化性、减少偏差和错误、增强鲁棒性以及减轻过拟合风险至关重要。对于DTI预测,已经开发了各种数据集以满足特定实验需求并符合算法特征,例如用于分类任务的酶、离子通道、G蛋白偶联受体(GPCR)和核受体数据集,以及用于回归任务的Davis、KIBA和Metz数据集。
Table 2总结了DTI预测中常用的数据集。基于这些数据集,可以识别几个关键特征。
(1) 靶蛋白的临床相关性和功能丰富性:大多数数据集专注于酶、离子通道、GPCRs、核受体和蛋白激酶等蛋白质——这些是临床药理学中最重要和经过充分验证的治疗靶点。这些靶点家族在公共数据库中就其结构、功能和作用机制进行了广泛注释。(2) 来自多个可信源的数据整合:许多数据集是通过整合来自公共数据库(如BindingDB、DrugBank、ChEMBL、ToxCast、STITCH)的记录以及像Human和C. elegans这样的精选数据集构建的。相比之下,Davis和Metz等数据集源自一致实验协议下进行的高通量筛选(HTS)分析,提供了更准确和定量的相互作用测量。(3) 物种特异性和跨物种扩展:大多数数据集涉及人类蛋白质靶点,反映了药物开发的主要焦点。然而,像C. elegans这样的数据集包括来自模式生物Caenorhabditis elegans的蛋白质靶点,为评估模型跨物种泛化性提供了宝贵机会。(4) 独特命名与共享起源:一些数据集具有独特名称,但仍基于公共资源构建。例如,Human和C. elegans数据集是由Liu等人基于DrugBank、Matador和STITCH的数据策划的。此外,DUD-E数据集包括更广泛的靶点类别,包括GPCRs和离子通道,并源自ChEMBL和ZINC等来源。(5) 适用于分类任务的回归数据集:尽管最初为回归设计,但 several 数据集可以通过应用基于阈值的标记策略转换为二元分类任务。例如,在BindingDB数据集中,如果报告的IC50值低于100 nM,则药物-靶点对被标记为阳性;如果IC50值超过10,000 nM,则标记为阴性。Davis数据集的阈值5.0(pKd)和KIBA数据集的阈值12.1(KIBA分数)通常用于二值化相互作用强度。
特征工程是将原始数据转换为适合机器学习模型格式的过程。该过程涵盖特征提取、优化和交互,共同帮助模型解释数据结构、提高预测准确性并降低计算复杂度。
基于机器学习的DTI预测的关键步骤是对化合物和蛋白质信息进行数值编码。许多研究试图通过从多个角度表征化合物和蛋白质特征来提高模型准确性。例如,化合物属性可以使用分子指纹、通用描述符、分子结构和功能团来表示。蛋白质信息可以通过序列组成、氨基酸理化属性和二级结构特征来描述。这些描述符构成了手工特征,作为分类或回归算法的输入。例如,iDTI-ES-Boost将结构和进化特征与AdaBoost分类器结合用于DTI预测。RFDT是一种基于旋转森林算法的预测器,将蛋白质序列编码为位置特异性评分矩阵,并使用指纹特征向量表示药物。已经开发了几个专用工具包来处理化合物和蛋白质特征。Table 3概述了一些广泛使用的选项。此处提供Table 3所列工具的简要概述以供参考。
BioPython:一个开源的Python工具包,广泛用于生物序列数据的处理和分析。它提供用于读取和写入各种序列文件格式、多序列比对、序列转录和翻译、序列比较、结构解析以及访问在线生物数据库的模块。
PyMOL:一个强大的开源分子可视化工具,支持多种结构文件格式。它广泛应用于结构生物学、药物设计和分子建模,是蛋白质结构特征提取和机制研究不可或缺的工具。
DSSP:一个用于蛋白质二级结构分析的经典工具,基于3D蛋白质结构(通常来自PDB文件)自动识别和注释每个氨基酸残基的二级结构类型。它还计算氢键、溶剂可及性、主链扭转角和其他结构特征。
iFeature:一个多功能的基于Python的生物序列特征提取工具,涵盖18种编码方案,能够计算53种类型的特征描述符。它提供命令行和图形界面,常用于机器学习任务(如序列分类、功能预测和相互作用分析)中高通量序列数据的标准化预处理。
Pfeature:提供六个主要模块(组成、二元谱、进化信息、结构特征、模式和模型构建),能够计算超过200,000个特征,用于蛋白质水平和残基水平注释,以及用于预测化学修饰肽的功能。
ProtDCal:一个基于Java的程序,计算蛋白质序列和3D结构的通用数值描述符,涵盖电子相互作用、范德华力、扭转势和与折叠速率相关的拓扑指数等特征。
modIAMP:一个为抗菌肽数据分析设计的Python包,提供描述符计算、从公共或本地数据库检索序列、肽设计、分类和可视化工具。
ProtParam:由ExPASy(瑞士生物信息学研究所)开发的在线蛋白质序列分析工具,能够计算物理和化学属性,如分子量、理论等电点(pI)、氨基酸组成、消光系数、估计半衰期、不稳定性指数、脂肪族指数和疏水性。
RDKit:一个用C++开发的开源化学信息学工具包,具有完整的Python接口,为分子建模、结构解析、指纹生成和描述符计算提供高效灵活的功能。
Open Babel:一个支持多种化学数据语言的开源化学工具箱,提供文件格式转换、构象搜索、2D描绘、过滤以及子结构/相似性搜索等功能。
OpenChem:一个基于PyTorch的用于计算化学和药物设计的深度学习工具包,提供一个灵活的模块化框架,将分子表示(例如,SMILES和分子图)与各种神经网络模型集成,用于分子级机器学习任务。
ChemPy:一个用Python编写的开源化学计算库,主要用于处理理想化的化学反应系统、定量化学计算和求解基本化学方程,包括反应动力学和浓度建模。
ChemAxon Marvin:由ChemAxon开发的专业分子结构绘制和化学信息处理工具,支持分子可视化、标准化输入、反应方案编辑、分子属性评估和初始建模准备。
PaDEL-Descriptor:一个基于Java的化学工具包,整合了Chemistry Development Kit(CDK),能够计算797个分子描述符(1D、2D和3D)和10种指纹类型,包括原子类型E-state描述符、McGowan体积、分子线性自由能关系描述符和各种二元指纹。
ChemAxon JChem:由ChemAxon开发的企业级化学信息学套件,设计用于处理和分析大规模分子结构数据,提供结构解析、标准化、搜索、指纹生成和属性计算等功能。
Pybel:Open Babel的Python包装器,在Python环境中为读取、写入、转换和分析分子结构提供简化的编程接口。
ChemDes:一个用于分子描述符和指纹计算的集成平台,结合了Pybel、CDK、RDKit、BlueDesc、Chemopy、PaDEL和jCompoundMapper等工具。它可以计算3,679个分子描述符和59种指纹,并提供格式转换、MOPAC优化和指纹相似性计算实用程序。
CDK:一个基于Java的开源化学信息学库,设计用于小分子建模和计算,提供分子结构解析、描述符计算、结构标准化和清理等功能。它是PaDEL-Descriptor、ChemDes、KNIME和Weka等平台背后的核心引擎。
DeepChem:一个为分子和量子数据集的机器学习和深度学习设计的Python库,为药物发现、分子建模、生物活性预测、材料科学和计算物理等任务提供标准化模型、数据集和工作流程。
与手工特征不同,基于深度学习的自动特征不依赖广泛的领域知识。它们擅长处理非结构化数据,并在复杂任务中表现异常出色。各种深度学习方法,每种都具有独特特性和优势,已被应用于从不同角度捕捉信息。例如,图注意力网络(GAT)设计用于处理图结构数据,允许模型学习不同节点(例如,原子)之间的连接强度(例如,化学键)。图卷积神经网络(GCN)有效地从蛋白质结构的简化图形表示中提取信息,为学习到的特征提供可解释性。长短期记忆(LSTM)网络专长于序列数据,捕捉输入序列中的时间信息和长期依赖关系。
在DTI预测中,许多研究试图通过跨多个视角采用特征交互来更深入地探索数据。ProtDec-LTR3.0应用特征映射来整合来自ACC和top-gram方法的信息,而Zhang等人在基于配体的虚拟筛选研究中使用交叉项特征映射来处理输入特征。PKRank利用成对核进行特征处理。最近,注意力机制已被纳入以增强特征交互。DeepCDA引入了一种双重注意力机制,编码蛋白质子序列和化合物子结构之间的相互作用,计算每个化合物和蛋白质子结构对之间的注意力系数以表示结合强度。BINDTI整合了双向意图网络与多头注意力来结合当前药物和靶点特征,以及II编码器-解码器框架来捕捉药物和靶点子结构之间的交互特征。总之,特征之间的内在关联仍然是DTI研究中需要进一步探索的重要方向。
在DTI预测中,考虑两个主要实体:药物和蛋白质。它们的相互作用超出了简单的一对一关系,使得这些实体在训练集和测试集中的分布成为DTI研究的一个关键方面。基于数据分布模式和数据可用性,DTI预测任务可分为温启动和冷启动场景。Figure 2显示了某些化合物和蛋白质之间的相互作用。左面板突出了五种选定药物(CHEMBL10903、CHEMBL17657、CHEMBL16882、CHEMBL17881和CHEMBL10874)之间蛋白质靶点的重叠。维恩图表明有多少靶点唯一关联或共享 among these compounds。很明显,一些靶点被多种药物共同靶向。右面板提供了化合物-蛋白质相互作用网络的全局视图。该网络清楚地表明,大多数药物与多个蛋白质靶点相连,并且一些靶点同时与几种药物相关联。这进一步支持了DTI63采用双向建模这种多关系相互作用。
在温启动场景中,训练集和测试集包含相同或高度相似的药物和靶点,使模型能够实现改进的预测准确性。研究温启动场景(通常称为药物重定位)使研究人员能够最大化现有药物的效用并识别潜在的新适应症。因此,温启动设置在DTI研究中很普遍。
冷启动场景涉及测试集中的新药物、新靶点或新药物-靶点对,这些在训练期间不存在。这种先验知识的缺乏显著增加了冷启动条件下预测任务的难度。冷启动场景的研究对于新药开发至关重要,因为它支持在数据有限的环境中对新候选药物进行筛选和预测,为当前治疗选择有限的疾病提供创新治疗可能性。冷启动场景可进一步分为三类:
药物冷启动:新药物出现在测试集中,训练期间这些药物没有先前的相互作用数据可用。
靶点冷启动:新靶点出现在测试集中,训练集中这些靶点没有相互作用数据。
药物-靶点冷启动:测试集中的药物和靶点在训练集中完全不存在,代表最严格的冷启动设置。
为了以更严格和更精细的方式研究冷启动问题,必须采用更严格和更精细的数据分区策略。一种有效的方法是构建训练集和测试集中药物或靶点之间相似性最小化的场景,从而模拟更现实和更具挑战性的设置。这可以通过聚类药物或蛋白质并确保来自同一簇的样本仅出现在训练集或测试集中来实现。
蛋白质聚类:可以使用BLAST和MAFFT等工具基于序列相似性对蛋白质进行聚类,或使用Foldseek等工具基于结构相似性进行聚类。
药物聚类:可以基于分子骨架、形状相似性或化学指纹相似性对药物进行聚类。
在药物开发中,通过温启动场景优化现有数据,以及通过冷启动场景在数据稀缺条件下探索新药潜力,对于全面有效的DTI预测策略至关重要。
本综述确定了DTI预测中的几个关键挑战,包括与数据来源、整合和表示相关的问题。已提出几种针对性策略来应对这些挑战。
目前可用于DTI预测的各种数据库提供了广泛的数据资源。然而,这些数据库存在若干局限性。主要问题是跨数据库的数据冗余或重复,通常还伴有数据格式和标准的不一致。数据来源、测量方法、实验条件和标准化协议的差异可能导致同一药物-靶点对在不同数据库中的亲和力值或相互作用状态冲突。此外,许多数据库未定期更新,导致遗漏最近的实验发现或新识别的DTIs。此外,尽管有效的DTI预测涉及全面范围的数据类型(化学、生物、基因组、转录组和临床),但大多数现有数据库专注于单一数据类型,限制了它们用于多模态分析的效用。这种碎片化的数据 landscape 强调需要更集成和全面的数据集来增强DTI模型的鲁棒性和泛化性。
数据稀疏性仍然是基于机器学习的DTI预测的关键挑战,因为已确认的DTIs在数量上远远超过未知相互作用,特别是对于新靶点或稀有化合物。现有数据库通常偏向于代表已验证相互作用的阳性样本,缺乏清晰注释的阴性样本。DTI预测的常见策略是将未知相互作用视为阴性样本。然而,一些未知对可能代表未验证的阳性相互作用,使模型准确区分阳性和阴性样本的能力复杂化。此外,已知和未知相互作用之间的相当大的不平衡加剧了二元分类任务中的类别不平衡。因此,纳入真阴性相互作用已成为提高DTI预测模型准确性和鲁棒性的关键领域。
对于DTI预测,传统的机器学习方法依赖需要药物化学、蛋白质结构和生物网络深度专业知识的手工特征。此外,手工特征通常无法捕捉DTIs固有的复杂非线性关系,从而限制了它们对新分子结构或较少表征靶点的适用性。这些特征通常针对特定任务或数据集定制,这限制了它们的泛化性,并使它们的优化成为一个要求高且耗时的过程。
尽管自动学习特征擅长捕捉复杂非线性模式和高维数据,但由于其内部决策过程的不透明性,它们经常被视为“黑盒”,这使它们的解释复杂化。此外,使用这些特征的模型通常需要广泛的超参数调整,这是一个复杂且资源密集的过程,需要大量的实验和验证。神经网络架构,如CNN、循环神经网络(RNN)和图神经网络(GNN),在DTI预测的特征表示方面显示出潜力;然而,每种架构都有固有局限性。CNN在捕捉全局结构特征方面受限,通常不适合缺乏明确定义欧几里得结构的分子图。虽然RNN在处理序列数据方面有效,但它们难以保留长期依赖关系。尽管GNN在表示2D原子结构及其在图基编码器-解码器框架中的使用方面有效,但图卷积网络(GCN)在为关键相邻节点分配适当权重方面面临挑战,表现出灵活性降低,并且通常以较慢的速率收敛。
为了构建全面、代表性强且样本丰富的数据集,必须从包含不同来源、测量技术、实验条件和标准化协议的数据库收集数据。建议遵循以下指南以确保数据可靠性:
(1) 优先选择高质量数据库:选择具有完善文档的实验条件、精确测量方法和透明数据源的数据库,以确保一致性和可靠性。Table 4提供了包含蛋白质、化合物、药物-靶点对和各种关联信息的权威数据库列表。
(2) 数据预处理:应移除异常值、重复项和噪声以保持数据完整性。应使用唯一标识符(例如,药物名称、靶点名称和结构描述符,如SMILES和InChI)来识别和消除跨不同数据库的冗余药物-靶点对。
(3) 协调不一致数据:在多个数据库报告同一药物-靶点对不同亲和力值的情况下,研究人员可采用计算一致性分数、从最可信来源选择数据或对值进行平均等策略以确保平衡表示。
(4) 补充不足数据:当现有数据质量或覆盖范围不足时,对关键药物-靶点对进行额外实验可以提供有价值的数据点,从而增强数据集的整体质量和鲁棒性。
通过遵守这些指南,研究人员可以确保他们的数据集支持鲁棒、可靠和泛化的DTI预测。
基于当前研究、算法创新和理论框架,提出了几种策略来应对DTI预测中数据稀疏性带来的挑战。
(1) Guilt-by-association原则:该原则假定结构相似的化合物可能与同一靶点相互作用,并且具有高度同源性(例如,序列或结构相似性)的靶点蛋白质可能共享与相同化合物的相互作用。这种方法已被整合到DTI预测任务中。例如,NerLTRDTA将紧密相关邻居的属性纳入目标实体的配置文件中。BHCNS通过假设与化合物已知靶点不同的蛋白质不太可能与化合物相互作用来生成可靠阴性样本。
(2) 迁移学习:迁移学习通过利用来自相关领域或任务的知识来应对数据稀缺性,并在数据有限条件下增强模型性能。在DTI预测中,相关相互作用网络(例如,药物-疾病、靶点-疾病或蛋白质-蛋白质相互作用)提供了可转移的宝贵知识,以提高预测准确性,特别是对于研究较少的药物或靶点。
(3) 多任务学习:当特定靶点的数据稀疏但该靶点属于一个经过充分研究的家族时,多任务学习可以通过在相关家族成员之间共享数据来改进预测。这种方法不仅增强了DTI预测,还通过利用来自药物-疾病关联的额外信息提高了泛化性。
(4) 少样本学习:少样本学习使模型能够从最少标记数据中泛化,在新的未见样本上实现鲁棒性能。元学习(一种突出的少样本方法)优化学习过程,允许快速适应具有有限数据的新任务。
(5) 数据增强和主动学习:主动学习通过选择并标记信息量最大的样本迭代优化模型训练。从小的标记数据集开始,模型使用特定采样策略从未标记池中选择高价值样本。这些样本随后被标记并添加到训练集中,并且模型在连续循环中重新训练,直到达到性能目标或预算约束。这种迭代过程通过最大化可用数据的效用有效减轻数据稀疏性。
增强药物和靶点数据的表示对于提高DTI预测的准确性和鲁棒性至关重要。Figure 3说明了数据源、数据表示类型以及手工和自动学习特征之间的层次关系,为简化药物和蛋白质信息的有效表示提供了一个框架。基于这些见解,提出以下策略。
(1) 多视图、多模态表示:药物和靶点可以使用多种数据模态表示,例如分子序列和图结构。多模态数据封装了实体的不同方面,并提供整体表示。每种模态反映了可能表现出互补、相关或独特特征的不同信号类型、格式和来源。因此,多模态和多视图数据的整合显著提高了预测的准确性、鲁棒性和可靠性。
(2) 整合异质网络信息:最近的研究强调了实体间关系在阐明生物功能中的关键作用。例如,分析药物对microRNA表达的影响,特别是在癌症进展中,可以揭示药物机制并指导新的治疗策略。将此类异质网络信息整合到DTI模型中可以增强生物可解释性和预测性能。
(3) 应用LLMs:未标记数据作为训练LLMs的核心资源。通过利用海量未标记数据集中的语义和
生物通微信公众号
知名企业招聘