编辑推荐:
本文综述了人工智能(AI)和机器学习(ML)在蛋白质和核酸研究中的应用。AI 和 ML 可加速药物发现、降低成本,通过多种工具助力研究,如预测蛋白质结构的 AlphaFold 等。同时探讨了伦理问题与未来方向,对制药研究意义重大。
引言
蛋白质在人体生物学中具有多种功能,参与代谢过程。蛋白质工程旨在修饰生物体的表型、增强抗体功效和改善酶催化。为了更好地进行药物发现、酶开发和生物技术产品创新,理解蛋白质结构与功能的关系至关重要。传统确定蛋白质三维(3D)结构的方法,如 X 射线晶体学和核磁共振,存在速度慢、成本高的问题,且仅适用于某些蛋白质,难以进行大规模蛋白质和 RNA 分析,不适合高通量研究。
研究蛋白质 - 蛋白质和蛋白质 - 核酸相互作用也很重要,包括无序连接子和动态复合物。无序连接子在识别特定 DNA 序列、介导 RNA 序列特异性以及影响 RNA 结合蛋白的结合特性等方面发挥着关键作用,其长度和灵活性会影响变构调节。
人工智能的发展为蛋白质研究带来了新的机遇。例如,DeepMind 开发的 AlphaFold 能够从氨基酸序列预测蛋白质的 3D 结构,且达到原子级精度。RoseTTAFold 和 OpenFold 等工具则进一步增强了结构预测和蛋白质设计能力。AI 驱动的资源,如蛋白质数据库(Protein Data Bank)和 UniProt,为蛋白质建模和结构分析提供了支持。基于 AI 的工具,如 DDMut - PPI 可预测突变对蛋白质 - 蛋白质相互作用(PPIs)的影响;SEMA 2.0 可预测 B 细胞构象表位,对抗体和疫苗开发至关重要;LightDockServer 等 AI 辅助分子对接工具,有助于高效模拟蛋白质 - 配体相互作用。
AI 还在核酸研究、药物开发、生物信息学等多个领域发挥着重要作用。它能够分析大量生物数据集,加速药物靶点识别和开发,例如通过 GproteinDb、ArrestingDb 和 Biased Signaling Atlas 等工具助力 G 蛋白研究。AI 数据库,如 FireProtDB,可辅助酶工程;AI 驱动的模型,如 DeepCRISPR、CRISTA 和 DeepHE,可预测精确基因组编辑的最佳引导 RNA(gRNAs)。此外,AI 通过分析患者特定的基因组和蛋白质组数据,推动了个性化医学的发展,如 CREAMMIST 数据库可基于药物基因组学数据预测癌症药物反应。
然而,AI 在制药行业的应用也面临一些挑战。AI 的 “黑箱” 操作需要人类进行监督和验证,以确保患者安全和符合伦理标准。在使用生成式 AI 时,必须严格遵守数据安全政策,保护敏感的患者和研究信息。同时,AI 模型可能存在偏差或不准确,需要不断用高质量和更新的数据来优化训练数据集,提高其准确性和可靠性。
AI 与核酸研究
RNA 在生物学过程中扮演着关键角色,包括转录、翻译、基因调控和端粒维持等,在生物工程领域也有广泛应用,如 mRNA 疫苗和生物机器。研究 RNA 的化学组成、结构以及与蛋白质的相互作用,对于理解疾病发病机制和疾病结局至关重要。预测 RNA 结构,包括碱基配对和折叠成 3D 形状,有助于了解其分子功能、稳定性以及与蛋白质的相互作用。mRNA 的化学修饰会影响基因加工、mRNA 稳定性和蛋白质生产,对理解疾病、细胞功能和生物体生长具有重要意义。此外,蛋白质复合物与 RNA 的相互作用决定了 RNA 的命运和功能,研究这些相互作用有助于探索 mRNA 翻译和定位等关键生物学过程及其在人类疾病中的作用。
DNA 突变可能影响 mRNA 剪接,导致异常剪接和疾病。因此,识别导致剪接改变的突变并预测其功能影响,对于解释未知功能的突变、改善人类治疗方法至关重要。细胞和组织中大量 RNA 分子的相互作用对细胞功能和生物体特征起着决定性作用。
以 RNA 为靶点开发小分子药物具有重要的医学意义,但目前 RNA 和治疗性蛋白质靶向药物的发现仍处于初期阶段。AI 工具能够帮助研究人员理解 RNA、蛋白质与小分子的相互作用,许多制药公司利用 AI 加速相关药物的发现。
AI 和 ML 在核酸研究的多个方面发挥着重要作用。在抗原 - 抗体相互作用研究中,基于 AI 的大型预训练蛋白质语言模型,如 SEMA,可预测抗原上的构象 B 细胞表位,这对疫苗开发和免疫学研究至关重要。AI 还可用于研究蛋白质翻译过程,优化 mRNA 设计,提高基于 mRNA 的疫苗和治疗方法的效果。此外,在基因表达调控方面,DL 工具可通过分析天然启动子序列的分布模式,操纵真核和原核启动子元件,开发合成启动子。
AI 与蛋白质研究
蛋白质设计需要精确的 3D 结构和原子相互作用,而蛋白质结构由氨基酸序列编码。分析蛋白质序列与结构之间的关系对于揭示复杂蛋白质的功能至关重要。AI 工具 RaacFold 可降低蛋白质复杂性,帮助研究生物大分子相互作用。
蛋白质分析的时间取决于可用数据,基于 DL 的方法可通过准确预测蛋白质特征,减少昂贵的蛋白质数据库搜索。AI 工具在研究 G 蛋白信号传导的结构和功能方面发挥着重要作用,有助于开发针对癌症突变体(如 G 蛋白)的新疗法,如通过 GproteinDb、ArretsingDb 和 Biased Signaling Atlas 等工具研究 G 蛋白界面相互作用和预测选择性决定因素。
跨膜蛋白在细胞通讯、信号传导、细胞结构维持、能量产生和分子跨膜运输等方面发挥着重要作用,但由于其疏水性,结构测定存在困难。AlphaFold2 和 UniTmp 等基于 AI 的工具,利用跨膜蛋白的拓扑数据,为研究跨膜蛋白结构提供了新的途径。
编码和非编码 RNA 的分类是一个复杂的过程,涉及多种方法和算法。许多基于 ML 算法的分类工具,通过核苷酸和氨基酸序列、蛋白质数据库的相似性搜索以及参考基因组等进行 RNA 分类。
计算工具可用于 DNA 纳米结构的设计评估,但目前存在一些局限性,如无法进行 3D 可视化和有限的核酸评估。蛋白质由于其稳定性,在功能性纳米结构开发中是酶促反应的首选。AI 优化的结构预测工具,如 CATANA,有助于设计重组和融合蛋白。
RNA 修饰在 RNA 代谢、运输、定位、稳定性和可翻译性等方面发挥着重要作用,AI 和 ML 可用于检测和量化修饰残基,如 MODOMICS 数据库提供了相关信息。
在制药行业,AI 可用于克服许多挑战。在药物发现和开发过程中,AI 能够预测药物特性、识别药物候选物,加速药物发现过程;ML 可分析大规模化学和生物学数据,降低药物开发早期阶段的成本和时间。此外,AI 还可用于预测药物候选物的成功或失败、药物重新定位、个性化治疗、医学图像分析、基因组编辑、全基因组测序、制药生产和客户服务优化等多个方面。
AI 和 ML 技术在蛋白质和核酸研究中的应用
在制药行业,AI/ML 模型可通过分析细微模式评估实验结果,具有较高的预测准确性。ML 共享数据可用于开发性能更好的创新配方。计算科学家可利用 ML 库和 DL 架构进行更好的决策,如使用贝叶斯版本的 DL 模型、TensorFlow 和 PyTorch 等工具。分子工程可借助图神经网络和生成模型,根据收集的数据推荐有效基因表达谱的分子和新的活性药物成分。在分子发现任务中,遗传算法在涉及特定算法的生成任务中表现优于生成模型。
许多 AI 和 ML 创新已应用于制药研究、蛋白质研究和核酸研究。例如,DDMut - PPI 利用基于图的 DL 预测突变对 PPIs 的影响;BioSeq - Analysis 2.0 可有效分析 DNA、RNA 和蛋白质序列及残基水平;AcRanker 利用 ML 直接识别新的抗 CRISPR 蛋白;EnsembleCNV 用于识别基因型 CNV,消除批次效应;SEMA 2.0 通过 AI 预测 B 细胞构象表位;LightDock Server 用于大分子相互作用建模;TOXRIC 提供综合毒理学数据;AggMapNet 用于增强低样本组学的 DL 分析;CATANA 用于蛋白质和核酸纳米结构建模;TransposonUltimate 用于转座子的分类、检测和注释;DeepBIO 提供 DL 生物序列分析;dbAMP2.0 和 DRAMP 4.0 用于抗菌肽的研究;PhytAMP 用于植物肽的有效表征;R - chie 用于可视化生物实体间的相互作用;MAXAMIZE 辅助 DNA 测序策略;CPred 用于预测蛋白质中可行的环形排列;FireProtDB评估蛋白质热稳定性数据;ACFIS 2.0 用于片段基药物发现;Gene - SCOUT 评估基因相似性;CREAMMIST 预测癌症药物反应;ADCdb 包含抗体 - 药物偶联物(ADCs)的信息;RNAincoder 用于描述 RNA 及其相互作用对;FuzPred 预测蛋白质的结合模式;beRBP 预测 RNA 结合蛋白的靶标;mmCSM - PPI 预测 PPIs 中的多点突变;DNAffinity 预测转录因子的 DNA 结合亲和力;TherMos 估计蛋白质 - DNA 结合能;JET2 Viewer 预测蛋白质结合位点;GePI 进行基因 - 蛋白质相互作用的检索和筛选;多字母共识算法用于表征蛋白质 - DNA 相互作用。
结构生物学、AI 和生物信息学的融合对于加速药物发现、优化分子设计和改进预测建模至关重要。高质量的生物和化学数据是有效实施 AI 驱动分析的基础,有助于识别生物标志物、预测脱靶效应和耐药性问题。简化靶点验证,通过绘制疾病相关基因图谱,对药物开发至关重要。
AI 的伦理考量
AI 在药物发现中的应用加速了靶点识别和药物重新定位,但训练数据可能存在偏差,导致药物疗效在不同人群中存在差异。因此,在使用患者数据进行 AI 研究时,需要强大的隐私保护、透明的数据治理,并遵守相关法规,如《通用数据保护条例》(GDPR)和《健康保险流通与责任法案》(HIPAA)。
器官芯片技术和 AI 驱动的模拟可减少动物研究的负担,但需要确保对人体试验的预测准确性。伦理框架对于确保公平的定价策略、防止医疗保健结果的差异至关重要。基因编辑技术和基于 AI 的个性化医学可能产生意想不到的后果和长期影响,因此需要监管框架来评估 AI 驱动的药物发现工具和数字疗法的可靠性、偏差缓解策略和可解释性。不同国家的 AI 法律存在差异,给合规带来挑战,且 AI 驱动的模型不断发展,需要适应性的监管来适应其持续学习和更新。
未来展望
AI/ML 在制药研究中的持续整合展现出多个有前景的方向。随着 AI 技术的不断发展,有望出现更复杂的模型来处理日益复杂的生物数据。可解释 AI 的发展至关重要,它能确保药物开发中 AI 驱动的决策透明且可解释。未来的 AI 工具可能会更好地整合基因组学、蛋白质组学、代谢组学和临床数据等多种生物数据,这种整体方法将更全面地理解生物系统和疾病机制。
边缘计算和 5G 技术的进步可能实现生物数据的实时处理,这可能会彻底改变临床试验和患者监测。鉴于新药开发成本高昂,AI 驱动的药物重新定位方法可能会受到更多关注,从而更有效地发现现有药物的新用途。
随着 AI 在药物开发和医疗保健中的重要性日益增加,解决伦理问题至关重要,包括确保患者隐私、消除 AI 模型中的偏差以及在关键决策中保持人类监督。AI 在制药研究中的快速发展需要新的监管框架,监管机构必须适应评估 AI 驱动的药物发现过程,确保其符合安全性和有效性标准。
未来,AI 系统与人类研究人员之间可能会有更无缝的合作,这种协同作用可能会带来单独行动无法实现的突破性发现。随着量子计算技术的成熟,其与 AI 的整合可能会显著增强模拟复杂分子相互作用和预测药物疗效的能力。
结论
AI 和 ML 在制药研究,特别是蛋白质和核酸研究领域的整合,代表了药物发现和开发的范式转变。这些技术在解决制药行业长期存在的挑战方面具有巨大潜力,有望将药物开发的时间缩短 40%,成本降低 30%。AI/ML 工具在预测 PPIs、分析生物序列、分子对接、毒理学评估等多个方面展现出强大的功能,有助于优先选择药物候选物和优化研究资源。AI 在分析复杂生物数据方面的应用,为个性化治疗方法铺平了道路,符合精准医学的发展趋势。