《Journal of Cardiology》:From DNA to Drug Discovery AI Models for Cardiovascular Precision Medicine
编辑推荐:
心血管疾病仍是全球首要死因,然而连接遗传变异与临床结局的分子机制仍未得到充分阐明。人工智能(AI)的最新进展,尤其是基于基因组、结构和表型数据训练的基础模型,为弥合这一鸿沟提供了新机遇。本综述强调AI如何通过五个关键领域重塑心血管生物学。首先,序列到表达模型(
心血管疾病仍是全球首要死因,然而连接遗传变异与临床结局的分子机制仍未得到充分阐明。人工智能(AI)的最新进展,尤其是基于基因组、结构和表型数据训练的基础模型,为弥合这一鸿沟提供了新机遇。本综述强调AI如何通过五个关键领域重塑心血管生物学。首先,序列到表达模型(如Enformer和Evo2)可预测非编码变异如何影响基因调控。其次,结构感知模型(如AlphaFold3和ESM-2)将序列转化为三维(3D)结构,实现疾病相关蛋白的合理设计。第三,细胞情景模型(包括scNET和DeepTalk)解读单细胞和空间转录组学,以揭示信号通路和细胞-细胞相互作用。第四,生成化学模型(例如DeepDTAGen、PMDM)设计针对蛋白口袋定制的药物样分子。最后,表型响应模型(如PRnet和TranSiGen)预测药物处理后的转录变化——支持药物重定位和毒性筛选。研究人员概述了如何将这些组件整合为从基因型到表型和治疗干预的流程。应用案例包括预测肥厚型心肌病中MYH7变异效应、定位冠状动脉疾病中9p21调控区域,以及筛选肺动脉高压中的药物毒性。尽管取得了进展,但无缝的端到端系统仍遥不可及。未来的优先事项包括高质量数据集、多模态互操作性、外部验证和临床整合。成功将不依赖于单一模型,而是需要精心编排的AI流程与湿实验洞见相结合。当战略性使用时,基础模型可压缩从发现到临床的时间线,开启心血管精准医学的新时代。
**引言:碎片化的生物信息与人工智能驱动整合的潜力**
心血管疾病的发生和进展受多层生物信息调控,范围从基因组序列、蛋白质结构、基因表达模式、细胞间网络,到器官形态变化和临床表现。过去,这些数据类型常被孤立研究,缺乏连接。即使成功预测了致病突变的结构影响,追踪其对细胞功能或临床表型的下游效应仍极具挑战。同样,在药物发现中,靶标选择、分子设计、安全性评估和患者分层等过程也常彼此分离。这种“碎片化信息架构”主要源于技术限制。基于单核苷酸多态性(SNP)的全基因组关联研究(GWAS)缺乏因果分辨率,无法解释疾病的生物学基础。与此同时,机器学习在临床心脏病学中取得了显著进展,如超声心动图、自动心音诊断、血管内成像、冠脉钙化评分等。然而,这些诊断和成像AI工具虽成功帮助可视化表型变化,但历史上仅提供有限的分子连接。药物发现AI通常聚焦于狭窄的任务特定模型,很少有系统能够基于基础生物学洞见跨多个生物层次进行优化。近期,一类新模型出现——虽未完全整合,但能弥合部分碎片化景观。典型例子包括Enformer和Evo2。Enformer直接从DNA序列预测转录活性,整合增强子-启动子动态等长程相互作用,展示了对基因组调控的情景理解。Evo2基于覆盖生命所有域(domains of life)的9万亿DNA碱基训练,可实现非编码变异的情景解释和功能预测。同时,AlphaFold3扩展了预测蛋白质复合物三维(3D)结构的能力,包括与DNA的相互作用,成为评估序列变异如何改变分子构象的有前景工具。然而,实现完全连接的层次化理解仍遥不可及。当前模型仅是走向整合的初步步骤——跨越某些边界,但尚未构建统一的研究与临床流程。本综述旨在重新定义这些基础AI模型在心血管医学中的作用:它们如何实现生物层次间的部分连接、未来如何应用,以及尚存的局限性。图1展示了支撑讨论的基因至临床整合框架。读者对象包括心血管临床医生、基础科学家和AI工程师。我们警告不要盲目信任任何单一模型,而是倡导构建互补、可互操作系统以推进整合性心血管科学。为帮助不熟悉计算和分子生物学术语的临床读者,提供了关键术语词汇表(表1)。
**基于序列的功能预测——Enformer和Evo2的变革性影响**
长期以来,准确预测给定DNA序列中哪些基因被表达并最终导致疾病,被认为技术上不可行。这催生了称为序列到表达模型的一类AI方法。早期努力如Basenji奠定了基础,但2021年Google Research引入的Enformer标志着突破。Enformer通过捕获约200,000碱基对窗口内的基因组情景,以高精度预测信使RNA(mRNA)表达水平和表观基因组活性。AlphaGenome将输入序列范围扩展到超过一百万碱基对,实现多模态调控预测和变异效应评分。该模型在预测调控区域非编码突变的分子后果方面展示了初步能力,为未来诊断支持和精准医学应用带来希望。Evo于2024年引入,是一个大规模基础模型,统一了从分子到基因组尺度任务的序列预测和生成设计。它以单核苷酸分辨率涵盖DNA、RNA和蛋白质模态,支持从单引导RNA和蛋白质复合物设计到全基因组分析的应用,使用超过130,000个标记的上下文。Evo2是其2025年继任者,基于前所未有的九万亿DNA碱基数据集(涵盖所有生命域)训练。它不仅高精度预测基因组变异的功能影响,还能生成新序列——从调控DNA到蛋白质和引导RNA——针对特定生物学功能定制。凭借超过一百万个标记的上下文,Evo2弥合了序列分析与生成设计,开启了可编程基因组学的新纪元。但需注意,Evo2目前处于预印本阶段,其预测发现需经过严格的独立同行评审验证和前瞻性临床测试,才能常规整合到心血管精准医学中。在心血管遗传学中,计算机模拟预测关键基因(如MYH7、TTN、LMNA、SCN5A)序列变异如何影响蛋白质结构或基因表达正逐渐兴起。这些计算机模拟工具为疾病机制提供洞见并支持风险分层,越来越多地被探索用于变异分诊,并可能有助于未来遗传性心肌病和心律失常的治疗性基因组编辑策略。
**细胞情景与细胞-细胞通讯:从基因到表型**
疾病的发生和进展不仅受基因突变影响,还受细胞情景影响——包括细胞类型、空间组织以及与邻近细胞的相互作用。在心血管疾病中,新兴证据强调心肌细胞、成纤维细胞和免疫细胞之间的相互作用在心力衰竭和纤维化等病理过程中的关键作用。为捕获这些细胞间关系,单细胞RNA测序(scRNA-seq)和空间转录组学等先进技术被开发出来,提供更精细的组织复杂性洞察。伴随这些技术,基于AI的分析方法正被积极开发。本章介绍两个用于分析细胞-细胞通讯的模型:scNET和DeepTalk。scNET是一个AI模型,通过图神经网络(GNN)架构整合scRNA-seq数据与蛋白质-蛋白质相互作用网络。所得嵌入更好地捕获了跨不同细胞类型的基因注释、通路特征和基因-基因关系,相比传统方法支持更优的聚类和通路分析。scNET关注细胞类型间的转录相似性,而DeepTalk则明确纳入空间邻近性——通过注意力图神经网络整合空间转录组学和scRNA-seq数据——以推断配体-受体交换并量化细胞类型间的通讯得分。该模型在多个基准数据集上展示了优越性能,但心血管验证仍然有限。尽管这些模型最初为癌症和免疫相关疾病开发,但在心血管应用中具有强大潜力。例如,可用于重建TGF-β介导的成纤维细胞-心肌细胞信号传导,或绘制涉及IL-6的炎症通路以及免疫-心脏相互作用。此类分析可 refine 我们对发病机制的理解,并帮助识别新治疗靶点。然而,需强调这些工具目前最适合假设生成,应与实验验证结合使用。心血管特异性的空间转录组数据集仍然有限,凸显了该领域扩展数据基础设施的必要性。
**蛋白质结构预测与设计:从AlphaFold3到生成模型**
蛋白质是几乎所有生物过程的核心,理解其三维结构对阐明疾病机制和推进药物发现至关重要。深度学习的最新进展使得直接从氨基酸序列高精度预测蛋白质结构成为可能,彻底改变了结构生物学领域。2021年AlphaFold2的发布标志性突破,使许多此前难以或无法解析的蛋白质结构得以预测。AlphaFold3显著扩展了预测能力,现在支持多种生物分子相互作用的高精度建模——包括蛋白质-DNA和抗体-抗原复合物,并展示了蛋白质-配体结合预测的初步能力。这减少了对多个专门工具的依赖,使复杂分子系统的评估更一致。在此基础上,该领域正积极向AI辅助的蛋白质和分子设计推进。语言模型如ESM-2是另一项重大创新,可在无需多重序列比对的情况下快速预测蛋白质的主链和侧链级结构。它已被用于自动注释数亿个蛋白质序列,产生了ESM宏基因组图谱——有史以来最大的结构数据库之一。其中最突出的模型之一是Chroma,可在特定约束下(如所需功能、形状或对称性)生成新蛋白质。Chroma平衡了统计生物物理合理性与结构约束,已成功设计出数百种蛋白质,其中许多显示稳定表达和合理结构,部分在实验分析中具有功能活性。这些能力与心血管研究特别相关,因为蛋白质-蛋白质和蛋白质-DNA相互作用是许多遗传性和炎症性疾病的基础。在心血管领域,蛋白质结构AI技术正开始探索性应用,尤其是在临床前环境中。例如,抗体-抗原相互作用的计算机模拟建模在肿瘤学和传染病中更成熟,但在自身免疫和血管炎症背景下具有新兴潜力。疾病相关突变的结构解析也在增强,为遗传性心肌病和心律失常的新治疗靶点识别铺平道路。蛋白质结构AI模型正从静态预测工具演变为理性设计系统,加速精准医学进程。
**AI在药物发现中的演变:DeepDTAGen与生成分子模型的能力**
近年来,AI辅助药物发现技术快速发展,尤其关注能自动生成候选药物分子的模型。传统药物开发需要分子设计、合成和评估的繁琐循环,昂贵且耗时。相反,AI能在短时间内设计针对特定蛋白靶标优化的分子,极大提高了早期药物发现的效率。DeepDTAGen是一个多任务学习框架,整合了两种功能:预测药物-靶标亲和力和从头分子生成。通过同时学习这两项任务,DeepDTAGen能提出更合理优化的分子以结合给定蛋白靶标,性能优于传统方法。随后涌现了多种生成模型,各具特色。例如,TamGen支持针对特定疾病的靶标条件分子生成。相比之下,PMDM(基于口袋的分子扩散模型)将蛋白质结合口袋的3D结构纳入生成过程,允许设计空间兼容的候选药物,在结构精度上超越早期基于二维(2D)的方法。在心血管领域,AI驱动药物发现工具的应用仍主要为探索性,集中于已确立治疗作用的靶标类别——如前蛋白转化酶枯草溶菌素/kexin 9型、血管紧张素受体阻滞剂、钠-葡萄糖共转运蛋白2和磷酸二酯酶5——AI贡献于计算机模拟假设生成和候选优先排序。然而,努力正扩展至新型机制,如炎症、纤维化和心脏重塑。实验验证和安全性评估仍然必要,此类模型的临床效用有待未来确认。成功转化需进一步步骤:合成可行性验证、体外和体内分析、系统性ADMET(吸收、分布、代谢、排泄、毒性)分析以及迭代优化循环。AI药物设计必须嵌入端到端的开发流程中,严格连接计算与实验。
**基于表型的药物发现:利用PRnet和TranSiGen进行逆向工程**
传统药物发现遵循基于靶标的范式——识别特定分子靶标(如酶或受体)并设计药物以调节之。但该方法存在局限性,尤其在分子靶标未知或现有药物引起显著副作用时。近年来,基于表型的药物发现受到关注,通过观察药物如何影响整体细胞表型来寻找有效化合物。能够预测药物诱导基因表达变化的深度学习模型已成为该策略的关键推动力。PRnet是一个预测转录响应的AI模型——即细胞中基因对药物处理的反应。给定细胞类型、药物结构和浓度等输入,PRnet预测特定基因表达是增加还是减少。关键特性是其对未经实验测试的新化合物进行泛化预测的能力,使其成为药物发现和药物重定位的强大工具。在超过100万个药物响应谱上训练后,PRnet已助力识别肺癌、结直肠癌和代谢性疾病等的新治疗候选物。PRnet执行转录响应的正向预测,而TranSiGen则生成虚拟表达谱——识别差异表达基因——从而在表型驱动筛选中互补。TranSiGen从药物处理前后细胞状态的差异中学习,输入药物结构使用SMILES(简化分子输入线输入系统)表示,基于此和细胞初始基因表达,预测药物处理后基因活性变化。TranSiGen在覆盖8300种化合物和164种细胞类型的大型数据集上训练,准确性显著高于以前方法。即使对于结构新颖或未知的药物也表现良好,使其适用于探索新化合物库。这些模型现在被探索用于心血管医学,潜在用例包括心肌炎和肺动脉高压的药物重定位,以及研究化合物心脏毒性的预测。表型中心AI在药物发现中的兴起,为更深入理解疾病生物学和更广泛治疗选择提供了新路径。
**本综述讨论的人工智能基础模型总结**
表2按领域总结了前文介绍的关键AI基础模型,列出了每个模型的训练数据、推理输入和主要任务,作为详细描述与后续心血管应用讨论之间的比较参考。此外,图2提供了历史时间线,展示了这些关键基础模型的快速演变和发展。
**基础模型在心血管疾病中的应用与未来前景**
随着AI基础模型的快速发展,其在心血管疾病诊断和治疗中的应用越来越多样化。本章重点介绍这些技术——从基因组序列分析到分子设计和药物响应预测——如何应用于代表性心血管疾病,并概述临床整合的未来机遇。Evo2(一个能预测基因组变异效应的基础模型)被探索用于分析经常涉及肥厚型心肌病的肌小节基因MYH7中的突变,以支持准确的致病性预测。结合AlphaFold3,现在可以在蛋白水平上建模此类突变的结构后果。基于这一分子洞见,DeepDTAGen可被潜在用于设计靶向候选药物,而TranSiGen可支持预测细胞响应——共同提供治疗开发的精简流程。在冠状动脉疾病中,非编码基因组区域9p21引起特别关注。Enformer等工具可预测此类调控区域中的变异如何影响基因表达。此外,PRnet可预测候选药物的转录效应,有助于在实验测试前高效选择治疗化合物。对于肺动脉高压等复杂疾病,整合多个AI模型可揭示新治疗途径并支持药物重定位——即识别具有潜在新适应症的现有药物。PRnet凭借其模拟大量化合物在广泛细胞类型中响应的能力,特别适合在计算机中缩小有前景的候选范围。此外,当涉及心脏毒性(药物对心脏的不良效应)时,AlphaGenome和PRnet等模型允许研究人员提前预测特定化合物如何扰乱基因表达或细胞功能。这种早期风险评估可能有助于开发更安全的疗法。尽管有这些有前景的应用,但必须认识到这些基础模型当前局限性和潜在失败案例。主要挑战是对心血管数据迁移性的限制;许多模型在泛化或肿瘤学重型数据集上训练,可能无法捕获心血管系统独特的生物力学和电生理特性。此外,当前蛋白质结构预测的静态性质往往限制了其完全捕获心血管疾病特有的动态结构变化和表型变异的能力。深度学习的可重复性问题和“黑箱”性质仍是临床实施的重要障碍。表3对比了每类模型的优势、弱点和潜在失败点,以及当前心血管研究中的证据水平。从孤立应用过渡到常规临床实用性需要稳健的计算策略进行模型整合。例如,评估心力衰竭等复杂综合征可能涉及结合序列水平变异数据、心内膜心肌活检的单细胞转录组学和纵向影像学。开发多模态流程将这些多样化数据类型映射到共享潜在空间中至关重要。将先进AI架构应用于心血管数据——类似于肿瘤学中成功的多组学整合——可阐明复杂基因型-表型轨迹,最终实现更精确的患者分层和靶向干预。
**结论:从部分连接到临床转化**
本综述概述了近期AI基础模型如何开始弥合先前碎片化的生物医学信息层次。这些模型包括基于序列的模型(Enformer、Evo2)、结构预测(AlphaFold3)、细胞情景分析(scNET、DeepTalk)、药物设计(DeepDTAGen、TamGen、PMDM)和转录响应预测(PRnet、TranSiGen)。它们共同代表了向跨生物尺度部分整合的转变。然而,实现真正的端到端流程——从序列到结构、表达、细胞行为、器官功能,最终到临床结局——需要进一步发展。特别是,必须扩展心血管特异性数据集、建立共同基准,并通过前瞻性临床研究严格评估模型的外部效度和可重复性。为实现端到端整合,需要具体的技路线图:多模态融合架构——如连接基因组嵌入与结构和临床表征的交叉注意力机制——弥合不同数据类型。图神经网络特别适合此任务,可同时建模从蛋白质-蛋白质相互作用到细胞级通讯网络的层次关系,正如本综述中scNET和DeepTalk所展示的。肿瘤学的经验具有启发性:围绕TCGA等资源开发的多组学整合流程加速了生物标志物发现和患者分层。类似的心血管联合体——结合单细胞图谱、GWAS数据和纵向临床记录——将提供评估模型互操作性和可重复性所需的基准基础设施。未来几项优先事项至关重要:1)来自心肌细胞、内皮细胞、成纤维细胞及其他相关细胞类型的高质量数据整理;2)连接不同模型的整合流程开发,侧重可解释性;3)包含安全性、伦理考虑和现实可用性的临床评估框架;4)临床医生、基础研究人员和AI开发者之间的持续合作。进步将不依赖于任何单一模型,而是基于多个模型的互补使用与实验验证相结合。尽管当前能力仅限于部分连接,但这些渐进式进展可能代表通往临床影响的最直接路径。随着持续改进和审慎实施,AI基础模型有望重塑我们对心血管疾病的理解和治疗。