基于目标识别的潜在扩散模型在诱导细胞凋亡的抗癌肽设计中的应用

《Computers in Biology and Medicine》:Target-aware latent diffusion model for design of apoptosis-inducing anticancer peptides

【字体: 时间:2025年11月21日 来源:Computers in Biology and Medicine 6.3

编辑推荐:

  本研究提出BTOB-T框架,整合多组学数据与图核方法,通过Transformer提取基因特征,构建乳腺癌网络与化合物扰动网络,计算药物匹配度以提升乳腺癌药物重定位准确性。摘要:

  
Jong Ho Jhee|Hwiyeong Lee|Hyunmi Kim|Min-Young Song|Jeung Hee An|Hyunjung Shin|Byung Gon Kim|Soo Youn Lee
Inria、Inserm、巴黎城市大学(UMR 1346)、法国巴黎

摘要

基于深度学习框架的计算预测模型最近得到了发展,显著减少了药物开发的平均时间和成本。然而,乳腺癌的分子异质性在从多组学数据中提取具有代表性的基因特征时带来了挑战。在这项研究中,我们提出了一个新颖的框架——基于蛋白质组学的双向处理深度学习框架(BTOB-T),用于乳腺癌的治疗药物再定位。首先,使用基于变压器的模型提取整合的基因表示。在生成由基因表示及其关系组成的乳腺癌网络后,应用图核方法来测量乳腺癌网络与化合物干扰网络之间的差异分数(“集成药物分数”)。通过临床试验数据、处方药物列表、乳腺癌表型数据和细胞活力测定来验证BTOB-T的预测效果。BTOB-T整合了多组学生物动态数据以及基因之间的关系,从而更准确地预测新药物的有效性。

引言

利用统计和机器学习技术的计算模型将药物开发时间缩短了15年,并将相关成本降低了超过10亿美元。这一进展促使人们广泛研究了各种疾病,包括癌症[1]、[2]、[3]、[4]。这些研究使用了包含转录组谱的全面药理学数据,例如集成网络基础细胞特征库(LINCS1)和依赖关系图(DepMap2)项目,分别记录了大约20,000种和4,500种小分子的响应[5]。然而,计算方法受到多组学数据可用性的限制,主要依赖于批量RNA-seq数据,这些数据提供的洞察有限[6]、[7]。尽管有多样化的癌症组学数据可用,包括癌症基因组图谱(TCGA3)和临床蛋白质组学肿瘤分析联盟(CPTAC4)数据,但由于使用了部分分子表达数据以及来自文献和其他知识库的辅助元数据,药物再定位方法仍存在一些局限性。一种更全面的方法是整合DNA、RNA和蛋白质的表达数据,这些数据展示了癌症的独特分子模式[8]、[9]、[10]、[11]、[12]。由于多组学数据的多样性特征,即高生物异质性、维度和多方面的噪声[13],选择与癌症相关的基因进行药物再定位是一个复杂的过程。
在基于机器学习的方法中,利用自动编码器、图神经网络和其他基于网络的方法,在计算药物再定位方面取得了显著进展[14]、[15]、[16]。变分自动编码器(VAE)通过将多层癌症组学数据整合到低维和压缩的向量表示中,有效提取了用于药物再定位的潜在特征[17]。它为预测多组学数据中的药物-疾病关系提供了基因特征[18]、[19]、[20]、[21]、[22]。此外,利用变压器模型,自然语言处理也被应用于基于基因表达的表型预测[23]。然而,许多药物再定位方法仍然主要依赖于从多组学压缩中获得的代表性基因或仅检查基因之间的生物相互作用[17]。在这项研究中,我们提出了一个新颖的框架——基于蛋白质组学的双向处理深度学习框架(BTOB-T),该框架通过利用变压器和图核来整合基因信息,反映了多组学的生物动态和基因间关系。BTOB-T由三个模块组成:基因特征浓缩(CGF)、基因-基因关系分数(GRS)和药物-基因匹配(DGM)评分方法。首先,与之前专注于表示个体潜在特征的研究不同[24]、[25],BTOB-T应用了从多组学数据中提取的每个基因的潜在表示。通过实现多组学数据的基因级整合,CGF仅保留了每个单独基因的信息。其次,CGF被输入到变压器模型中,使用自注意力机制获得GRS[26]。利用CGF、GRS和蛋白质-蛋白质相互作用(PPI)构建了两个网络:乳腺癌网络(BC-network)和化合物干扰网络(PC-network)。最后,通过图核方法量化BC-network和PC-network之间的差异来计算DGM分数。BTOB-T是第一个和谐整合变压器和图核方法的药物再利用平台,通过协调分析多组学生物动态(包括蛋白质组学和基因间的相互作用)来提高药物预测的准确性。
我们从定量和定性的角度验证了所提出的BTOB-T在预测药物疗效(以BC细胞活力为准)方面的性能。对于定量评估,使用BC相关临床试验的金标准,通过ROC曲线下面积(AUC)来评估BTOB-T框架得出的候选药物。使用BC亚型细胞系进行磷酸蛋白质组学分析和细胞活力测定来进行定性评估。
本文的其余部分组织如下:第2节介绍多组学数据并提出BTOB-T框架。第3节展示了我们BTOB-T框架的实验结果和候选药物的评估。第4节总结了我们的贡献和未来的工作。

材料与方法

本研究的目标是利用多组学数据(包括单核苷酸多态性(SNPs)、突变特征、转录表达和蛋白质表达)来预测乳腺癌的候选药物。设计一个能够反映所有数据特征的模型以选择候选药物至关重要。为此,我们提出了一个由三个模块组成的框架。我们的框架概述见图1。首先是基因特征浓缩(CGF)

实验结果

在本节中,我们重点验证了我们提出的模型与其他基线模型在药物预测(筛选)任务中的整体性能。然后,我们评估了我们提出的模型框架的每个步骤。首先,我们比较了特征提取模型,并使用生物学知识评估了得到的CGF。其次,使用生存测试中的金标准基因评估了变压器模型的GRS。最后,评估了从DGM中得出的乳腺癌候选药物

讨论

深度学习在癌症研究中被广泛用于预测新药物的有效性[51]和患者生存结果[52]。通过利用多组学数据(包括L1000等药理学基因转录数据集),这些研究通过整合系统和全面的信息增强了预测能力,而不仅仅是依赖单层组学数据[4]。然而,考虑到整合和分析的难度

CRediT作者贡献声明

Jong Ho Jhee:撰写——审稿与编辑、撰写——初稿、可视化、验证、方法论、资金获取、正式分析、数据管理、概念化。Hwiyeong Lee:撰写——初稿、可视化、数据管理。Hyunmi Kim:撰写——初稿、验证、正式分析。Min-Young Song:撰写——初稿、验证、正式分析。Jeung Hee An:研究、资金获取。Hyunjung Shin:撰写——审稿与编辑,

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了韩国政府(MSIT)资助的韩国国家研究基金会(NRF)(NRF-2023R1A2C3006084)的资助,以及韩国政府(MSIT)资助的韩国国家研究基金会(NRF)(RS-2023-NR077274)的资助,还包括韩国教育部通过韩国国家研究基金会(NRF)资助的基础科学研究计划(资助编号2021R1I1A1A01058604)。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号