基于人工智能的药物-基因相互作用预测:深度学习框架揭示紧密连接完整性调控的多个治疗靶点
《Journal of Oral Biology and Craniofacial Research》:AI-based prediction of drug-gene interactions modulating tight junction integrity: A deep learning framework highlighting multiple therapeutic targets
【字体:
大
中
小
】
时间:2025年10月24日
来源:Journal of Oral Biology and Craniofacial Research CS4.9
编辑推荐:
本研究针对紧密连接功能障碍相关疾病缺乏有效治疗靶点的问题,开发了一种基于深度学习的神经网络框架,通过整合多组学数据预测药物对紧密连接完整性的调控作用。该模型实现了AUC 0.947的高预测精度,成功鉴定出Cimifugin等候选化合物对CLDN1等关键基因的调控作用,为药物发现和个性化医疗提供了创新解决方案。
在人体复杂的生理结构中,上皮和内皮细胞形成的屏障如同守护健康的"长城",而紧密连接(Tight Junctions)就是这座长城上至关重要的"城门"。这些由claudin、occludin等蛋白质构成的精密结构,不仅调控着物质在细胞间的选择性通过,还参与维持组织稳态和细胞信号传导。当这些"城门"出现功能障碍时,各种疾病便会乘虚而入——从常见的炎症性肠病、哮喘,到令人担忧的癌症转移和阿尔茨海默病,都与紧密连接完整性受损密切相关。
在口腔医学领域,紧密连接的功能异常尤为突出。牙周炎患者牙龈上皮的屏障泄漏为细菌入侵打开了通道;化疗引起的口腔黏膜炎使上皮细胞连接松散,导致疼痛和感染;唾液腺功能障碍也往往源于上皮通透性的改变。然而,传统研究方法在探索药物如何调控紧密连接相关基因时面临巨大挑战:实验周期长、成本高,且难以捕捉复杂的生物网络相互作用。
面对这一难题,来自印度Saveetha大学修复学系的研究团队在《Journal of Oral Biology and Craniofacial Research》上发表了一项创新研究。他们开发了一种基于深度学习的神经网络框架,能够高效预测药物与基因的相互作用,特别是那些影响紧密连接完整性的关键靶点。这项研究不仅为口腔疾病的治疗提供了新思路,也为更广泛的屏障功能障碍相关疾病的药物研发开辟了新途径。
研究人员采用了几项关键技术方法:从NCBI GEO数据库获取转录组数据并进行预处理;利用GEO2R识别差异表达基因(DEGs);通过Cytoscape进行网络分析筛选关键枢纽基因;构建包含三个隐藏层的前馈神经网络模型;采用SHAP和LIME等可解释性AI技术分析预测结果;使用TCGA数据集进行外部验证以确保模型泛化能力。
2. Materials and Methods
研究人员从NCBI基因表达综合数据库(GEO)系统获取了与紧密连接蛋白分子动力学相关的转录组数据集。他们选择了包含药物治疗样本和对照样本的研究,筛选标准包括存在紧密连接基因表达数据、药物-基因相互作用信息以及与细胞紧密连接的相关性。采用分位数标准化等技术对原始基因表达数据进行预处理,以减少批次效应并确保数据集间的一致性。
使用GEO2R分析工具进行差异基因表达谱分析,比较药物暴露组和对照组。通过错误发现率校正调整p值来筛选具有统计学显著性的基因,将log2折叠变化超过±1.5阈值的基因纳入进一步分析。
对差异表达基因进行网络分析,使用Cytoscape 3.10.3可视化基因相互作用并识别参与药物-基因调控的中枢基因。通过clusterProfiler包进行功能富集分析,确定这些基因相关的生物学通路。将识别出的在细胞紧密连接功能中起核心作用的中枢基因作为预测模型的主要输入特征。
设计基于神经网络的预测框架,根据选定的转录组特征对药物-基因相互作用进行分类。将数据集分层为训练组(80%)和测试组(20%)以增强模型泛化能力。特征工程包括标准化基因表达值、使用独热编码处理分类药物相互作用数据,以及采用均值插补或K近邻插补等技术处理缺失数据。
应用可解释性AI方法提高模型可解释性,使用SHAP识别对模型预测有关键贡献的特征,采用LIME可视化决策边界以增强透明度。进行全面的特征重要性分析,阐明药物分类背后的关键遗传决定因素。
实现前馈神经网络架构,包含三个隐藏层,每层有64个节点,使用ReLU激活函数。以0.001的学习率使用Adam优化器训练模型。应用dropout正则化(0.3)防止过拟合。使用AUC、分类准确度、F1-score、精确度和召回率评估分类性能。
通过综合分类指标严格评估模型的预测性能,包括AUC、分类准确度、F1-score、精确度、召回率和特异性。使用癌症基因组图谱(TCGA)独立数据集进行外部验证,评估模型在不同生物数据集间的稳健性。系统实施K折交叉验证,通过将数据集划分为多个子集并迭代训练和测试模型,最小化过拟合风险。
将训练好的模型应用于独立数据集,预测可能影响紧密连接蛋白的新药物-基因相互作用。分析模型预测结果以识别潜在治疗靶点,提供关于药物诱导调控如何影响紧密连接完整性及相关疾病的见解。
3. Results
研究实现的神经网络架构包含输入层、三个隐藏层(每层64个计算节点)和最终输出层。这种分层设计有助于提取高级特征表示,增强网络识别复杂药物-基因相互作用模式的能力。在隐藏层中使用ReLU激活函数引入非线性,提高了模型学习和泛化高维生物数据集中复杂非线性关系的能力。
性能评估指标显示了所提出神经网络模型卓越的分类能力。AUC达到0.947,表明在区分Cimifugin处理样本和对照样本方面具有高判别能力。分类准确度达到0.980,F1-score为0.969,反映了精确度和召回率之间的和谐平衡。该模型还表现出高精确度(0.960)和召回率(0.980),Log Loss值为0.020,表明概率预测校准良好,不确定性最小。
共识别出316个药物暴露样本与对照样本之间的差异表达基因(调整p < 0.05)。功能富集分析显示,CLDN1、OCLN、TJP1和ZO-2是其中最显著调控的基因。除了Cimifugin作为CLDN1的关键调控剂外,模型还预测了其他潜在的药物-基因相互作用,如Baicalein与OCLN、Berberine与TJP1的关联。
受试者工作特征曲线进一步支持了模型的强大分类能力,AUC值为0.947。曲线接近左上角,反映了高敏感性和特异性。曲线的急剧上升表明模型能够以最少的假阳性区分药物处理样本和对照样本。
4. Discussion
本研究的主要目标是构建一个能够识别调控紧密连接相关基因的药物的预测神经网络模型。虽然Cimifugin在该模型中成为顶级候选化合物,但该方法并不限于单一化合物,展示了更广泛的应用性。
与以往研究相比,本研究的发现与机器学习在药物-基因相互作用预测中的应用现有文献高度一致。传统方法如逻辑回归和随机森林在预测药物相互作用方面取得了一定成功,但往往难以处理高维和非线性生物数据。采用传统机器学习技术的研究报告的AUC值通常在0.80-0.90范围内,这凸显了深度学习模型在捕捉组学数据集中复杂相互作用方面的优越性能。
本研究整合SHAP和LIME等可解释性AI技术,相比仅依赖黑盒模型的以往研究是一个改进。使用Cytoscape进行网络分析进一步增强了识别关键中枢基因的能力,使结果更具生物学意义。另一个优势是使用TCGA数据集进行外部验证,确保模型的预测能力不限于训练数据集,而是扩展到不同的生物条件。实施K折交叉验证进一步增强了模型稳定性,降低了过拟合风险。
该模型成功地将转录组模式映射到药物诱导的反应中。例如,模型显示用Cimifugin处理的样本中CLDN1显著上调,这是屏障功能关键的紧密连接基因。SHAP分析进一步验证了CLDN1作为主要预测特征。在Baicalein-OCLN和Berberine-TJP1等其他药物-基因对中也观察到类似模式。
本研究的一个关键优势在于其对口腔疾病治疗创新的转化相关性。紧密连接破坏是牙周炎、口腔黏膜炎和上皮发育不良等疾病的标志,在这些疾病中受损的屏障完整性促进了微生物入侵和慢性炎症。通过利用具有高预测保真度的深度学习模型,我们识别出了能够调控CLDN1等关键紧密连接基因的候选化合物(如Cimifugin)。这种方法实现了基于分子病理生理学而非经验筛选的靶向药物发现。此外,可解释性AI的整合确保了生物学可解释性,增强了预测相互作用的临床适用性。
本研究的一个显著优势在于整合了多层验证策略,包括TCGA数据的外部测试和K折交叉验证,增强了模型的泛化能力。此外,使用可解释性AI提高了预测的可解释性,解决了先前黑盒AI模型的主要限制。在口腔疾病背景下聚焦紧密连接生物学,为计算药物发现和颅面治疗提供了新颖的交集。
然而,该模型是在受控实验条件下使用精选数据集训练的,可能不能完全反映组织特异性反应的复杂性,或口腔微生物组、免疫调控和病理状态下细胞间信号的影响。药物生物利用度、组织渗透和脱靶效应的变异性也没有在计算机模拟中考虑,这可能限制直接的临床推断。未来整合多组学数据集和在生理相关模型中进行验证对于增强转化适用性至关重要。
5. Conclusion
本研究建立了一个稳健且可解释的深度学习框架,能够准确预测药物诱导的紧密连接相关基因调控。通过整合转录组分析、基于网络的中枢基因选择和可解释性AI技术,该模型为早期药物发现提供了一个可扩展且基于生物学的平台。虽然Cimifugin作为主要例子,但还识别了其他化合物,增强了模型在不同治疗背景下的适用性。高预测性能(AUC = 0.947,F1-score = 0.969)和使用TCGA数据的外部验证进一步支持了其可靠性。
这项研究的创新之处在于将先进的深度学习技术与口腔医学的实际需求相结合,为理解药物如何影响紧密连接功能提供了新视角。通过可解释性AI技术,研究人员不仅能够做出准确预测,还能理解模型决策的生物学基础,这为未来开发针对屏障功能障碍疾病的靶向疗法奠定了坚实基础。随着更多数据整合和模型优化,这种计算方法有望加速口腔疾病及其他紧密连接相关疾病的药物研发进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号