《Frontiers in Pharmacology》:MSAT: a FAERS-informed heterogeneous graph neural network for pharmacovigilance prediction of Chinese materia medica–associated adverse drug reactions
编辑推荐:
本文提出MSAT模型,这是一种融合了FDA不良事件报告系统(FAERS)实时证据与生物医学知识图谱的异构图神经网络框架。它通过引入证据-语义自适应门(ESA-Gate)和中心校准推断模块,有效整合了中药(CMM)的多组分特性与自发报告中的不确定性,实现了对中药相关不良反应(ADR)的高精度预测和临床风险分层,为上市后安全监测提供了创新的计算工具。
中药(Chinese Materia Medica, CMM)因其多组分、多靶点的复杂特性,其上市后安全性监测面临巨大挑战。单纯依赖自发报告系统(如FDA不良事件报告系统,FAERS)存在报告偏倚、噪声大且与生物学机制关联弱等局限。本研究旨在开发一个FAERS信息驱动的、临床导向的框架,以预测CMM相关的不良反应(Adverse Drug Reactions, ADR)。
研究人员构建了一个证据丰富的异质图谱,整合了CMM、化合物、蛋白质靶点和ADR四类节点。为了区分药物警戒衍生的统计关联与二元分子相互作用,他们为每个CMM–ADR边赋予了一个六维证据特征向量(包括语义相似性、FAERS报告计数的对数转换值、来源出处和拓扑结构度量),并通过证据-语义自适应门(Evidence-Semantic Adaptive Gate, ESA-Gate)将该向量注入到信息传递的注意力机制中,以条件化地调节信息传播。所提出的MSAT模型是一个多尺度异构图神经网络,其核心由三个组件构成:一是ESA-Gate,用于注入证据条件化的注意力偏置;二是分层信号传播层(Hierarchical Signal Propagation layer),用于模拟从分子机制到临床表型的跨尺度信号转导;三是中心校准推断模块(Hub-Calibrated Inference module),用于缓解由高度连接节点(hub)驱动的偏倚。
在包含27,062个经过整理的CMM–ADR关联的数据集上,通过分层10折交叉验证,MSAT模型表现卓越,曲线下面积(AUC)达到0.9792,精确率-召回率曲线下面积(AUPRC)达到0.9766,并优于多个代表性的异质图神经网络基线模型。该模型在严重的类别不平衡(正负样本比高达1:10)下依然保持稳健,并在冷启动场景中展现出良好的泛化能力。在预测出的、未出现在标记阳性样本中的前15个高置信度结果中,有13个(86.7%)得到了独立数据库或文献证据的支持。例如,MSAT优先预测了艾叶(Artemisia argyi)可能具有潜在的肝损伤信号(预测ADR:药物性肝损伤,DILI),这与外部证据一致。
模型的构建始于大规模、多源数据的整合与图谱构建。研究团队从权威数据库(如ccTCM、ETCM、PrimeKG、ADReCS、Open Targets等)和FAERS自发报告(2004年第一季度至2025年第一季度)中收集数据。最终构建的异质图谱包含29,516个节点(651个CMM、1,498个化合物、21,393个蛋白质靶点、5,974个ADR)和410,815条边。CMM–ADR关联来源于FAERS报告和文献整理,构成了27,062个用于监督学习的正样本对。节点特征通过领域特定的预训练语言模型(如BioBERT用于文本节点,ChemBERTa用于化合物SMILES序列)进行初始化。
MSAT的表示学习模块堆叠了三个多尺度注意力层。ESA-Gate通过一个可学习的门控机制动态平衡非线性MLP分支和线性快捷分支,根据边语义生成注意力偏置,从而区分药监统计证据与二元生物交互。分层信号传播层则采用“扩张-压缩”变换(例如,维度576 → 1152 → 1728 → 576),模仿从分子靶点到临床表型的层次信号转导,在单个层内增加容量,减少对深层堆叠的需求,避免了生物医学图谱中常见的过度平滑问题。
预测与临床对齐是MSAT框架的最后阶段。链接预测通过中心校准推断模块完成,该模块融合了多层感知机(MLP)、双线性和DistMult三种评分函数,并显式地将节点度信息纳入,以校准中心效应。为了弥合计算输出与临床实践之间的鸿沟,研究实现了一个基于规则的本体对齐层,将MedDRA术语映射到脏腑功能系统。该映射基于MedDRA首选术语及其系统器官分类,通过专家共识定义了16个功能系统(如五脏、六腑、经络、气血津液等),使得预测的ADR风险能够以中医诊断术语直接表达,增强了结果的临床可操作性。
在实验设置上,研究采用了分层10折交叉验证,并在每个折叠中从图谱中移除测试集的正样本边以防止信息泄露。评估在平衡(1:1负采样)和不平衡(最高至1:10)场景下进行。MSAT在所有设置下均表现出色,尤其在部署导向的1:10端到端不平衡训练与测试中,其AUC和AUPRC仍保持高位(例如,AUC > 0.97),证明了其在真实世界稀疏数据下的鲁棒性。研究还进行了广泛的消融实验和基线对比(包括GCN、GAT、R-GCN、HGT、Simple-HGN、HetGNN以及逻辑回归、随机森林、XGBoost等),MSAT在各项指标上均显著优于基线方法。
总之,MSAT框架通过在一个异质图学习框架中统一FAERS药物警戒证据与多尺度生物医学机制,实现了对CMM相关ADR风险的稳健预测和优先排序。它不仅提供了一个高性能的计算模型,还通过将结果映射到中医功能系统,为复杂中药产品的上市后安全监测提供了可支持假设生成和风险分级的临床对齐工具。