编辑推荐:
在精准医学中,现有图神经网络方法整合多组学数据时易忽视疾病亚型差异。为此,研究人员提出多模态层次注意力(MMHA)算法,利用自适应加权聚合多模态特征。实验在 6 个数据集上表现优于 SOTA,如 LGG 数据集精度提升 4.5%,为精准医疗提供新工具。
在生命科学与医学领域,解开疾病复杂的分子机制如同拼装一幅庞大而精密的拼图。单一模态的数据往往只能展现局部画面,而多组学数据(如基因组、蛋白质组等)的整合则能勾勒出更完整的疾病图谱。然而,现有的多模态数据融合方法大多依赖图神经网络(GNNs)来构建患者相似性图并传播信息。这类方法虽能捕捉个体间的普遍关联,却常常忽视疾病亚型间的关键差异 —— 如同用一张模糊的全景图掩盖了不同区域的独特细节。此外,基于图结构的模型还面临着过度平滑、特征空间扭曲等问题,导致亚型分类精度受限。如何在复杂的多源数据中既捕捉模态间的互补信息,又精准识别亚型差异,成为精准医学领域亟待突破的难题。
为攻克这一挑战,国内研究团队开展了一项针对多模态数据融合的创新性研究。研究人员提出了一种名为多模态层次注意力(Multi-Modal Hierarchical Attention,MMHA)的端到端可解释算法,旨在提升癌症亚型预测及疾病诊断的准确性。该研究成果发表在《Expert Systems with Applications》,为多组学数据的深度挖掘提供了新范式。
研究采用的核心技术方法包括层次注意力机制与分类加权处理函数。层次注意力机制通过自适应加权策略,实现对不同模态(如基因表达、临床数据等)特征的动态聚合,无需预设图结构即可揭示模态间的依赖关系与互补性。分类加权处理则针对疾病的长尾分布特性,通过引入类权重约束优化过程,增强模型对少数亚型的判别能力。研究使用了六个公开数据集(涵盖癌症与神经退行性疾病亚型),包括 LGG、KIPAN 等,在数据预处理阶段对各组学数据进行了特征选择以降低噪声干扰。
研究结果
多模态信息融合性能验证
实验结果表明,MMHA 在五种疾病的六个数据集上均显著优于传统方法。例如,在低级别胶质瘤(LGG)数据集上,MMHA 将分类准确率提升了 4.5%;在 KIPAN 数据集(涉及癌症与免疫治疗响应预测)中,其准确率高达 99.09%,近乎实现完美分类。这一结果证实了层次注意力机制在捕捉模态间互补信息方面的有效性。
生物标志物识别能力
通过注意力权重可视化,模型成功定位了与特定亚型关联的关键特征。例如,在乳腺癌亚型预测中,MMHA 识别出若干与 HER2 状态相关的基因表达特征,这些生物标志物不仅为亚型分类提供了可解释依据,还为个性化治疗方案的制定提供了潜在靶点。
模型泛化性与鲁棒性分析
在跨模态数据场景(如同时整合影像与分子数据)中,MMHA 的表现始终优于基于图神经网络的对比方法,且未出现过度平滑现象。这表明其轻量化架构在处理异质数据时具有更强的适应性,避免了传统 GNNs 因图结构构建依赖潜在特征而导致的信息失真问题。
研究结论与意义
MMHA 通过摒弃传统图结构,转而采用层次注意力机制,开创了多模态数据融合的新路径。其核心贡献体现在三个方面:首先,提出了适用于非固定模态场景的多模态层次注意力框架,有效解决了数据异质性与亚型差异忽视的问题;其次,通过分类加权优化,提升了模型在长尾分布数据中的泛化能力;最后,注意力机制的可解释性为临床决策提供了直观的生物学依据,推动了 AI 在精准医学中从 “黑箱” 到 “白箱” 的跨越。
该研究不仅在方法学上为多组学整合提供了更高效的工具,其揭示的模态间信息互补性与排他性规律,还为理解疾病异质性提供了新视角。未来,MMHA 有望进一步应用于罕见病亚型诊断、治疗响应预测等领域,加速 AI 驱动的个性化医疗落地。正如研究所示,这种融合了计算智能与生物学可解释性的方法,正成为连接数据科学与临床医学的桥梁,为破译疾病密码、实现精准医疗蓝图奠定坚实基础。