
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于层次化注意力机制的多示例学习框架在单细胞RNA测序数据中预测患者表型的创新研究
【字体: 大 中 小 】 时间:2025年07月16日 来源:Bioinformatics 4.4
编辑推荐:
针对单细胞RNA测序(scRNA-seq)数据中细胞类型层次结构信息缺失的问题,研究人员开发了新型层次化注意力多示例学习(MIL)框架(CTA/HA模型),通过双重注意力机制整合细胞与细胞类型信息,在心血管疾病、COVID-19和免疫治疗响应预测中实现AUC达0.99的优异性能,为精准医疗提供可解释的生物标志物发现工具。
单细胞RNA测序(scRNA-seq)技术正在重塑精准医疗的格局,它能揭示单个细胞的基因表达特征,为疾病机制研究和临床诊断提供前所未有的分辨率。然而,当将这些高维数据用于患者表型预测时,研究者面临两大挑战:一方面,传统方法忽略了细胞自然存在的层次结构(如细胞类型分组);另一方面,现有多示例学习(MIL)模型仅关注单个细胞的重要性,难以捕捉细胞类型的整体贡献。这种局限性不仅影响预测准确性,更阻碍了生物标志物的可解释性发现。
针对这一技术瓶颈,芬兰阿尔托大学(Aalto University)的Chau Do和Harri Lahdesmaki团队在《Bioinformatics》发表创新研究,提出层次化注意力MIL框架。该研究通过设计细胞类型注意力(CTA)和层次化注意力(HA)两种模型,首次实现从细胞到细胞类型的双重信息聚合。实验证明,新方法在三大临床数据集(心血管疾病、COVID-19和免疫治疗响应)的平均AUC达0.99,较现有技术提升14%,同时能精确定位与疾病相关的关键细胞类型,如COVID-19中病毒易感的纤毛细胞和过度激活的免疫细胞。
研究采用三大关键技术:1) 基于scGPT预训练模型的512维细胞特征提取;2) 双重注意力机制(细胞级softmax归一化+细胞类型级加权);3) 置换检验驱动的关键细胞类型鉴定。通过10次重复嵌套交叉验证,在42例心血管疾病样本中实现99%的准确率,且仅需25%训练数据即可保持90%性能,展现出极强的临床适用性。
模型架构
通过双层神经网络将单细胞表达数据转换为低维表示,CTA模型采用均值池化聚合细胞特征,而HA模型引入细胞级注意力权重。关键创新在于细胞类型注意力层的设计,使最终预测可分解为细胞类型贡献度(如COVID-19中巨噬细胞贡献度κi=0.17),通过置换检验确定统计学显著性(P<0.05)。
实验结果
在心血管疾病分类任务中,HA模型AUC达0.99±0.02,显著优于基线模型ScRAT(0.85)和ProtoCell4P(0.91)。当50%细胞类型注释被随机替换时,模型性能仅下降7%,证明对标注噪声的鲁棒性。
生物学意义
模型成功识别出COVID-19关键细胞类型:纤毛细胞(κi=0.13)与病毒复制相关,浆细胞样树突细胞(pDCs)参与抗病毒应答,与已知病理机制高度吻合。在免疫治疗数据集,CD8+ T细胞贡献度与临床响应正相关,为生物标志物发现提供新思路。
这项研究开创性地将层次结构引入MIL框架,其技术价值体现在三方面:1) 通过γij=βiαij的数学分解,实现从单细胞到患者表型的可解释映射;2) 提出的重要性评分κi克服了传统Top-K筛选法的随机偏差;3) 开源代码支持扩展到其他细胞层级(如谱系关系)。未来结合Transformer注意力机制,有望进一步挖掘复杂疾病中的细胞互作网络,推动单细胞分析进入"可解释AI"新时代。
生物通微信公众号
知名企业招聘