基于互信息的可解释框架MINGLE:单细胞染色质可及性数据中自动细胞类型注释的新突破

【字体: 时间:2025年06月12日 来源:Genome Biology 10.1

编辑推荐:

  针对单细胞染色质可及性测序(scCAS)数据中细胞类型注释存在的稀有细胞识别困难、跨批次/组织/物种性能不稳定、新型细胞鉴定缺失等问题,南开大学团队开发了基于互信息的可解释框架MINGLE。该研究通过掩码平衡策略和对比学习-图卷积网络双轮标注整合,在6个scCAS数据集上验证其优越性能,并创新性提出凸包空间识别新型细胞方法。研究发表于《Genome Biology》,为单细胞表观组学分析提供了兼具准确性和可解释性的新工具。

  

在单细胞组学技术蓬勃发展的今天,科学家们已经能够以前所未有的分辨率解析细胞异质性。其中,单细胞染色质可及性测序(scCAS)技术通过捕捉染色质开放状态,为揭示表观遗传调控机制提供了重要窗口。然而,这项技术的潜力受到细胞类型注释难题的制约——传统聚类标注方法不仅费时费力,更难以应对数据稀疏性、批次效应以及日益增长的跨组织跨物种研究需求。现有方法在稀有细胞识别、新型细胞发现和结果可解释性等方面存在明显短板,严重制约了scCAS数据的生物学价值挖掘。

针对这些挑战,南开大学数学科学学院的研究团队开发了名为MINGLE的创新性框架。这项发表于《Genome Biology》的研究,通过整合互信息理论与深度学习技术,实现了scCAS数据中细胞类型注释的精度与可解释性双重突破。研究团队首先构建了包含11个scCAS数据集的系统性评测平台,涵盖人类和小鼠多个组织,验证了MINGLE在常规标注、新型细胞识别和跨场景应用中的卓越性能。

研究采用了几个关键技术路线:1) 基于掩码的类别平衡策略,通过随机遮蔽15%非零元素生成合成细胞解决数据不平衡问题;2) 对比学习与图卷积网络(GCN)的双轮标注架构,分别利用细胞相似性和拓扑结构进行协同预测;3) 凸包空间识别算法,通过构建已知细胞类型的多维凸包边界鉴定新型细胞;4) 互信息特征选择器,识别对分类贡献最大的细胞类型特异性峰。实验数据来源于GEO数据库收录的黑色素瘤、脾脏、胸腺等scCAS数据集,以及人类和小鼠脑组织样本。

在"MINGLE实现scCAS数据准确细胞类型注释"部分,五折交叉验证显示该方法在准确率(Acc)、宏F1值(Macro-F1)等指标上显著优于SANGO等基准方法。特别是在胸腺数据集(ThymusA)中,当抗原呈递细胞被设为新型细胞时,MINGLE的召回率高达0.95,而传统SVM拒绝方法仅为0.68。

"可解释性分析"章节揭示了MINGLE的生物学洞察力。通过LDSC分析发现,系统性红斑狼疮(Lupus)的遗传力在胸腺上皮细胞特异性峰中显著富集(富集倍数>3.5)。SNPsea分析显示这些峰在79个组织中特异性表达,GREAT分析则发现其与"应激反应中RNA聚合酶II调控"等通路相关。

在"跨场景应用"验证中,MINGLE展现出独特优势。跨批次实验中,在三个不同供体来源的胸腺数据集上平均宏F1值达0.89;跨物种实验中,尽管人类到小鼠脑组织的直接迁移效果有限(Acc=0.61),但仍显著优于其他方法。值得注意的是,该方法对数据不平衡(0.15-0.88不平衡度)和样本量变化(20-80%采样率)均表现出强鲁棒性。

研究讨论部分指出,MINGLE的创新性体现在三个方面:方法论上首次将互信息特征选择与图神经网络结合应用于scCAS数据;技术上开发了面向稀有细胞的掩码平衡策略;应用上实现了从标注到解释的完整分析链条。局限性在于尚未整合scRNA-seq先验知识,未来可通过多组学联用进一步提升性能。

这项研究的意义不仅在于提供了scCAS分析的新工具,更开创了表观遗传调控与免疫疾病关联研究的新范式。通过公开源代码和详细教程,MINGLE框架有望推动单细胞表观组学在疾病标志物发现、细胞发育轨迹重建等领域的广泛应用。特别值得关注的是,该方法鉴定出的细胞类型特异性峰,为解析自身免疫疾病和神经退行性疾病的表观遗传机制提供了全新线索。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号