scKAN:基于可解释Kolmogorov-Arnold网络的单细胞分析新方法实现细胞类型特异性基因发现与药物重定位

【字体: 时间:2025年09月26日 来源:Genome Biology 9.4

编辑推荐:

  本研究针对单细胞RNA测序(scRNA-seq)分析中效率低、可解释性差以及与治疗应用脱节等挑战,开发了scKAN框架。该框架通过Kolmogorov-Arnold网络(KAN)的可学习激活曲线直接建模基因-细胞关系,在细胞类型注释方面比最先进方法宏F1分数提升6.63%,并能系统识别功能一致的细胞类型特异性基因集。在胰腺导管腺癌(PDAC)案例研究中,成功发现潜在药物重定位候选物,并通过分子动力学模拟验证结合稳定性,为单细胞分析向药物发现转化提供了高效可解释的新方法。

  

在当今生命科学研究领域,单细胞技术的革命性进展让我们能够以前所未有的分辨率洞察细胞异质性,从而深入理解生物过程和人类疾病。然而,面对海量的单细胞RNA测序(scRNA-seq)数据,研究人员仍然面临着诸多挑战:当前的分析方法在效率、可解释性以及将分子洞察与治疗应用连接方面存在明显不足。尽管深度学习方法取得了显著进展,但识别细胞类型特异性功能基因集仍然十分困难,这限制了我们从单细胞数据中提取真正有生物学意义信息的能力。

传统方法如Seurat虽然广泛应用,但需要大量预处理步骤和手动标记基因选择,限制了其可扩展性和自动化程度。机器学习方法如CellTypist和深度学习方案如ACTINN虽然推动了领域发展,但最近基于transformer的大语言模型(LLM)如TOSICA、scBERT、LangCell、Geneformer和scGPT等在单细胞分析中展现出巨大潜力,这些模型通常需要大量计算资源进行训练,需要频繁针对新数据集进行微调,且难以提供基因功能和相互作用的细胞类型特异性可解释性。

正是在这样的研究背景下,He等人在《Genome Biology》上发表了他们的最新研究成果,提出了scKAN这一创新框架。研究人员开展了一项关于可解释单细胞分析的主题研究,旨在解决当前单细胞分析中的关键挑战。他们开发了一个结合知识蒸馏与Kolmogorov-Arnold网络(KAN)的架构,通过使用可学习激活曲线来建模基因与细胞之间的关系,为单细胞RNA测序数据分析提供了新的解决方案。

为了开展这项研究,研究人员主要采用了几个关键技术方法:首先使用了基于transformer架构的预训练大语言模型(scGPT)作为教师模型,该模型已在超过3300万个单细胞数据上进行预训练;其次设计了知识蒸馏框架,将教师模型的知识转移到轻量级学生模型(scKAN)中;第三采用了Kolmogorov-Arnold网络架构,使用B样条函数参数化的可学习激活函数替代传统神经网络中的权重参数;第四整合了多种损失函数,包括知识蒸馏损失、自熵损失和基于柯西-施瓦茨散度的深度发散聚类(DDC)损失;最后使用来自多个公开数据库的单细胞数据集(PBMC、Muto2021、hPancreas和Mye数据集)进行模型训练和验证,所有数据处理均遵循严格的训练集-测试集分离协议以防止信息泄露。

scKAN框架概述

研究团队开发的scKAN框架具有两个主要目标:准确的细胞类型注释和细胞类型特异性标记基因及基因集的发现。其核心创新在于使用Kolmogorov-Arnold网络的可学习激活曲线来建模基因与细胞关系,与典型的注意力机制的聚合加权方案相比,这种方法为可视化和解释这些特异性相互作用提供了更直接的途径。

消融研究验证scKAN基本组件

通过系统的消融研究,研究人员验证了scKAN中每个组件的贡献。创建了三个模型变体:"W/o Teacher"移除教师模型以评估知识蒸馏的影响,"W/o Cluster"消除聚类损失以评估维持细胞类型特异性特征表示的重要性,"Replaced by MLP"用MLP架构替换KAN模块以检验基于KAN设计的优势。结果表明每个组件都在scKAN的整体性能和功能中发挥着关键作用。

scKAN在细胞类型注释中实现卓越性能

与多种基线模型比较显示,scKAN在所有数据集和指标上始终优于所有基线方法,包括单细胞基础模型如scGPT、Geneformer和TOSICA。平均而言,scKAN在所有数据集上的准确率提高了1.06%,宏F1分数比第二好的模型提高了6.63%。这些一致的改进证明了scKAN是细胞类型注释任务中可靠有效的工具。

scKAN在跨研究和跨疾病环境中保持稳健性能

为了评估scKAN在更现实条件下的性能,研究人员在hPancreas数据集上进行了跨研究实验,将数据集分为来自完全独立研究的非重叠参考集和查询集。在这种跨研究设置中,scKAN达到了97.42%的准确率和0.734的宏F1分数,分别比第二好的模型Tosica和scGPT提高了1.01%和2.03%。在更具挑战性的跨疾病设置中,scKAN也保持了其优势。

scKAN增强细胞类型特异性基因集和通路发现

在验证模型的细胞注释能力后,研究团队调查了其识别生物学有意义基因集的能力。scKAN通过从单细胞LLM中提取知识来学习不同细胞类型的基因特征,将细胞类型水平的基因表达模式隐式编码在基因-细胞激活曲线中,从而实现基因集识别。通过基因程序聚类可视化显示,scKAN捕获了跨细胞类型的多样化表达模式。

scKAN发现可靠的细胞类型特异性标记基因

识别细胞类型特异性标记基因对于理解细胞身份和功能至关重要。基于其解释基因-细胞关系的能力,scKAN还通过其重要性分数为标记基因发现提供了新方法。通过系统的计算和生物学验证,研究表明scKAN能够识别强差异表达和微妙调控的标记基因,为单细胞分析中的标记基因发现提供了稳健且可解释的方法。

scKAN实现PDAC治疗的系统性药物重定位

胰腺导管腺癌(PDAC)仍然是最致命的恶性肿瘤之一,5年生存率低于8.5%。尽管有广泛的研究努力,治疗选择仍然有限,突出了对新药开发方法的迫切需求。这种紧迫的临床需求促使研究团队通过系统性药物重定位研究探索scKAN在可解释药物发现中的潜力。通过综合的工作流程,研究发现并验证了潜在的治疗靶点和候选药物。

scKAN鉴定的药物候选物与潜在靶标显示稳定结合

在分子对接分析后,研究团队通过分子动力学(MD)模拟扩展了研究,以评估预测的Doconexent-靶标复合物的结合持久性和稳定性。这些模拟旨在评估在生理条件下关键蛋白质-配体相互作用的维持情况,为从分子对接识别的结合模式的稳定性提供见解。100纳秒的全原子MD模拟显示,Doconexent在所有五个复合物中在整个模拟过程中保持了其在初始结合口袋内的位置,表明稳定有效的蛋白质-配体相互作用。

本研究建立的scKAN作为一个高效可解释的框架,有效地桥接了单细胞分析与药物发现。通过将轻量级架构与发现细微生物模式的能力相结合,该方法为将大规模单细胞数据转化为可操作的治疗策略提供了可解释的方法。成功应用于PDAC研究展示了其在转化研究中的实用价值,通过识别导管细胞特异性标记并导向有前景的候选药物Doconexent,说明了模型可解释性的切实成果。尽管当前工作流程尚未完全集成并依赖外部最先进方法进行药物-靶标亲和力预测,但它验证了像scKAN这样的可解释模型将抽象的单细胞洞察转化为临床相关和可测试假设的独特潜力,为未来更全面的研究奠定了基础。

从方法论角度来看,scKAN通过引入平衡计算效率与生物学可解释性的框架推进了单细胞分析。这种效率体现在GPU内存使用减少15.8倍和训练速度比教师模型scGPT快5.4倍,同时保持稳健性能。知识蒸馏与可解释架构的整合为计算生物学的未来发展提供了模板,可能扩展到单细胞分析之外的其他高维生物数据类型。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号