
-
生物通官微
陪你抓住生命科技
跳动的脉搏
KansformerEPI:整合KAN与Transformer的深度学习框架实现跨细胞类型的增强子-启动子互作全局预测
【字体: 大 中 小 】 时间:2025年06月16日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对增强子-启动子互作(EPI)预测中存在的细胞类型局限性及非线性特征整合不足等关键问题,开发了创新性深度学习框架KansformerEPI。该模型通过融合Kolmogorov-Arnold网络(KAN)与Transformer架构,有效捕获表观遗传与序列特征间的非线性关系,在HMEC等四种细胞系测试中AUROC最高提升8%,显著优于TransEPI等现有方法。其突破性在于首次实现跨组织EPI全局预测,为解析基因调控网络提供新工具。
在基因调控的复杂交响乐中,增强子与启动子的"远程对话"始终是生物学界最神秘的乐章之一。尽管科学家们已认识到增强子-启动子互作(EPI)对基因表达的精确调控至关重要,但传统实验方法如Hi-C和ChIA-PET不仅耗时耗力,更难以揭示不同细胞类型中EPI的动态变化规律。更令人困扰的是,现有计算模型往往局限于单一细胞系,且采用的多层感知机(MLP)结构无法充分捕捉特征间的非线性关联,这就像试图用二维地图导航三维城市——必然丢失关键信息。
东北林业大学的研究团队在《Briefings in Bioinformatics》发表的突破性研究,带来了名为KansformerEPI的解决方案。这项研究创造性地将新兴的Kolmogorov-Arnold网络(KAN)与Transformer架构融合,构建出能同时解析序列特征与八种表观遗传信号(包括CTCF结合位点、DNase-I信号及五种组蛋白修饰)的深度学习框架。通过整合GM12878和HeLa-S3两种细胞系数据进行训练,模型在HMEC等四种独立测试细胞系中展现出卓越的跨组织预测能力,AUROC最高提升达8%,揭示了多增强子协同调控单启动子(MI)的普遍规律。
关键技术方法包括:1) 从2.5 Mbp基因组区域提取500bp分辨率特征;2) 采用CNN-BiLSTM-Kansformer三级架构处理特征;3) 引入自注意力嵌入进行低维表征;4) 联合优化二元交叉熵与均方误差损失函数;5) 使用GM12878/HeLa-S3混合数据集进行五折交叉验证。
特征重要性分析
通过随机森林模型发现,在GM12878细胞系中DNase-I信号贡献度最高(0.32),而CTCF结合位点最低(0.11)。热图分析揭示H3K4me1在增强子窗口、H3K9me3在启动子窗口分别呈现最显著特征权重,印证了组蛋白修饰的空间特异性调控规律。
甲基化影响评估
引入DNA甲基化特征后,模型在IMR90细胞系的AUPR提升1.67%,但在K562细胞系反而下降1%,表明甲基化对EPI预测的影响具有细胞类型特异性,这一发现为表观遗传调控研究提供了新视角。
调控模式分类
统计四类EPI网络拓扑结构发现,多输入组件(MI)占比最高(HMEC达88%),且其预测置信度显著高于其他模式(p<0.01)。这种"众星拱月"式的调控模式可能源于人类基因组中增强子数量远超启动子的生物学特性。
DKK1基因案例验证
在乳腺癌相关DKK1基因的EPI预测中,模型对四个实验验证的增强子(EH37E0171937等)预测概率均>0.92,远超TransEPI的0.38-0.45。这些MI型互作的精准识别,为解析肿瘤抑制因子异常表达提供了增强子层面的解释。
这项研究的里程碑意义在于三方面突破:首先,KAN层的引入使模型能精确拟合特征间非线性关系,较传统MLP更符合基因调控的生物学本质;其次,首创的跨细胞系预测框架打破"一细胞系一模型"的局限;最后,发现MI为优势调控模式,为复杂疾病研究提供新靶点。尽管Transformer的内存消耗和KAN的训练效率仍有优化空间,但KansformerEPI无疑为三维基因组学研究装上了"非线性望远镜",让科学家得以窥见基因调控网络中更深邃的风景。
生物通微信公众号
知名企业招聘