DNALONGBENCH:面向长程DNA预测任务的基准测试套件及其在基因组学深度模型评估中的应用
《Nature Communications》:DNALONGBENCH: a benchmark suite for long-range DNA prediction tasks
【字体:
大
中
小
】
时间:2025年11月19日
来源:Nature Communications 15.7
编辑推荐:
为解决长程DNA依赖性建模的评估标准缺失问题,研究人员开发了DNALONGBENCH基准套件,涵盖增强子-靶基因互作、eQTL、3D基因组构等五大任务,序列长度高达1M bp。评估发现专家模型在捕获长程依赖上全面优于DNA基础模型,揭示了当前基础模型在碱基对分辨率回归任务中的局限性。该工作为系统评估DNA序列深度学习模型提供了标准化资源。
在基因组学的广阔图景中,DNA序列如同生命的密码本,不仅编码蛋白质的合成指令,更蕴藏着复杂的调控逻辑。然而,这些调控元件——增强子、启动子、绝缘子等——往往散布在非编码区域,且其功能实现依赖于跨越数十万甚至数百万碱基对的长程相互作用。理解这些如同“远程对话”般的基因组元件互作机制,对于揭示基因表达调控、细胞分化和疾病发生机理具有根本性意义。尽管ENCODE等大型计划已绘制了大量潜在调控元件的图谱,但解析这些元件如何通过三维空间折叠实现精准基因调控,仍面临巨大挑战。
近年来,深度学习技术为基因组学注入了新的活力。从早期卷积神经网络(CNN)在转录因子结合位点预测中的成功,到Enformer等模型在整合长程相互作用预测基因表达方面的突破,计算生物学家们一直在探索如何让机器更好地“阅读”基因组。特别是受自然语言处理领域大语言模型(LLM)成功的启发,一系列DNA基础模型(DNA foundation models)应运而生。这些模型通过自监督学习从海量基因组序列中捕获潜在模式,然后通过微调适应特定下游任务。它们将DNA序列视为由A、T、C、G四种“字母”构成的“语言”,试图理解其语法规则。
然而,一个关键问题悬而未决:这些DNA基础模型是否真能理解基因组中跨越长距离的“对话”?现有评估多集中于数千碱基对范围内的短程任务,如调控元件识别,而对增强子-靶基因互作、染色质三维折叠等真正需要建模长程依赖的任务却缺乏系统评估。BEND和LRB是此前仅有的两个涉及长程任务的基准,但它们在任务多样性上存在明显局限——均未包含染色质接触图谱预测等二维任务,也缺少碱基对分辨率的回归任务。这种评估体系的缺失,严重阻碍了DNA基础模型在理解长程基因组互作方面的发展。
为此,卡内基梅隆大学的研究团队在《Nature Communications》上发表了DNALONGBENCH基准套件,这是迄今为止最全面的长程DNA预测任务集合。研究团队确立了四大任务筛选标准:生物学显著性、长程依赖性(需建模数百kb以上上下文)、任务难度和多样性。最终选定的五大任务如同五把不同的“尺子”,从多个角度衡量模型理解长程基因组互作的能力:增强子-靶基因预测(ETGP)任务评估模型识别功能性增强子-启动子互作的能力;表达数量性状位点(eQTL)预测任务关注序列变异如何影响远端基因表达;三维基因组组织任务通过染色质接触图谱预测(CMP)检验模型捕捉空间邻近性的能力;调控序列活性预测(RSAP)任务要求模型从序列直接预测表观遗传信号;转录起始信号预测(TISP)任务则挑战模型在碱基对分辨率上预测启动子活性。
研究团队设计了严谨的评估框架,比较了三类代表性模型:轻量级CNN、针对特定任务优化的专家模型(如ABC模型、Enformer、Akita、Puffin-D)以及三种长程DNA基础模型(HyenaDNA、Caduceus-Ph、Caduceus-PS)。这些模型在五大任务上经历了全面测试,评估指标包括AUROC(受试者工作特征曲线下面积)、AUPRC(精确召回曲线下面积)、PCC(皮尔逊相关系数)和SCC(层调整相关系数)等。
主要技术方法包括:基于CRISPRi筛选的增强子-靶基因互作验证数据整合;多细胞系Hi-C/ Micro-C+数据的统一处理流程;Enformer框架的调控序列活性多任务回归预测;统计精细定位(SuSiE)支持的eQTL数据集构建;五类CAGE/RAMPAGE/GRO-cap/PRO-cap技术的转录起始信号基准生成。
评估结果呈现出清晰的层次结构:专家模型在所有五个任务中均取得最高分数。在增强子-靶基因预测任务中,ABC模型获得AUROC 0.926的优异表现,显著优于最佳DNA基础模型(Caduceus-Ph的0.826)。在更具挑战性的接触图谱预测任务中,Akita模型在五种细胞系中的平均SCC达到0.230,而DNA基础模型的最佳成绩仅为0.133(Caduceus-Ph)。
特别值得关注的是,专家模型在回归任务中的优势更为明显。在转录起始信号预测任务中,专家模型Puffin-D平均PCC高达0.733,而DNA基础模型的最佳表现仅为0.132(HyenaDNA)。这种差距可能源于多通道回归任务的复杂性,以及基础模型在捕捉稀疏实值信号方面的不足。
通过输入长度消融实验,研究证实了长上下文对性能提升的关键作用。以接触图谱预测为例,当Caduceus-Ph的输入长度从204,800bp逐步增加至409,600bp时,预测性能相应提升。类似趋势在其他任务中同样出现,表明模型确实受益于更长的序列上下文,这为长程依赖建模的必要性提供了实证支持。
可视化分析为理解模型表现提供了直观证据。在接触图谱预测任务中,Akita能够准确预测跨越300kb的大尺度结构域和长程相互作用,而DNA基础模型仅能捕捉基本模式,在复杂结构预测上表现有限。
在碱基对分辨率任务上,专家模型Puffin-D能够精确捕捉转录起始信号的峰值分布,而DNA基础模型则倾向于预测过于平滑的信号,缺乏尖锐峰值。在染色体8的细粒度分析中,Puffin-D在基因ZC2HCIA转录起始位点(TSS)附近展现了出色的定位能力,而基础模型预测信号则明显弥散。
DNALONGBENCH的建立标志着长程DNA预测任务评估进入了系统化、标准化新阶段。研究结果表明,当前DNA基础模型在捕获长程依赖性方面虽展现一定潜力,但仍无法与专门设计的专家模型媲美。这种差距既源于模型架构差异,也可能与参数规模、训练策略等因素相关。值得注意的是,专家模型多为“一事一议”的专门化设计,而DNA基础模型追求“一通百通”的通用性,这种目标差异决定了简单微调可能不足以发挥基础模型的全部潜力。
该研究的局限性在于未包含Transformer类DNA基础模型(如DNABERT、Nucleotide Transformer),这主要受其自注意力机制二次计算复杂度的制约。如何扩展此类模型的上下文长度,是未来值得探索的方向。
作为当前最全面的长程DNA预测基准,DNALONGBENCH为评估新兴DNA序列深度学习模型提供了标准化平台。它不仅揭示了当前模型的局限性,更为未来发展方向提供了路线图——通过新型架构设计、先进微调策略和任务特定训练目标,进一步提升DNA基础模型在理解基因组长程“对话”方面的能力。这一资源将加速计算生物学领域对基因组三维结构与功能关系的解密进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号