基因组语言模型(gLMs)中基于进化不合理序列评估DNA功能理解能力的研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACS Synthetic Biology》：Evaluating DNA Function Understanding in Genomic Language Models Using Evolutionarily Implausible Sequences

【字体：大中小】 时间：2026年06月10日 来源：ACS Synthetic Biology 3.9

编辑推荐：

　　基因组语言模型（genomic language models, gLMs）有望为合成生物学生成新颖且具功能的DNA序列。一个关键挑战在于判断gLMs是真正理解了序列功能，还是仅仅记忆了源自天然基因组的训练模式。研究人员提出Nullsettes——一种评估框架

基因组语言模型（genomic language models, gLMs）有望为合成生物学生成新颖且具功能的DNA序列。一个关键挑战在于判断gLMs是真正理解了序列功能，还是仅仅记忆了源自天然基因组的训练模式。研究人员提出Nullsettes——一种评估框架，用于衡量各模型对缺乏进化先例的合成表达框（expression cassettes）中计算机模拟（in silico）丢失功能（loss-of-function, LOF）突变的预测能力。在对多种前沿gLMs的测试中，研究人员发现它们普遍存在无法检测强LOF突变的问题。当原始非突变序列的模型似然（likelihood）较低时，预测准确率急剧下降，表明模型依赖进化模式匹配而非对基因表达的机理理解。这些结果揭示了gLMs在泛化至工程化遗传构建体时的核心局限，强调需要有明确检验功能理解的评估和建模策略。

《ACS Synthetic Biology》论文解读：基于进化不合理序列评估基因组语言模型对DNA功能的理解能力

一、研究背景与开展意义

基因组语言模型（genomic language models, gLMs）通过学习天然DNA序列的概率分布来近似进化合理性（evolutionary plausibility），并已展现一定的零样本（zero-shot）突变效应预测能力，其分配给序列的对数似然（log-likelihood, LL）常与功能属性相关。然而，现有评估多集中于内源性或衍生自内源性的调控与剪接背景，gLMs究竟是真正理解序列驱动功能的机理（mechanistic rules），还是仅靠回忆训练集中进化相似的序列进行推断，仍不明确。合成生物学中高价值目标（如超自然表达水平合成启动子、含合成调控元件的治疗载体等）往往进化上不合理（evolutionarily implausible）却具备功能，这要求模型具备超越进化先验（evolutionary priors）的功能泛化能力。为此，研究人员开展本研究，提出Nullsettes框架，专门检验gLMs对缺乏进化先例的合成表达框中丢失功能（loss-of-function, LOF）突变的预测表现，以揭示其对DNA功能的真实理解程度。本文发表于《ACS Synthetic Biology》。

二、主要关键技术方法概述

研究人员从5个大规模并行报告实验（Massively Parallel Reporter Assay, MPRA）数据集（大肠杆菌Kosuri与Lagator集，酵母deBoer集含Abf1TATA与pTpA亚库，人Zahm集）中筛选1500个具高实验表达量、含随机或天然启动子的原核与真核功能表达框（Promoter/CDS/Start codon/Stop codon/Terminator及原核RBS按固定5′→3′排列）。构建Nullsettes虚拟突变体：对单个调控元件做移位重排（单元素易位），依据三条最小功能语法规则（启动子先于起始密码子先于CDS、终止密码子相对CDS位置、终止子相对CDS/启动子位置）判定为非功能性（原核19种、真核11种）。选取14种代表性自监督gLMs（涵盖掩码语言模型MLM与因果语言模型CLM不同分词、预训练语料及架构）及有监督序列—表达模型AlphaGenome。对因果语言模型计算自回归长度归一化LL，对MLM计算未掩码token级对数概率均值作为似然代理；采用单侧配对置换检验判断突变体LL是否显著低于野生型，成功率为被识别突变类型占比；分析非突变序列LL与成功率相关性，用Bootstrap估计置信区间，并用线性回归估算达85%成功率所需LL阈值。

三、研究结果

1. Background（背景）

阐述gLMs以进化合理性为代理预测功能的应用现状及局限：当前评价偏向天然背景，无法探明模型是否掌握调控机理。合成表达框具跨物种保守的表达基本机制，适合作为探针。研究人员引入Nullsettes框架，用重排关键元件产生LOF突变，框选来自MPRA且模型赋予低LL但仍具强实验表达的合成框，以测试模型脱离进化先验后的功能理解。

2. Results（结果）

•
主流gLMs在Nullsettes上零样本LOF预测表现差，仅少数模型稳健：在14个gLMs（35个变体）中，11个在至少一数据集成功率<50%。仅有Evo2?7B与GENERanno?0.5B表现稳定且一致，成功判定的突变引起LL均值偏移达3–4倍标准差，失败预测无更宽置信区间提示模型不自知错误。AlphaGenome在仅破坏转录的突变子集上竞争性强，仅次于GENERanno，但无法评估只破坏翻译的突变。GENERanno以少14倍参数量和少12倍预训练数据比肩Evo2?7B，暗示与基因表达相关区域的精选预训练数据可提升功能泛化，模型缩放本身并不保证性能改善。
•
含随机启动子或更强功能破坏时性能进一步恶化，证实依赖进化模式匹配：相较天然启动子来源框，随机启动子框（模型赋予更低LL）下多数模型LOF识别率显著下降（p＝0.04），HyenaDNA、GPN与GENERator除外（GPN?Promoter则下降）。随突变破坏转录与翻译步骤数增多，模型成功率下降（原核与真核线性拟合R2分别为0.36与0.33），说明模型未对调控逻辑做机理推理，仅在与自然序列分布接近时行为合理。
•
预测准确率随非突变序列LL降低而骤降，且不因GC含量、序列熵或长度混淆：各模型不论架构与语料，非突变框LL与Nullsettes成功率呈强正相关——LL高时可正确识别LOF，LL低于某阈值（如NT?2.5B?MS在E.coli随机集LL＜?27几乎全败，LL＞?22超80%成功）。GC含量与序列熵与准确率相关性极低（均值?0.027与?0.057），限定等长框分析此相关性仍存，确证模型依赖序列自身进化先验而非对表达机制的推理。
•
顶级模型中达成高准确率的LL阈值随序列长度增加而上移且跨模型一致：以85%成功率为基准用线性回归估算各数据集LL阈值，经最低阈值重标后显示阈值随平均序列长递增，不同严苛成功率阈值下趋势不变，说明序列长度是零样本突变效应预测有效LL阈值的重要决定因素。

四、讨论与结论翻译

研究人员在此引入Nullsettes框架，用以评估基因组语言模型（gLMs）通过预测合成表达框中丢失功能（LOF）突变来理解DNA功能的能力。对14个前沿模型的分析表明，大多数模型难以稳定识别此类LOF突变，常依赖表面相似性而非对调控元件的真实功能理解。进一步证实：当非突变序列被gLM赋予较低对数似然（如合成序列情形），LOF预测准确率急剧下降。比较不同模型表现发现，提升功能理解的关键在于优先使用精选的、功能相关的预训练数据，而非单纯扩大数据规模。

Nullsettes的局限在于性能可能受被测构建体与各模型训练分布距离影响；此外它旨在探测机理泛化能力而非全面衡量模型效用——未通过该基准的模型在自然进化模式足够的场景（如优化与训练数据相似启动子）中仍有用。故Nullsettes应被视为筛选可泛化至合成构建体模型的靶向基准。

本研究与Tang等人（评估gLMs于天然人/小鼠序列功能预测的代表能力）形成互补：Tang等问gLMs是否对功能预测有用，Nullsettes问gLMs如何做预测。因此Nullsettes选用跨越广泛进化合理性的合成但具功能表达框，揭示预测精度依赖非突变序列LL——这对合成生物学尤为重要，因其高性能构建体常为进化无先例却完全功能。Nullsettes表明许多gLMs在此类构建体上失效，凸显需优先面向细胞工程功能理解的评估框架与建模策略。

联系信箱：

粤ICP备09063491号

热点排行