基于自监督对比学习的起始密码子缺失变异致病性预测研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月09日 来源：BMC Biology 4.5

编辑推荐：

　　本研究针对起始密码子缺失变异(Start loss variants)致病性预测数据稀缺的挑战，开发了StartCLR模型。通过整合GPN-MSA和HyenaDNA双特征编码，结合自监督对比学习(CL)与监督微调策略，显著提升了预测精度（AUC达0.934）。该成果为解析疾病分子机制提供了新工具，发表于《BMC Biology》。

在人类基因组研究中，起始密码子缺失变异(Start loss variants)是一类能破坏蛋白质翻译起始的关键遗传变异，可导致蛋白质缺失或异常蛋白产生，与发育性癫痫脑病等疾病密切相关。然而现有数据库显示，数万个此类变异中仅约1%被明确分类，传统预测方法如CADD、CAPICE等因依赖有限标记数据而泛化能力不足。更棘手的是，当前特异性预测工具PoStaL等仅能处理特征完整的变异，面对海量未标记数据束手无策。

安徽大学的研究团队在《BMC Biology》发表的研究中，创新性地提出StartCLR框架。该研究通过双管齐下的策略破解数据困局：一方面整合GPN-MSA（捕捉跨物种保守性）和HyenaDNA（处理长序列上下文）的双重嵌入特征；另一方面采用自监督对比学习挖掘22,981例未标记变异的内在规律，再通过1,264对高置信度标记数据微调模型。结果显示，StartCLR在独立测试集上AUC达0.934，较现有工具提升显著。尤为关键的是，当仅使用990例高置信度数据时性能不降反升，证实了质量优于数量的数据使用哲学。

关键技术包括：1) 基于gnomAD和ClinVar构建包含25,173变异的大规模数据集；2) 采用Dropout数据增强策略（25%掩码率）优化对比学习；3) 设计双通道TextCNN融合GPN-MSA(128×768)和HyenaDNA(1003×128)特征；4) 通过NT-Xent损失函数优化SimCLR框架。

【Pre-training on unlabeled data boosts pathogenic variants prediction】

对比实验显示，仅用标记数据训练的模型(Random) AUC为0.82，而引入自监督预训练后(Zero-shot CL)提升至0.87。当结合微调(CL)时性能达峰值，证明无监督数据能有效提取生物信息特征。

【Performance evaluation of different data augmentation methods】

在Token cutoff、Feature cutoff和Dropout三种增强策略中，Dropout以AUC 0.893胜出，因其能平衡特征保留与噪声注入，避免过度丢失关键序列信息。

【Performance evaluation of different embedding features】

GPN-MSA单独使用AUC为0.902，优于HyenaDNA的0.876。但二者融合后达0.934，证实全局保守性与局部上下文特征的互补价值。

【The impact of labeled data with different label confidence】

使用990例高置信度数据时，模型在测试集2的SPE(特异性)从0.901升至0.956，揭示临床"Pathogenic"标签比"Likely pathogenic"更具训练价值。

【Performance evaluation of different variant pathogenicity prediction methods】

在457例共同可预测变异上，StartCLR以AUC 0.938超越CADD(0.873)等13种工具，且缺失率远低于依赖GRCh37的CAPICE等方法。

这项研究的重要意义在于：首次将自监督学习引入起始密码子变异预测，通过创新性特征融合架构破解了数据稀缺困境。其技术路线为其他罕见变异预测提供了范式参考，而模型在有限高质数据下的优异表现，更对临床基因组注释策略具有启示价值。未来通过扩展至indel变异和优化标签质量，有望进一步推动精准医疗中的基因组解读。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号