
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer模型的癌症与非癌症基因组突变精准分类研究
【字体: 大 中 小 】 时间:2025年05月28日 来源:Gene 2.6
编辑推荐:
本研究针对癌症基因组突变检测中传统方法精度不足、数据不平衡等挑战,创新性采用DNABERT-2和Nucleotide Transformer模型,结合WGAN-GP生成合成数据,构建了涵盖SNVs、Indels和Duplications的突变分类框架。实验表明,该模型在F1值、召回率等指标上显著优于现有技术,为个性化治疗提供了更精准的遗传分析工具。
研究背景与意义
癌症作为基因组疾病,其发生发展与DNA序列突变密切相关。单核苷酸变异(SNVs)、插入缺失(Indels)和重复序列(Duplications)等突变类型,通过改变基因功能驱动肿瘤异质性。尽管高通量测序技术已极大扩展了基因组数据规模,但传统分析方法如序列比对和进化分析难以应对复杂癌症基因组的解析需求。尤其对于长读长测序数据或低覆盖度样本,现有工具(如DeepVariant和DeepSV)的准确性显著下降。更关键的是,临床可用的突变数据集多基于文本证据(如文献注释),缺乏针对序列分析的标准化资源,且存在罕见突变样本不足的瓶颈。
研究设计与方法
为突破上述限制,研究人员开发了基于Transformer的突变分类框架,整合DNABERT-2(采用Byte Pair编码和ALiBi注意力机制)与Nucleotide Transformer(训练于3200个人类基因组)两大预训练模型。通过构建包含真实基因组和WGAN-GP生成合成数据的三类数据集,解决了数据不平衡问题。实验采用31碱基长度的子序列(k-mer)作为分析单元,在NVIDIA A100 GPU上评估模型性能,指标涵盖F1值、召回率等。
研究结果
结论与展望
该研究首次系统验证了Transformer模型在泛癌种突变分类中的优越性,其突破性体现在三方面:
(注:全文依据原文实验数据归纳,未添加非文献支持内容)
生物通微信公众号
知名企业招聘