STRAND:一种面向范围自适应核苷酸解码的基础性序列Transformer模型及其在类风湿关节炎和炎症性肠病基因组分析中的突破性应用

《Briefings in Bioinformatics》:Introducing a foundational sequence transformer for range adaptive nucleotide decoding (STRAND)

【字体: 时间:2025年11月25日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对高通量测序时代基因组数据激增带来的解析效率与准确性挑战,开发了新型外显子组基础模型STRAND。该模型结合人类参考基因组与多物种数据,采用短程Transformer架构,在Tapestry研究的外显子序列上进行训练。结果表明,STRAND在核苷酸预测准确度(较NT提升8.2%)及致病性变异识别方面显著优于现有模型,为基因组导向的精准医疗提供了创新工具。

  
随着下一代测序(NGS)技术的飞速发展,基因组数据的积累呈指数级增长,如何高效、精准地解析这些海量信息已成为生物信息学领域的核心挑战。传统分析方法在处理基因组结构复杂性、变异识别可靠性及临床转化应用方面存在明显局限,尤其对于类风湿关节炎(RA)和炎症性肠病(IBD)等具有高度遗传异质性的慢性疾病,缺乏能够整合多维度基因组特征并实现个体化预测的强有力工具。
为突破这一瓶颈,来自梅奥诊所和Cerebras Systems的研究团队在《Briefings in Bioinformatics》上发表了题为“Introducing a foundational sequence transformer for range adaptive nucleotide decoding (STRAND)”的研究论文。该研究开发了一种新型外显子组基础模型STRAND,通过整合人类参考基因组(HRG)与多物种基因组数据,结合创新的Transformer架构,实现了对基因组序列的深度理解与高效解码。
研究的关键技术方法包括:基于BAM和FASTQ文件的数据预处理流程,从Tapestry研究队列(含499名参与者)中提取外显子序列;采用连续打包策略将短读长序列整合为固定长度上下文窗口;设计动态损失加权机制以平衡变异位点的低频率与高语义重要性;选用GPT风格的自回归注意力机制优化模型 scalability;并通过多任务基准测试(包括NT基准任务和ClinVar衍生数据集)系统评估模型性能。
STRAND设计思路与性能分析
针对基因组数据的信息组织冗余性、信号噪声比低等挑战,研究团队通过系列消融实验确定了最优技术方案。在序列打包策略比较中,连续打包法意外优于随机打包、重叠打包等复杂方案,表明局部基因组上下文的保持比位置多样性最大化更为关键。
数据过滤实验实现8倍读长压缩的同时维持了模型精度,而动态损失加权技术有效缓解了参考基因组性能衰减问题(HRG数据集准确度从0.5604提升至0.5889)。注意力机制对比显示,GPT风格因果注意力在核苷酸预测任务中显著优于BERT风格掩码语言模型(准确度58.75% vs 43.41%)。
模型性能评估
在基因组结构理解任务中,STRAND(10亿参数)在剪接位点识别、调控元件预测和染色质开放区域检测等18项NT基准任务中全面超越现有模型,平均准确度达0.880,较原始NT提升8.2%,较NT-v2提升7%。尤其在调控元件和染色质预测任务中分别领先21.91%和26.10%。
在临床变异解析方面,基于ClinVar构建的5项新基准测试(如心血管表型、遗传性癌症易感综合征等)中,STRAND在4项任务中达到最优水平(平均MCC 78.8%)。疾病特异性任务中,RA和IBD相关变异识别MCC分别达0.827和0.941。分层探测实验进一步验证了模型各层级均能学习到具有判别性的表征。
研究结论与展望
STRAND模型通过直接处理原始测序数据(如BAM文件),规避了传统变异调用流程中的归纳偏倚,建立了从基因组序列到临床表型的端到端解析新范式。其成功证实了:①连续序列打包策略在保持基因组局部语境中的优越性;②动态损失加权对低频变异学习的有效性;③多物种数据融合可增强模型泛化能力。该研究为慢性疾病的早期诊断、治疗反应预测提供了新思路,后续将通过扩展队列多样性、整合HLA分型数据及多模态临床信息,进一步推动基因组人工智能在精准医疗中的落地应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号