编辑推荐:
人类基因组中重复 DNA 序列复杂且与超 40 种疾病相关,传统算法面临计算挑战。研究人员提出 GenRepAI 深度学习框架,结合 CNN、LSTM、视觉 Transformer 等模型分析基因组后缀树,可识别致病重复扩增,助力分子诊断与基因组研究。
背景:人类基因组中密集分布着重复 DNA 序列,这些序列在基因组功能和结构中发挥关键作用,但也与 40 多种人类疾病有关。由于基因组的复杂性和庞大体积,识别和表征这些重复序列面临巨大计算挑战,传统算法难以应对。
方法:为解决这些挑战,研究提出 GenRepAI,一种用于导航和分析基因组后缀树的深度学习框架。GenRepAI 采用基于标记重复注释数据集训练的监督机器学习分类器,以及用于识别新型重复序列的无监督异常检测。模型通过卷积神经网络(CNN)、长短期记忆网络(LSTM)和视觉 Transformer 进行训练,以对人类基因组中的重复序列进行分类和注释。
结果:GenRepAI 旨在全面分析构成各种神经系统疾病基础的重复序列,使研究人员能够识别致病性扩增。该框架将整合到现有基因组分析流程中,具备筛查患者基因组并突出潜在因果变异以供进一步验证的能力。
结论:GenRepAI 有望成为基因组学的基础工具,利用人工智能加强对重复序列的表征。它有望在重复扩增障碍的分子诊断方面取得重大进展,并有助于更深入地理解基因组结构和功能,在精准医学中具有广泛应用。