编辑推荐:
在单分子实时测序(SMRT-seq)检测 5 - 甲基胞嘧啶(5mC)等碱基修饰存在局限的背景下,研究人员构建 HK model 2 模型。该模型提升了 5mC 等检测准确性,可分析 cfDNA 助力癌症检测等,为相关研究和临床应用开拓新方向。
在生命科学的探索旅程中,DNA 碱基修饰的研究一直是热点领域。近年来,随着技术的进步,第三代表观基因组测序技术,尤其是单分子实时测序(SMRT-seq),为直接检测天然 DNA 分子的修饰带来了新的可能。然而,这一技术在实际应用中仍面临诸多挑战。例如,在检测 5 - 甲基胞嘧啶(5mC)时,传统方法的灵敏度较低,难以满足精准检测的需求。而且,目前还缺乏高效的方法来检测其他重要的碱基修饰,像 5 - 羟甲基胞嘧啶(5hmC)和 N
6- 甲基腺嘌呤(6mA),5hmC 作为 5mC 的氧化形式,在胚胎干细胞和大脑中广泛存在,有望成为癌症检测的循环生物标志物,但 SMRT-seq 检测 5hmC 面临高质量训练数据集获取困难的问题;6mA 在原核生物中较为普遍,参与细菌生存和宿主相互作用等多种途径,虽然此前有研究尝试检测,但在人类基因组规模评估方面还需进一步探索。此外,现有深度学习框架在优化结构和微调实验协议以提高碱基修饰检测准确性方面,也存在很大的提升空间。
为了解决这些难题,香港中文大学相关研究机构的研究人员开展了深入研究。他们构建了一种结合卷积神经网络(CNN)和 Transformer 层的混合模型 ——HK model 2,探索通过优化深度学习框架结构和实验策略,来提升碱基修饰检测的准确性和应用范围。该研究成果发表在《Communications Biology》上,为该领域带来了新的突破。
在研究过程中,研究人员运用了多种关键技术方法。首先,通过收集健康个体样本获取相关 DNA 数据,采用 BS-seq、TAB-seq 和 SMRT-seq 等测序技术对样本进行处理分析。然后,基于 Pytorch 深度学习框架构建 HK model 2 模型,利用不同的训练数据集对模型进行训练和测试,通过一系列的实验和数据分析来评估模型性能。
下面来看具体的研究结果:
- HK model 2 的结构:SMRT-seq 的动力学信号(如脉冲间隔时间 IPD 和脉冲宽度 PW)、碱基身份及位置信息被整理成输入特征矩阵,经过 4 个一维卷积层和 3 个连续的 Transformer 层处理,最终由输出层通过 softmax 激活函数产生碱基修饰概率得分。这种结构使得 HK model 2 能够直接检测全基因组范围内的多种碱基修饰。
- 增强 5mC 检测的准确性:使用之前研究的训练数据集训练 HK model 2,其区分未甲基化胞嘧啶(uC)和 5mC 的受试者工作特征曲线下面积(AUC-ROC)达到 0.97,精度召回曲线下面积(AUC-PR)为 0.97,相比 HK model 1 有显著提升。增大训练数据集规模后,HK model 2 的 AUC-ROC 和 AUC-PR 进一步提高到 0.99。在不同亚读深度下,HK model 2 均表现出良好的性能,且优于其他对比方法。通过分析公开数据也验证了其准确性,并且该模型量化的甲基化水平与 BS-seq 结果高度相关。
- 增强 DNA 分子中碱基修饰分析的覆盖范围:HK model 1 分析测序分子中的 CpG 位点时,靠近片段末端的 CpG 因缺乏侧翼核苷酸无法形成完整测量窗口,存在无法报告甲基化状态的区域。HK model 2 利用测序接头的动力学信号,使靠近片段末端的 CpG 位点可检测率接近 100%,有效解决了这一问题。
- 链特异性 HK model 2:研究人员探索了 HK model 2 在单链信息分析中的性能,发现其能分析链特异性甲基化模式。通过优化实验方案,修正训练数据集,消除了 DNA 片段 3’端附近检测性能下降的问题,准确检测双链 DNA 分子中存在于 Watson 或 Crick 链上的 5mC。
- HK model 2 区分 5mC 和 5hmC:研究人员通过 TET2 处理 DNA 获得含 5mC 和 5hmC 的产物,并采用 DNA 连接方法构建训练数据集。基于此,HK model 2 能有效区分 uC、5mC 和 5hmC,在生物样本检测中,其检测的 5hmC 水平与 TAB-seq 结果高度相关,5xC(5mC 和 5hmC 总和)水平与 BS-seq 结果一致,验证了检测的有效性。
- 通过 HK model 2 框架增强 6mA 检测:研究人员制备了含 6mA 和未甲基化腺嘌呤(uA)的数据集,采用创新的归一化策略训练 HK model 2。该模型区分 6mA 和 uA 的 AUC-ROC 和 AUC-PR 均达到 0.99,优于传统基于 IPD 值的分析方法。在分析微生物 DNA 时,HK model 2 能准确检测不同微生物中 6mA 修饰水平,并确定其特征基序,表明该模型在实际生物样本分析中的有效性。
- HK model 2 的潜在应用:利用 HK model 2 重新分析肝细胞癌(HCC)相关数据集,发现其计算的 HCC 甲基化评分区分 HCC 患者和非 HCC 个体的 AUC 可达 0.97,高于 HK model 1。此外,6mA 检测可用于分析 cfDNA 的锯齿状末端和推断核小体定位,展现了 HK model 2 在临床和生物学研究中的潜在价值。
研究结论和讨论部分指出,HK model 2 在检测 5mC、5hmC 和 6mA 时,灵敏度分别达到 98%、90% 和 99%,总体特异性超过 90%,性能优于其他评估的深度学习算法。该模型的成功得益于 CNN 和 Transformer 的协同作用,以及针对不同碱基修饰的训练数据集和信号处理方法的优化。尽管目前存在一些局限性,如 Lig-5hmCG 数据集中 CpG 位点数量有限,但 HK model 2 为单分子实时测序检测多种碱基修饰提供了一种通用且改进的方法,在非侵入性癌症检测、cfDNA 锯齿状分析和染色质结构剖析等方面具有重要意义,为相关领域的研究和临床应用开辟了新的道路,推动了生命科学和健康医学领域的发展。