利用机器学习揭示单细胞DNA复制时间动力学揭示癌症进展的异质性

【字体: 时间:2025年02月11日 来源:Nature Communications

编辑推荐:

  由于基因组异质性,单细胞复制时间(scRT)在癌症中的研究具有挑战性。在这里,作者开发了MnM,这是一种机器学习工具,可以提供异质性分辨率的scRT文件,并将其应用于包括肿瘤、细胞系和患者来源的异种移植物在内的大型单细胞数据集。

  

机器学习助力单细胞 DNA 复制时间动态研究,揭示癌症进展异质性


法国居里研究所(Institut Curie)、PSL 研究大学、法国国家科学研究中心(CNRS)UMR3244 遗传信息动力学实验室以及索邦大学的研究人员 Joseph M. Josephides 和 Chun-Long Chen,在《Nature Communications》期刊上发表了题为 “Unravelling single-cell DNA replication timing dynamics using machine learning reveals heterogeneity in cancer progression” 的论文。该研究开发了名为 MnM 的机器学习工具,深入剖析单细胞 DNA 复制时间动态,为癌症研究提供关键见解,在理解癌症发生发展机制、指导个性化治疗等方面意义重大。


一、研究背景


DNA 复制是细胞确保遗传信息准确传递的关键过程,然而这一过程可能出现错误,进而导致基因组改变,其中 DNA 拷贝数变异(CNVs)较为常见。CNVs 受多种细胞过程影响,与癌症等多种疾病密切相关。在癌症研究中,其可影响基因表达与功能,对肿瘤的起始、进展及治疗耐药性产生作用,还可作为癌症诊断、预后及治疗反应的生物标志物。


传统基于下一代测序(NGS)数据检测 CNV 的方法,主要通过批量测序测量基因组区域的 DNA 拷贝数,但该方法将不同细胞的遗传物质混合测序,仅能呈现所有肿瘤细胞基因组改变的平均情况,难以识别具有独特基因组特征的亚克隆,无法精准捕捉肿瘤内的基因组异质性,限制了对癌症进展、耐药性及治疗瓶颈相关基因组变化的研究。


单细胞技术的出现革新了癌症研究,单细胞基因组学能够研究癌症异质性并识别罕见细胞群体。复制时间(RT)作为 DNA 复制研究的关键指标,指细胞周期 S 期不同基因组区域复制的顺序,与多种细胞过程相关。尽管单细胞全基因组测序(scWGS)推动了 RT 研究,但此前受技术限制,单细胞 RT(scRT)研究在样本细胞分析数量上受限,且肿瘤研究中细胞内异质性常被忽视。


二、研究材料与方法


(一)研究材料


研究使用了多种细胞系(如 MCF - 7、HeLa S3、JEFF B 等)、患者肿瘤样本以及患者来源的异种移植(PDX)样本。这些样本来源广泛,涵盖不同癌症类型,为研究提供了丰富的单细胞数据,有助于全面探究癌症中的 DNA 复制时间动态及异质性。


(二)关键技术路线


  1. MnM 工具开发:整合多种机器学习算法,包含 k 近邻(KNN)插补、深度学习模型及无监督机器学习算法。通过 KNN 插补处理 scWGS 数据中的缺失值;利用深度学习模型依据单细胞 DNA 拷贝数对细胞复制状态进行分类;借助无监督学习算法检测基因组亚群。

  2. 数据分析流程:对 scWGS 数据进行预处理,包括解复用、条形码验证、读长映射等步骤,随后进行拷贝数矩阵构建。利用 KNN 插补算法填充缺失的拷贝数,基于深度学习构建复制状态分类器,区分复制和非复制细胞。通过无监督机器学习方法,经 UMAP 降维与 DBSCAN 聚类检测亚群,最后结合 Kronos scRT 分析复制时间。


三、研究结果


(一)准确的拷贝数插补


因 scWGS 技术局限,其基因组覆盖度低,数据易出现缺失值。研究采用 KNN 插补技术,基于加权拷贝数距离,利用近邻细胞的拷贝数信息填充缺失值。通过模拟稀疏单细胞拷贝数矩阵进行验证,在多个细胞系(如 MCF - 7、HeLa S3、JEFF B)中,KNN 插补平均准确率达 83.96%,插入值与原始值绝对差异≤1 拷贝数的比例超 99%,且不变率显著高于随机插补和中位数插补,证明该方法能有效处理不同倍性水平细胞的 scWGS 数据缺失值问题。


(二)深度学习模型用于单细胞 DNA 复制状态分类


为解决荧光激活细胞分选(FACS)确定细胞复制状态存在误差,且部分计算方法需手动设定阈值或额外信息的问题,研究整合多种来源的单细胞拷贝数及相应复制状态数据,构建仅基于单细胞 DNA 拷贝数的深度学习模型。在测试数据集上,该模型对复制状态分类准确率达 98.54%(100kb bin),优于 FACS,减少了细胞周期阶段分类的错误。


(三)无监督机器学习发现癌症亚群


构建三步框架用于检测细胞间拷贝数差异和基因组亚群。对非复制细胞的常染色体拷贝数经 UMAP 降维后,用 DBSCAN 聚类算法检测亚群,多次重复 UMAP/DBSCAN 步骤并依据中位数拷贝数同一性合并亚群,最后将复制细胞与相应非复制亚群匹配。混合 JEFF B 和 HeLa 细胞数据验证发现,该方法能准确区分不同细胞系的复制和非复制细胞,识别出 JEFF B 细胞系染色体 X 拷贝缺失现象。


(四)快速准确的亚群发现和复制分析


将机器学习方法整合为 MnM 工具,应用于多种细胞系和肿瘤样本。在 MCF - 7 和 WT HCT - 116 细胞系中成功检测到亚群,且发现 HCT - 116 细胞系亚群差异源于 DNA 修复途径改变。MnM 工具运行快速,分析 713 个 WT HCT - 116 细胞仅需 7 分 22 秒。重新分析已发表数据表明,该工具对不同技术获得、不同参考基因组比对和不同 bin 大小处理的数据均适用。


(五)DNA 复制时间保真度高


将拷贝数数据按亚群拆分并结合 Kronos scRT 获取 RT 谱,发现以往线性技术和单一阈值分离复制状态会引入较大误差。尽管存在基因组 CNVs,MCF - 7 和 HCT - 116 细胞亚群的伪批量 RT 谱与批量 RT 谱高度相关,说明 DNA 复制时间在存在拷贝数变异情况下仍保持较高保真度。


(六)患者肿瘤样本中的复制时间异质性


对三阴性乳腺癌(TNBC)肿瘤样本分析发现,存在一个二倍体和三个非整倍体亚群,部分亚群显示出不同的 RT 程序,同一肿瘤样本中亚群间 RT 谱的斯皮尔曼相关性为 73.3%,表明肿瘤样本细胞亚群的 RT 谱存在显著异质性。


(七)scRT 图谱揭示细胞类型和肿瘤特异性关系


分析 119,991 个高质量单细胞数据构建 scRT 图谱,发现不同细胞系、患者肿瘤和 PDX 样本的 RT 谱存在差异。如不同实验室的 MCF - 7 细胞系 RT 谱相关性仅 84.5%,而 JEFF B 和 GM 淋巴母细胞系相关性超 90%。通过 PHATE 生成 RT 轨迹可视化发现,不同细胞类型 RT 动态不同,肿瘤样本在 PDX 传代过程中 RT 谱会发生变化,部分肿瘤样本亚群间 RT 轨迹存在显著差异,证明 RT 亚群提取可用于研究癌症进展中的 RT 动态。


四、研究结论与讨论


研究开发的 MnM 工具能有效识别单细胞复制状态和基因组亚群,揭示癌症进展中的额外异质性层次。在拷贝数插补和细胞复制状态分类方面准确性高,可高效检测单细胞样本中的不同细胞类型和亚群。该研究揭示了 FACS 在细胞周期阶段检测的局限性,强调计算验证细胞分选元数据的重要性,同时表明基于单细胞 DNA 拷贝数的复制状态分类器可拓展应用于其他基因组。


研究发现多数样本存在染色体畸变,如 JEFF B 细胞系染色体 X 拷贝缺失,凸显 DNA 拷贝数筛查的重要性。同时,研究观察到细胞模型和患者来源样本在 RT 改变上的差异,细胞系中 DNA 复制动态变化较小,而患者肿瘤样本中存在显著破坏,体现肿瘤微环境对 DNA 复制模式的影响,强调研究肿瘤样本对理解癌症中 DNA 复制机制的关键意义。


尽管研究取得重要进展,但 scWGS 研究仍面临基因组覆盖不完全的挑战。随着长读长单细胞测序等新技术的出现,未来研究将能更深入探究突变景观、非整倍体和复制程序间的关系,以及同源染色体的 RT 差异,进一步推动癌症研究发展。


相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号