从体细胞拷贝数谱中实现一致的整合与特征提取

《GigaScience》:CNSistent integration and feature extraction from somatic copy number profiles

【字体: 时间:2025年09月14日 来源:GigaScience 3.9

编辑推荐:

  为解决体细胞拷贝数变异(SCNA)谱在跨样本、患者及队列整合中缺乏专用工具的问题,研究人员开发了Python工具包CNSistent,支持SCNA数据插补、过滤、一致性分割、特征提取及可视化。该工具在TCGA、PCAWG和TRACERx等公开队列中验证了其有效性,显著提升了多癌种分类任务性能,并成功识别肺癌亚型关键变异区域如SOX2扩增。CNSistent为大规模SCNA数据整合与下游分析提供了高效、灵活的解决方案。

  

癌症基因组学研究日益揭示体细胞拷贝数变异(Somatic Copy Number Alterations, SCNAs)在肿瘤发生、发展和治疗响应中的关键作用。SCNAs表现为DNA片段的扩增或缺失,可驱动癌基因激活、抑癌基因失活以及基因表达调控紊乱,因此成为癌症分型、预后评估和进化研究的重要生物标志物。随着大规模癌症基因组计划的推进(如TCGA、PCAWG和TRACERx),海量SCNA数据被公开,但如何高效、标准化地整合这些异构数据,并从中提取具有生物学意义的特征,仍是当前研究的瓶颈问题。由于不同研究采用的技术平台(如WES、WGS、SNP阵列)、分段算法和过滤标准存在差异,直接比较或整合多源SCNA数据极具挑战。现有工具多侧重于原始数据调用或可视化,缺乏专门针对整合分析的功能模块,严重限制了SCNA数据在跨队列研究中的广泛应用。

为解决上述问题,Adam Streck和Roland F. Schwarz团队开发了CNSistent——一个专为SCNA数据整合与特征提取设计的Python工具包,并于《GigaScience》发表了其开发流程、功能验证及应用案例。该工具支持从原始片段表到标准化特征矩阵的全流程处理,包括数据插补、质量过滤、一致性分段、统计特征计算和机器学习集成分析。研究利用TCGA、PCAWG和TRACERx三大公开队列的14,174个SCNA样本进行验证,系统评估了不同分段策略对分类模型性能的影响,并成功应用于肺癌亚型关键变异区域的识别。

研究采用多项关键技术方法:基于参考基因组(hg19/hg38)的缺失值插补(包括延伸、二倍体和零值填充三种策略)、基于UCSCgap区域和低映射度区域的过滤、贪心算法合并断点以构建一致性分段、特征提取(如CN-coverage、GnD、LoH、AI及断点计数)以及基于标准化曼哈顿距离(NMD)的异常样本检测。队列数据来源于ICGC数据门户(PCAWG)、ASCATv3仓库(TCGA)和Zenodo(TRACERx),涵盖SNP阵列、WES和WGS多种技术平台。

一致性分段与特征提取

通过比较不同分段策略(固定大小分段、染色体臂、基因集和断点合并),研究发现对于多癌种分类任务,分段分辨率与模型性能高度相关。卷积神经网络(CNN+)在1Mb分段时达到最高验证精度(90.60%),而随机森林(RF)在约200个分段时即出现过拟合。基因级分段(使用COSMIC或Ensembl基因集)表现与相同特征数量的分段策略相当,验证了特征数量而非分段策略本身主导模型性能。

跨队列数据整合与分类验证

研究将三个队列的SCNA数据整合后训练分类模型,在6癌种分类任务中最高测试精度达92.42%(CNN+,1Mb分段),优于既往研究(Attique et al., 92%)。特别地,在非小细胞肺癌(NSCLC)亚型分类(LUAD vs. LUSC)中,跨队列训练模型(如用TRACERx训练后预测PCAWG样本)精度可达91.46%,甚至高于部分同队列验证结果,证明了CNSistent整合数据的泛化能力。

异常样本与关键区域识别

通过峰值评分(PS)和NMD异常检测,研究在LUAD/LUSC样本中识别出chr3q区域(包含SOX2基因)在LUSC中显著扩增,而在LUAD中多为中性。曼-惠特尼U检验显示SOX2是区分两者的最显著基因(p<0.001)。同时,检测到3例LUAD样本呈现LUSC-like的SOX2扩增模式,以及54例LUSC样本表现LUAD-like中性模式,提示可能存在误标记或肿瘤共发现象。

CNSistent为跨队列SCNA数据整合提供了标准化、灵活且高效的解决方案,显著提升了下游分析(如癌症分类、进化重建和标志物发现)的可靠性和可重复性。其模块化设计支持用户定制分析流程,而并行计算能力确保了大规模数据处理的可行性。研究不仅验证了工具在多项任务中的优越性能,还通过应用案例揭示了SCNA在癌症分型中的生物学意义,如SOX2扩增作为肺鳞状细胞癌的驱动事件。未来工作可进一步拓展至单细胞SCNA分析、多组学整合及临床预后建模等领域。CNSistent的开源发布(RRID:SCR_027025)将促进癌症基因组学研究的协作与创新。

相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号