编辑推荐:
肿瘤仅样本的低通量全基因组测序(lpWGS)中基因组倍性测定具挑战性。研究人员开发 BACDAC 方法,结合星座图(Constellation Plot)和 - 2N+LOH 指标,可在低至 1.2X 有效肿瘤覆盖下测定倍性,区分近二倍体与高倍体肿瘤,为肿瘤诊断和治疗提供新工具。
肿瘤细胞的染色体数目异常(非整倍体)是癌症的重要特征之一,常伴随全基因组加倍(WGD)事件,导致基因组中出现大量拷贝数变异(CNV)和杂合性缺失(LOH)。准确测定肿瘤倍性、识别亚克隆群体及可视化等位基因拷贝数,对癌症诊断、治疗方案选择和预后评估至关重要。然而,传统方法如核型分析或 DNA 流式细胞术依赖实验操作,而基于高通量测序的计算方法(如 ASCAT、ABSOLUTE 等)在低通量全基因组测序(lpWGS)且无匹配正常样本的肿瘤仅(tumor-only)样本中应用受限,缺乏有效的倍性分析工具和可视化手段。
为解决这一难题,美国梅奥诊所(Mayo Clinic)的研究人员开展了相关研究,开发了 BACDAC(基于二项分布统计和离散化算法计算等位基因含量)方法,并结合星座图(Constellation Plot)实现等位基因拷贝数的可视化。该研究成果发表在《Genome Biology》上,为 lpWGS 肿瘤样本的倍性分析提供了新的解决方案。
研究人员主要采用以下关键技术方法:
- 低通量全基因组测序(lpWGS):对 653 例涵盖 12 种癌症亚型的 lpWGS 样本进行分析,有效肿瘤覆盖(ETC)低至 1.2X。
- 等位基因含量计算:通过杂合性评分(hetScore)近似评估等位基因频率,基于二项分布统计常见单核苷酸多态性(SNP)。
- 离散化算法与星座图可视化:利用离散化网格算法将读深度峰值与等距网格对齐,通过二维星座图(hetScore vs 拷贝数)展示等位基因拷贝数状态和亚克隆群体。
- 多方法验证:与 TCGA 数据集及 ASCAT、FACETS 等现有方法对比,并通过核型分析、FISH 等实验方法验证。
结果
1. BACDAC 的有效性与最低输入要求
BACDAC 成功应用于 653/885 例 lpWGS 样本,有效肿瘤覆盖(ETC)最低为 1.2X(覆盖度 × 肿瘤纯度)。当 ETC 低于 1.2X 或样本无 CNV、读深度噪声过高时,方法失效。
2. 星座图的可视化能力
通过低复杂度肿瘤样本(图 1)和高非整倍体肿瘤样本(图 2、S3)的星座图,可清晰识别等位基因拷贝数状态(如 2N (1:1)、3N (2:1)、2N (2:0) 等)、LOH 区域及亚克隆群体。例如,在 TCGA 样本中,星座图显示染色体 7 的 2N 拷贝中性 LOH(cnLOH)和染色体 9 的亚克隆增益。
3. 与现有方法的对比验证
在 63 例 TCGA 高通量测序样本中,BACDAC 与 Dentro 共识结果(cor coef=0.98)、ABSOLUTE 的一致性优于 ASCAT2。在模拟低覆盖数据中,BACDAC 的倍性预测一致性显著高于 FACETS、ASCAT3 和 HATCHet2。与实验方法(核型分析、FISH 等)的一致性达 88%。
4. 高倍体肿瘤的识别与分类
结合倍性和 - 2N+LOH 指标(LOH 在 2N 及以上拷贝数的比例),通过支持向量机(SVM)建立决策边界,将肿瘤分为近二倍体(ploidy≤2.5N)和高倍体(ploidy>2.5N),在 653 例样本中识别出 40% 为高倍体。不同癌种中高倍体比例差异显著,乳腺癌和卵巢癌高达 60% 以上,而血液淋巴系统肿瘤仅 4%。
结论与讨论
BACDAC 首次实现了 lpWGS 肿瘤仅样本的倍性测定和等位基因拷贝数可视化,通过 hetScore 和星座图整合读深度与等位基因信息,解决了现有方法在低覆盖、无正常样本条件下的局限性。其关键创新包括:
- 低覆盖适应性:有效肿瘤覆盖低至 1.2X,适用于液体活检等肿瘤纯度低的场景。
- 可视化优势:星座图通过标注预期等位基因分数(绿色星号)和 LOH 线(紫色线),直观展示克隆结构和亚克隆异质性,辅助验证倍性解的有效性。
- 高倍体分类新指标:-2N+LOH 与倍性结合,较传统基于拷贝数的 WGD 识别方法更准确,避免将含亚克隆的近二倍体误判为高倍体。
尽管存在无法区分纯合子区域与 LOH、依赖肿瘤纯度准确评估等局限性,BACDAC 为癌症基因组学研究提供了低成本、高效的分析工具,尤其适用于临床 lpWGS 数据的快速解读,有望推动肿瘤个性化诊疗的发展。