编辑推荐:
推荐
当前基因组研究中固定分类体系(如基于大陆的分类)限制了对人类基因组变异的研究。为此,研究人员引入动态聚类方法,基于癌症类型特异性位点的基因组变异对 10 种癌症的全外显子测序数据进行分析。结果表明该方法可超越传统分类,揭示新驱动基因,为基因组研究提供了兼具技术与社会意义的新范式。
论文解读
在生命科学研究的长河中,人类对基因组奥秘的探索从未停歇。然而,长期以来,种族、民族和祖先等固定分类范畴如同无形的枷锁,禁锢着基因组研究的深度与广度。早期基于政治、社会需求构建的分类体系,如林奈的人类分类系统,不仅充满主观偏见,更因技术局限和数据匮乏,将连续的基因组变异切割成离散的 “盒子”。这种以大陆为基础的宽泛分类(如 “非洲”“欧洲” 祖先标签),不仅掩盖了基因组在地理尺度上的连续性,还可能遗漏与特定性状(如癌症易感性)相关的关键遗传信号。
以癌症研究为例,传统分类无法准确反映肿瘤基因组的复杂性。不同个体可能因特定基因(如 BRCA1、TP53)的变异而具有相似的癌症易感性,却因祖先标签被归入不同类别,导致潜在的驱动基因和生物学通路被忽视。为突破这一困境,来自纪念斯隆凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)、耶鲁大学(Yale University)等机构的研究团队,在《BMC Medical Genomics》发表研究,提出一种动态聚类方法,基于与特定性状(如癌症类型)相关的基因组位点变异,对人群进行重新分组。
研究方法
研究人员选取癌症基因组图谱(TCGA)中 10 种癌症(包括乳腺癌 BRCA、结肠癌 COAD 等)的全外显子测序数据,聚焦于癌症相关基因(如 COSMIC 数据库中的种系变异基因)的种系变异。通过筛选具有高功能影响(HFI)的单核苷酸多态性(SNP),利用多维标度分析(MDS)、K-means 聚类等算法,生成基于性状的动态聚类,并与传统的大陆分类进行对比。同时,结合 MutSigCV 算法识别潜在的体细胞驱动基因,通过 g:Profiler 进行通路富集分析,探究聚类的生物学意义。
研究结果
超越大陆分类的聚类模式
基于癌症类型特异性位点的动态聚类显示,不同癌症的聚类数量差异显著(1-8 个),且所有癌症类型的聚类均包含 “非洲”“东亚”“欧洲” 等不同祖先标签的样本。例如,在结肠癌(COAD)和直肠癌(READ)中,聚类打破了传统分类的界限,揭示了跨地理区域的遗传相似性。
高功能变异的紧凑聚类特征
当聚焦于对蛋白质功能具有高影响的 SNP 子集时,聚类数量平均增加,部分癌症类型(如肺鳞癌 LUSC)的聚类呈现高度紧凑的特征,提示特定功能变异在癌症易感性中的集中作用。
动态聚类揭示新驱动基因
通过对比动态聚类与大陆分类,研究识别出 98 个(COSMIC 组)和 109 个(HFI 组)潜在驱动基因,其中 31 个(COSMIC)和 36 个(HFI)为传统分类所遗漏。这些基因涉及细胞周期、PI3K/Akt、TP53 等关键通路,部分基因(如 APC、CBFB)与肿瘤分级、分期等临床特征显著相关。
功能与临床关联分析
动态聚类不仅反映基因组变异的生物学过程(如 BRCA 中的 DNA 损伤反应、COAD 中的 mTOR 信号),还与临床变量(如 LUAD 的发病年龄、LIHC 的肿瘤分期)显著关联,为个体化医疗提供了新方向。
结论与意义
这项研究打破了基因组研究中传统分类的桎梏,证明基于性状特异性位点的动态聚类能够更精准地捕捉基因组变异的本质。通过整合多样化的数据集与动态分析方法,该研究不仅揭示了癌症基因组的复杂性和跨地理连续性,还为发现新的肿瘤生物标志物和治疗靶点提供了范式。其意义远超技术层面 —— 它挑战了 “种族” 作为科学分类的合理性,呼吁在基因组研究中纳入更广泛的社会视角,避免分类体系对科学发现和医疗公平的潜在伤害。随着基因组数据的日益丰富,这种兼具生物学洞察力与社会责任感的研究方法,将为理解人类健康与疾病的遗传基础开辟更广阔的道路。