公平分子特征选择揭示结直肠癌中跨肿瘤谱系通用的甲基化位点

【字体: 时间:2025年07月16日 来源:Bioinformatics 4.4

编辑推荐:

  本研究针对精准医疗中分子特征选择存在的样本偏差问题,开发了基于整数线性规划(ILP)的FALAFL算法,通过公平选择跨患者队列的CpG甲基化位点,发现结直肠癌(CRC)中196K个跨谱系通用的甲基化位点。这些位点显著富集于CpG岛间区(inter-CGI),揭示了肿瘤甲基化改变的非随机性特征,为癌症诊断panel设计和表观遗传驱动机制研究提供了新思路。

  

在精准医疗时代,分子特征选择是制定个体化治疗方案的关键步骤。然而当前研究存在一个被忽视的核心问题:当面对单细胞测序数据覆盖深度不均的临床样本时,如何公平选择能代表整个患者队列的分子特征?特别是在结直肠癌(CRC)研究中,由于肿瘤异质性和技术限制,不同患者的单细胞甲基化测序(scBS-seq)数据覆盖差异显著,这严重阻碍了跨患者比较分析和通用生物标志物的发现。

美国国立卫生研究院国家癌症研究所(National Cancer Institute, National Institutes of Health)的Xuan Cindy Li等研究人员在《Bioinformatics》发表研究,开发了FALAFL(FAir muLti-sAmple Feature selection)算法。该研究通过整数线性规划(ILP)优化,从9例转移性CRC患者的单细胞甲基化数据中,筛选出在多数患者中覆盖良好的196,000个CpG位点。关键发现这些位点的谱系信息性(lineage-informativeness)在不同患者间高度相关,且显著富集于CpG岛间区,揭示了CRC甲基化改变的非随机模式。

研究主要采用三项关键技术:1)基于整数线性规划的特征选择算法FALAFL,参数设置为δ=0.1(位点细胞覆盖率阈值)、p=0.5(二值化阈值)、k=4(最小患者覆盖数);2)利用Sgootr算法计算Jensen-Shannon(JS)距离评估CpG位点的谱系信息性;3)通过L2距离量化位点甲基化模式在患者间的保守性。数据来源于Bian等发表的CRC单细胞甲基化测序数据集。

【FALAFL实现快速稳健的分子特征选择】

研究显示FALAFL能在60秒内处理含117万位点的9患者矩阵,输出195,809个代表性CpG位点。通过数据洗牌验证,结果Jaccard指数达0.9999-1.0,证明算法稳定性。与常规方法相比,FALAFL显著降低了对低质量样本(如CRC02/CRC15)的偏倚,使各患者在最终位点集中的贡献更均衡。

【揭示跨患者通用的谱系信息模式】

分析发现FALAFL筛选位点的谱系信息性(JS距离)在患者间高度相关(Pearson r>0.75)。在左半结肠CRC亚组中,位点偏离完美相关性中位数仅0.1589;全队列中仍有11,916个位点保持同等保守性。这证实CRC甲基化改变存在跨患者的共性规律。

【发现甲基化非随机性的基因组特征】

通过定位分析,31,378个"通用谱系信息位点"显著富集于CpG岛间区(inter-CGI),而76,189个"通用非信息位点"主要位于CpG岛。这种差异分布提示肿瘤甲基化改变具有功能相关性,可能参与CRC进展的驱动事件。

该研究通过算法创新解决了临床组学数据的公平比较难题。FALAFL不仅适用于甲基化数据,还可扩展至SNP等其他分子特征选择。发现的通用甲基化位点为CRC诊断标志物开发提供了新靶点,其基因组分布特征更深化了对表观遗传调控机制的理解。未来应用至更大队列将有助于揭示肿瘤进化的保守规律,推动精准医疗中的公平数据科学实践。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号