MethylMSI:基于DNA甲基化谱和SVM模型预测微卫星不稳定性

《Computational Biology and Chemistry》:MethylMSI: Prediction of microsatellite instability based on DNA methylation profile and SVM model

【字体: 时间:2025年12月11日 来源:Computational Biology and Chemistry 3.1

编辑推荐:

  微卫星不稳定性(MSI)是癌症免疫治疗的重要生物标志物,本研究基于TCGA数据库的DNA甲基化数据,开发了MethylMSI支持向量机模型,在结直肠癌、胃癌和子宫内膜癌队列中验证了其高预测准确率,并揭示了MLH1超甲基化在结直肠癌和子宫内膜癌中的关键作用。

  
陈志艳|何启杰|姚润天|吴家文|张行鼎|林琪|黄米妮
中山大学深圳校区医学院分子癌症研究中心,中国深圳518107

摘要

微卫星不稳定性(MSI)作为一种有前景的癌症免疫治疗生物标志物,受到了越来越多的关注。由于DNA错配修复(MMR)缺陷,MSI肿瘤表现出高度突变特征。基于这一特征,已经开发了许多计算方法来利用DNA测序数据或mRNA表达数据预测MSI。我们利用癌症基因组图谱(TCGA)项目中的甲基化数据,开发了MethylMSI这一基于支持向量机(SVM)的工具,用于三种癌症类型(结直肠癌、胃癌和子宫内膜癌)的MSI分类。研究表明,MethylMSI在所有三种癌症类型中都具有较高的预测准确性。对SVM模型潜在特征的分析表明,MLH1基因的高甲基化是结直肠癌和子宫内膜癌MSI的重要指标;而在胃癌中,其他MMR缺陷可能对MSI的形成更为关键。我们得出结论,SVM具有从DNA甲基化数据预测MSI状态的潜力。此外,相关软件现已免费提供,链接为:https://github.com/Huanglab-ai/MethylMSI

引言

微卫星不稳定性(MSI)是一种分子表型,其特征是由于DNA错配修复(MMR)系统功能障碍导致重复微卫星序列中核苷酸的自发增减。具有
MMR基因(包括MSH2、MSH3、MSH6、MLH1、MLH3、PMS1PMS2)突变或表观遗传沉默的肿瘤通常表现出MSI表型。MSI在多种癌症类型中都有发现,如结直肠癌、胃癌和子宫内膜癌,其患病率约为19.09%至31.37%(Bonneville等人,2017年)。MSI的临床意义也受到了广泛关注。研究表明,结直肠癌患者的MSI状态对氟尿嘧啶类化疗的预后具有重要影响(Benatti等人,2005年)。最近的研究表明,MSI已成为癌症免疫治疗的一个有前景的生物标志物(Chang等人,2018年2月;Luchini等人,2019年8月;Yamamoto等人,2024年6月;Taieb等人,2022年11月)。因此,MSI的分类至关重要,因为它与治疗决策密切相关。
传统的MSI临床检测方法基于PCR技术,通过检测五个微卫星位点来判断肿瘤组织和正常组织之间的长度差异。如果两个或更多位点发生突变,则将该肿瘤归类为微卫星不稳定性高(MSI-H)(Umar等人,2004年)。然而,由于检测位点数量有限,这种方法的效率较低。随着下一代测序(NGS)技术的发展,已经开发出多种基于NGS的算法,能够以优异的预测性能判断患者的MSI状态(Chen等人,2019年;Li等人,2020年;Santamarina-García等人,2023年)。这些方法大多利用了肿瘤和正常样本之间的遗传变化信息,并同时检测了大量微卫星位点。其中,DNA甲基化谱及其与MSI状态的相关性研究较少。已知DNA甲基化在MSI肿瘤形成中起着重要作用。MLH1基因启动子区域的高甲基化是MSI-H结直肠癌患者中MMR缺陷的常见原因(Kane等人,1997年)。大约80%的MSI-H结直肠癌病例是由MLH1基因启动子区域偶发性高甲基化引起的(Boland和Goel,2010年)。MSI-H与微卫星稳定(MSS)结直肠肿瘤之间也存在DNA甲基化的差异(Jasmine等人,2021年)。然而,大规模DNA甲基化变化与MSI状态之间的关联仍不明确,MSI的表观遗传调控机制需要进一步探索。在本研究中,我们利用癌症基因组图谱(TCGA)中的DNA甲基化数据,基于机器学习框架——支持向量机(SVM)开发并验证了一个MSI预测模型。

数据收集

MSI状态的DNA甲基化数据收集

我们从TCGA数据库(https://portal.gdc.cancer.gov/)下载了三种癌症类型(结直肠癌、胃癌和子宫内膜癌)的体细胞突变数据(MAF文件)和DNA甲基化数据(Illumina HumanMethylation450)。我们使用MSIpred软件和TCGA的maf文件获得了1564个肿瘤的MSI状态。MSIpred算法使用Python(版本2.7.5)执行,其预测准确性与网站提供的临床MSI状态完全一致(//firebrowse.org/)。

数据准备和特征选择

DNA甲基化数据来自公开的TCGA数据库。样本的MSI状态信息通过MSIpred软件和TCGA的体细胞突变数据获得。本研究使用了同时具有DNA甲基化数据和MSI状态的样本(见表S2)。从DNA甲基化数据中识别出MSI和MSS之间的差异性甲基化CpG位点,并通过不同模型进行了筛选(见方法部分)。

七种不同模型中的分类性能

为了评估模型的性能

讨论

本研究构建了一个新的SVM模型,利用DNA甲基化数据成功预测了结直肠癌、胃癌和子宫内膜癌的MSI状态。在485,577个CpG位点中,分别有40个、37个和11个位点被选为每种癌症类型的特征预测因子,并证明了它们能够区分MSI-H和MSS样本。这些特征CpG位点也为理解不同MSI状态下的甲基化模式差异提供了新的视角。

结论

本研究成功开发了一个高准确率的MSI预测软件MethylMSI,该软件基于SVM模型,为临床研究提供了实用工具。确定了与MSI密切相关的CpG位点及其预测价值。MethylMSI的开发展示了信息技术在疾病预测和个性化医疗领域的潜力。我们计划继续扩展MethylMSI的功能并提高其预测能力。

伦理声明

本研究使用了来自TCGA数据库的公开基因组数据(https://portal.gdc.cancer.gov/)。数据访问和分析遵循了TCGA的数据使用政策,未包含任何个体患者的个人信息。由于数据集的匿名性,因此无需进行伦理审查。

资助声明

本研究得到了中山大学同创智能医学交叉人才培养基金(76160-54990001)、广东省自然科学基金(项目编号2022A1515110268、2022A1515012286、2025A1515012335)以及深圳市科技计划(项目编号JCYJ20220530145217039、JCYJ20220530145217040)的支持。

作者贡献声明

黄米妮:撰写 – 审稿与编辑、初稿撰写、监督、资金申请、概念构思。张行鼎:撰写 – 审稿与编辑、资源提供。林琪:撰写 – 审稿与编辑、初稿撰写。姚润天:数据可视化。吴家文:数据可视化、软件开发。陈志艳:撰写 – 审稿与编辑、初稿撰写、数据分析、数据管理。何启杰:初稿撰写、数据可视化、数据分析、软件开发。

利益冲突声明

作者声明不存在利益冲突。

致谢

我们衷心感谢中山大学医学院提供的计算资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号