编辑推荐:
为解决乳腺癌早期诊断难题,研究人员整合生物信息学与机器学习,确定 6 个关键基因,构建可靠诊断模型,助力改善预后。
乳腺癌诊断的困境与探索:新研究带来的曙光
乳腺癌,作为女性健康的 “头号杀手” 之一,在全球范围内的发病率和死亡率都令人担忧。据统计,2020 年全球女性乳腺癌新发病例高达 226 万,死亡人数约 68 万,它是女性癌症相关死亡的第二大原因,仅次于肺癌。由于乳腺癌早期症状隐匿,多数患者确诊时已处于晚期,错过最佳治疗时机,5 年生存率较低。
目前,乳腺癌的临床检测主要依靠影像学和组织病理学方法。然而,这些传统诊断技术存在诸多弊端。像乳腺 X 线摄影、计算机断层扫描(CT)和正电子发射断层扫描(PET)等影像学检查,存在辐射风险;而病理诊断则因病理医生不足、样本标记困难和人工诊断工作量大等问题,不适用于快速诊断。因此,寻找有效的生物标志物用于乳腺癌早期诊断,开发新的治疗方法,成为改善乳腺癌患者预后的关键。
在这样的背景下,来自云浮云浮市疾病预防控制中心、南昌大学江西医学院公共卫生学院等机构的研究人员,开展了一项旨在探索与乳腺癌发病机制相关的新基因的研究。该研究成果发表在《Scientific Reports》上,为乳腺癌的诊断和治疗带来了新的希望。
研究方法:多技术融合,精准筛选生物标志物
研究人员从基因表达综合数据库(Gene Expression Omnibus,GEO)下载了 11 个基因表达谱数据集,并将其整合为两个独立的队列,即训练队列和验证队列,同时利用联合关联检验(ComBat)经验贝叶斯方法去除批次效应。
在训练队列中,研究人员使用 “limma” 软件包识别乳腺癌组织和相邻正常乳腺组织样本之间的差异表达基因(differentially expressed genes,DEGs)。通过设定绝对 log2倍变化(log2FoldChange,log2FC)>2 且校正 p 值 < 0.05 的阈值,筛选出 154 个差异表达基因。
随后,研究人员利用 R 语言中的 “org.Hs.eg.db” 软件包将基因符号转换为相应的 EntrezIDs,再使用 “clusterProfiler” 软件包进行基因本体(Gene Ontology,GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)分析,以揭示差异表达基因的潜在生物学过程和分子功能。同时,运用基因集富集分析(Gene Set Enrichment Analysis,GSEA)进一步探索差异表达基因在乳腺癌中的生物标志物性能。
为了确定最可靠的诊断指标,研究人员采用了最小绝对收缩和选择算子逻辑回归(Least absolute shrinkage and selection operator - Logistic regression,LASSO - Logistic regression)、支持向量机递归特征消除(Support vector machine - recursive feature elimination,SVM - RFE)和多元逐步 Logistic 回归分析。基于这些分析结果,构建了乳腺癌的诊断模型和列线图(Nomogram),并在外部验证队列中进行验证。
研究结果:关键基因浮出水面,诊断模型表现优异
- 差异表达基因的识别与功能富集分析:研究人员共识别出 154 个差异表达基因,其中 51 个在乳腺癌组中上调,103 个下调。功能富集分析表明,这些差异表达基因主要富集在核分裂、含胶原蛋白的细胞外基质、细胞外基质结构成分等生物学过程,以及 PPAR、细胞周期、p53、卵母细胞减数分裂、酪氨酸代谢和 AMPK 等 KEGG 通路。此外,GSEA 分析显示,E2F 靶点(HALLMARK_E2F_TARGETS)、G2M 检查点(HALLMARK_G2M_CHECKPOINT)和有丝分裂纺锤体(HALLMARK_MITOTIC_SPINDLE)基因集在乳腺癌中显著富集。
- 诊断生物标志物的确定与诊断模型的构建:通过 LASSO - Logistic 回归、SVM - RFE 和多元逐步 Logistic 回归分析,研究人员筛选出 6 个与乳腺癌发病机制相关的关键基因,分别为 CD300LG、IGSF10、FAM83D、MAMDC2、COMP 和 SEMA3G。其中,FAM83D、COMP 和 SEMA3G 的高表达是乳腺癌的危险因素,而 CD300LG、IGSF10 和 MAMDC2 的表达则具有保护作用。基于这 6 个基因,研究人员构建了乳腺癌的诊断模型和列线图。在训练队列中,该模型的受试者工作特征曲线(Receiver operating characteristic curve,ROC)下面积(Area under the curve,AUC)为 0.978(0.962,0.995),具有良好的风险预测能力;校准曲线表明列线图的预测概率与实际结果相符;决策曲线和临床影响曲线显示该模型具有良好的临床效益。
- 诊断模型的验证:在验证队列中,研究人员进一步验证了诊断模型的稳定性。结果显示,6 个基因在乳腺癌组织和正常组织中的表达水平差异显著。该模型在验证队列的训练集和验证集中的 AUC 分别为 0.936(0.910,0.961)和 0.921(0.870,0.972),表明其在区分乳腺癌患者和健康个体方面表现良好。
研究结论与讨论:开启乳腺癌精准医疗新时代
本研究通过整合生物信息学分析和机器学习,构建了基于 6 个基因的乳腺癌诊断模型,并在外部独立队列中进行了验证。该模型能够可靠地区分乳腺癌患者和健康个体,为乳腺癌的早期诊断提供了新的潜在生物标志物。
这 6 个关键基因在乳腺癌的免疫调节、细胞黏附、细胞增殖和信号通路调节等过程中发挥着复杂的作用。例如,CD300LG 具有多种免疫功能,其在乳腺癌组织中的表达下调;IGSF10 与神经元发育和分化相关,在乳腺癌中表达下调,且与预后呈正相关;FAM83D 可调节细胞增殖、迁移等过程,在乳腺癌中高表达,与不良预后相关。
此外,研究还发现与乳腺癌发病机制相关的差异表达基因主要富集在细胞周期通路,尤其是 E2F 靶点和 G2M 检查点。这表明这些基因可能通过细胞周期相关的 E2F 转录因子和 G2M 检查点通路参与乳腺癌的发展。
然而,本研究也存在一些局限性。样本来自公开数据库,诊断性能有待进一步验证;研究未考虑年龄、家族史等乳腺癌风险因素的影响;数据集主要来自亚洲、欧洲和北美人群,结论是否适用于其他人群尚不清楚;模型还需与其他先进算法进行比较。尽管如此,这项研究仍然为乳腺癌的诊断和治疗提供了重要的理论依据和潜在的应用方向,有望推动乳腺癌精准医疗的发展,改善患者的预后。