
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于全血基因表达数据和机器学习的B9D2基因在结直肠癌中的诊断潜力研究
【字体: 大 中 小 】 时间:2025年08月16日 来源:Discover Oncology 2.9
编辑推荐:
为解决结直肠癌(CRC)早期诊断难题,研究人员通过生物信息学和机器学习方法,首次探索了B9D2基因在CRC中的诊断价值。研究整合GEO数据库全血样本转录组数据,结合LASSO、RF和SVM-RFE算法筛选出B9D2等5个关键基因,验证显示B9D2在CRC患者血液中显著高表达(AUC=0.797),为无创诊断提供了新靶点。
结直肠癌是全球第三大高发恶性肿瘤,但早期症状隐匿使得约60%患者确诊时已进展至晚期,导致五年生存率从早期的95%骤降至不足8%。目前结肠镜检查虽为金标准,却因侵入性和低依从性难以普及;粪便潜血试验(FOBT)等非侵入方法又存在灵敏度不足的缺陷。这种诊断困境催生了研究者对新型生物标志物的探索——特别是从易于获取的外周血中寻找"分子指纹"。
郑州大学研究人员在《Discover Oncology》发表的研究另辟蹊径,将目光投向了一个鲜少被关注的基因:B9D2。该基因编码纤毛膜蛋白组分,既往研究多聚焦其发育生物学功能,而在肿瘤领域尤其是结直肠癌中几乎空白。团队创新性地整合全血转录组数据和机器学习算法,首次揭示了B9D2作为CRC诊断标志物的潜力。
研究采用多组学联合作战策略:首先从GEO数据库获取GSE203024(205例CRC vs 296健康对照)和GSE47756(55例CRC vs 38对照)数据集;通过limma包筛选差异表达基因(DEGs);借助STRING数据库构建蛋白质互作网络(PPI);运用随机森林(RF)、最小绝对收缩选择算子(LASSO)和支持向量机递归特征消除(SVM-RFE)三种机器学习方法交叉验证关键基因;最后通过人类蛋白质图谱(HPA)和临床样本免疫组化(IHC)进行组织水平验证。
3.1 差异基因表达分析
在GSE203024数据集中鉴定出569个DEGs(365上调/204下调),其中B9D2表达差异最显著。热图显示该基因在CRC组呈现系统性上调,与健康对照组形成鲜明对比。
3.2 功能富集分析
基因集富集分析(GSEA)揭示VEGF和MAPK信号通路在CRC中异常活跃,这些通路通过促进血管生成和细胞增殖驱动肿瘤进展。值得注意的是,B9D2相关基因显著富集于趋化因子信号和谷胱甘肽代谢通路,暗示其可能通过调节肿瘤代谢重编程参与癌变过程。

3.4 PPI网络与枢纽基因
通过Cytoscape构建的蛋白质互作网络锁定TOP50枢纽基因,其中B9D2在网络中处于关键节点位置,与多个癌症相关蛋白存在直接相互作用。
3.5 机器学习验证
三种算法交叉验证确认B9D2的诊断价值:RF模型显示其重要性评分最高;LASSO回归中λ=0.129时仍保持显著系数;SVM-RFE在15个特征时达到最高准确率(0.871)。这种三重验证机制极大提升了发现的可信度。

3.6 表达验证
在独立队列GSE47756中,B9D2仍保持优异诊断性能(AUC=0.756)。但有趣的是,IHC结果显示B9D2在癌组织中表达反而低于正常腺上皮,这种"血液高表达-组织低表达"的剪刀差现象提示其可能通过外泌体分泌或免疫细胞激活等机制进入循环系统。
研究最终锁定B9D2、CR2、DNMT3B、FOS和PTGS2五个关键基因,其中B9D2因其新颖性和诊断效能(AUC>0.75)脱颖而出。讨论部分指出,虽然B9D2在纤毛功能中的作用已有报道,但其通过调控肿瘤免疫微环境参与CRC发生的机制仍属首次发现。这种"血液检测阳性而组织检测阴性"的反常现象,可能为理解肿瘤免疫逃逸提供新视角。
该研究的转化意义在于:①首次将B9D2确立为CRC液体活检潜在靶点,为无创诊断提供新选择;②揭示纤毛相关基因在肿瘤中的非经典功能,拓展了癌症生物学认知边界;③多组学与机器学习融合的策略为生物标志物发现提供范式参考。当然,如作者所言,B9D2在组织与血液中的表达悖论仍需功能实验阐释,其是否可作为治疗靶点也值得深入探索。这项研究为结直肠癌早诊早治带来了充满想象力的新方向。
生物通微信公众号
知名企业招聘