
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习的种族特异性前列腺癌基因表达特征筛选与诊断模型优化研究
【字体: 大 中 小 】 时间:2025年08月10日 来源:JMIR Bioinformatics and Biotechnology CS2.9
编辑推荐:
研究人员针对前列腺癌诊断中存在的种族差异问题,通过机器学习结合基因表达数据开展特征选择优化研究。该研究采用差异表达基因(DEG)分析、受试者工作特征(ROC)曲线和分子特征数据库(MSigDB)验证构建支持向量机(SVM)模型,最终筛选出9个关键基因,在白人和非裔人群中分别实现98%和97%的检测准确率,为开发无偏见的种族特异性诊断工具提供了新思路。
前列腺癌作为男性第二大常见癌症,其诊断面临严峻挑战。传统的前列腺特异性抗原(PSA)检测存在假阳性率高的问题,而数字直肠检查的敏感性有限。更值得关注的是,不同种族人群的前列癌发病率和死亡率存在显著差异——非裔美国人的患病风险是欧裔的2.5倍,死亡率更高。这种种族差异既与社会经济因素相关,也体现在肿瘤分子特征的差异上。然而,现有的大多数基于机器学习的前列腺癌诊断研究都忽视了种族因素的影响,且使用的基因特征数量庞大,增加了临床应用的成本和难度。
针对这些问题,多媒体尼西亚大学工程与信息学院的研究团队在《JMIR Bioinformatics and Biotechnology》发表了一项创新研究。他们开发了一个基于种族特异性基因表达特征的机器学习框架,通过优化特征选择方法,显著减少了诊断所需的基因数量,同时保持了高准确率。该研究为解决前列腺癌诊断中的种族偏差问题提供了新思路,也为开发经济高效的精准诊断工具奠定了基础。
研究人员主要采用了三种关键技术:差异表达基因分析(DEG)筛选候选基因、受试者工作特征(ROC)曲线评估基因预测价值,以及分子特征数据库(MSigDB)验证基因的生物学相关性。研究数据来自癌症基因组图谱(TCGA)前列腺腺癌(PRAD)队列,包含550个样本的RNA测序数据。
【研究结果】
数据集:研究使用了TCGA-PRAD队列中458例白人样本和64例非裔样本的基因表达数据,通过生物信息学预处理获得57,429个基因的表达谱。
特征选择:通过DEG分析筛选出139个显著差异表达的基因,其中PCA3基因上调最显著(log2FoldChange=0.6198),WFDC2基因下调最显著(log2FoldChange=-0.3069)。进一步通过ROC曲线(AUC>0.9)和MSigDB验证,最终确定9个与前列腺癌高度相关的关键基因。
SVM分类器:最优模型使用SMOTEENN平衡方法和80:20的数据分割比例,在不进行超参数调优的情况下,训练准确率达100%,在白人和非裔测试集上分别获得98%和97%的准确率。值得注意的是,仅使用9个基因的简化模型也实现了97%(白人)和95%(非裔)的高准确率。
【讨论与结论】
该研究的创新点在于将种族因素纳入前列腺癌诊断模型的开发过程,并通过多阶段特征选择大幅减少了所需基因数量。与之前需要上千个基因的研究相比,该模型仅用9-139个基因就达到了同等甚至更高的准确率,显著降低了临床应用成本。
研究还揭示了种族因素对模型性能的影响:虽然模型在非裔人群中的准确率略低(约低1-2%),但差异不大,表明筛选出的基因特征具有较好的跨种族适用性。这为开发更具普适性的前列腺癌诊断工具提供了重要参考。
该研究的局限性在于样本种族分布不均衡(白人样本占绝大多数)和缺乏外部验证数据集。未来研究应纳入更多样化的人群和独立验证队列,并探索表观遗传学等更多维度的分子特征,以进一步提高模型的准确性和泛化能力。这项研究标志着向开发经济高效、种族敏感的精准前列腺癌诊断工具迈出了重要一步。
生物通微信公众号
知名企业招聘