基于特征工程的临床显著性前列腺癌预测模型优化研究

《Journal of Medical and Biological Engineering》:Enhancing the Prediction of Clinically Significant Prostate Cancer Through Feature Engineering

【字体: 时间:2025年11月21日 来源:Journal of Medical and Biological Engineering 1.7

编辑推荐:

  本研究针对临床显著性前列腺癌(csPCa)预测准确性不足的问题,通过特征工程技术开发新型预测模型。研究团队对824例前列腺活检患者数据进行了交互项构建和Boruta算法特征选择,建立广义线性模型(GLM)。结果显示该模型AUC达0.833,显著优于传统PSA模型(0.721)和PSA+DRE模型(0.794),其中PSA密度(PSAD)被证实为最强预测因子。该模型可减少44.2%不必要活检,为临床决策提供新工具。

  
在全球男性癌症相关死亡原因中,前列腺癌(Prostate Cancer, PCa)位居第二,每年导致数十万人死亡。尽管前列腺特异性抗原(Prostate-Specific Antigen, PSA)筛查广泛应用,但传统临床模型在区分临床显著性前列腺癌(clinically significant PCa, csPCa)方面存在明显局限。csPCa指具有不良病理特征的侵袭性疾病,约占新发病例的25-30%,其准确识别对治疗决策和预后改善至关重要。现有风险计算器(Risk Calculators, RCs)和列线图存在泛化能力不足、需频繁校准等问题,促使研究人员探索更精准的预测方法。
塞尔维亚克拉古耶瓦茨大学临床中心的研究团队在《Journal of Medical and Biological Engineering》发表最新研究,通过特征工程(Feature Engineering)技术构建新型预测模型。该研究回顾性分析2017-2022年接受经直肠前列腺活检的824例患者数据,重点解决传统模型对csPCa预测准确性不足的临床难题。
研究采用机器学习关键技术方法:首先对分类变量进行独热编码(One-Hot Encoding),对连续变量进行标准化处理;通过创建交互项(如PSA密度PSAD)和平方变量(PSA2、PV2)进行特征扩展;使用Boruta算法进行特征选择;将数据集按75:25比例划分为训练集和测试集;最终通过广义线性模型(Generalized Linear Model, GLM)评估性能,并以曲线下面积(Area Under the Curve, AUC)、决策曲线分析(Decision Curve Analysis, DCA)等指标验证效果。
3.1 患者特征与数据预处理
研究纳入824例50-80岁患者,其中320例(38.8%)确诊前列腺癌,189例(22.9%)为csPCa。较高年龄、PSA水平、异常直肠指检(Digital Rectal Examination, DRE)结果、较小前列腺体积(Prostate Volume, PV)和较多阳性活检核心数与csPCa显著相关(p<0.01),而重复活检和活检核心总数无显著关联。
3.2 机器学习预测
特征工程生成10个变量,包括PSAD、Age×PSA等交互项。Boruta算法确定PSAD、DRE、PSA为关键特征。GLM在训练集上经5折交叉验证达到AUC=0.816,最终模型在测试集阈值设为0.221时表现最优。
3.3 预测模型比较
GLM的AUC为0.833(95%CI:0.762-0.904),显著优于PSA模型(p=0.005)。灵敏度达0.80,较PSA+DRE模型(0.39)提高105%,特异性为0.81。校准曲线显示GLM拟合良好(Hosmer-Lemeshow p=0.157),而PSA模型存在明显校准错误(p=0.005)。
DCA分析表明,在风险阈值>7%时GLM提供最大净收益。在10%阈值下,每1000例筛查可避免442例不必要活检,漏诊率仅19.6%,活检避免率与PSA模型(67.4%)相当。
3.4 模型解释
标准化系数显示PSAD(0.283)影响最强,DRE(0.260)和PSA(0.251)次之,PV(-0.146)呈负相关。交互项中Age×PSA(0.061)有统计学意义,而PV×PSA和PV2影响微弱(p>0.49)。偏依赖图证实PSAD、PSA与csPCa概率正相关,PV增大则风险降低。
研究结论强调特征工程能有效识别csPCa预测因子,PSAD作为最易获取的指标贡献22%解释度。模型校准良好且临床效用显著,但需多中心研究验证。与多参数磁共振成像(multiparametric Magnetic Resonance Imaging, mpMRI)和前列腺健康指数(Prostate Health Index, PHI)等新技术结合,可能进一步提升诊断精度。该研究为降低过度诊疗提供了经济有效的策略,尤其适用于医疗资源有限场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号