
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多基因风险评分与前列腺特异性抗原联合预测中危前列腺癌患者的死亡风险
【字体: 大 中 小 】 时间:2025年09月18日 来源:International Journal of Cancer 4.7
编辑推荐:
本研究创新性地结合多基因风险评分(PRS)与前列腺特异性抗原(PSA),利用机器学习算法构建了新型前列腺癌(PCa)风险预测模型。结果显示,基于21个单核苷酸多态性(SNP)的PRS模型可完美区分健康与癌样本(AUC=1),而结合Gleason评分与PSA的人工神经网络(ANN)模型能有效预测PCa死亡风险(敏感性90%,特异性68.8%)。该研究为临床提供了一种非侵入性、高精度的PCa进展预测工具,有望优化临床决策并降低过度诊疗风险。
前列腺癌(PCa)是全球男性第二常见癌症,在西方国家发病率居首位。然而,多数患者实际死于其他原因而非PCa本身,这凸显了区分惰性与侵袭性PCa的迫切需求。现有临床工具包括前列腺特异性抗原(PSA)异构体检测(如四激肽释放酶(4K)面板和前列腺健康指数(PHI)测试)、多因素风险计算列线图、尿液分析、细胞周期进展(CCP)评分、前列腺癌风险评估(CAPRA)评分和Gleason评分等。尽管工具多样,但其预测准确性仍需提升,尤其是PSA检测因缺乏特异性而难以可靠识别高危疾病。
遗传因素在PCa中扮演重要角色。全基因组关联研究(GWAS)已成功鉴定与PCa易感性相关的单核苷酸多态性(SNP),但单一SNP无法解释表型变异,因此多基因风险评分(PRS)应运而生。PRS通过累加个体携带的风险等位基因权重,量化遗传变异对疾病的综合贡献。尽管已有商业PRS模型用于PCa检测,但其临床广泛应用仍需大规模验证。
机器学习(ML)方法在医疗领域展现出强大预测能力,尤其在结合影像(MRI)、遗传特征和临床变量预测有临床意义的PCa方面。本研究旨在利用跨大西洋前列腺组(TAPG)经尿道前列腺切除术(TURP)队列,探索ML方法在预测中危PCa(Gleason评分6或7)侵袭性方面的潜力,以更准确区分需主动监测的低危患者和需干预的高危患者。
研究基于TAPG-TURP队列的2335例PCa样本,按Gleason评分涵盖低危至高危患者。样本分为死亡组(n=565,死于PCa)和存活组(n=1770,随访结束时存活或死于其他原因)。两组年龄匹配(最大差异4年),仅纳入具有PSA水平、Gleason评分、CAPRA评分且匹配的样本。
通过文献检索和GWAS目录下载,筛选出79个SNP和140个基因用于靶向深度测序。基因选择基于与PCa预后、进展或死亡率相关的报道,包括93个文献基因、6个甲基化评分相关基因、19个来自伦敦玛丽女王大学Wolfson人口健康研究所的试点研究基因,以及22个现有PCa检测模型基因。
从福尔马林固定石蜡包埋(FFPE)的TURP组织中提取DNA,经宏切割分离癌变区域。使用QIAamp DNA FFPE组织试剂盒提取DNA,并经NEBNext FFPE DNA修复混合液处理优化。文库制备采用Ion Ampliseq Library Kit 2.0-96LV,最终在Ion Proton平台上测序。
使用FastQC对原始序列进行质控,低质量样本(Phred质量评分<20)重新测序。最终162个样本(82例存活,80例死亡)通过质控,用于下游分析。
使用BWA软件将高质量读段比对至GRCh38.p13参考基因组,经SAMtools排序和去重。变异调用采用BCFtools,过滤参数包括QUAL>20、DP>10且<100、基因型质量高、等位基因计数>3。使用纽约基因组中心(NYGC)参考面板进行基因型插补,Eagle v2.4.1进行相位推断,Beagle 5.1进行插补。使用SnpEff和SnpSift表征变异效应,PLINK进行逻辑回归分析。
为携带变异的蛋白质编码基因分配GO术语,使用topGO进行过表征分析(KS检验),聚焦至少20个基因注释的GO术语。Reactome浏览器进行通路富集分析(FDR<0.05)。
PRS推导基于欧洲血统人群的GWAS汇总统计,仅保留插补评分>0.7的变异。使用lassosum惩罚回归方法计算PRS,调整人群分层效应。CAPRA评分通过多变量逻辑回归预测缺失的T分期后计算。
采用k折交叉验证(k=10)和决策树ML方法评估PRS区分癌与健康样本的能力。深度学习使用人工神经网络(ANN),以PRS、PSA、Gleason评分和CAPRA评分为输入,预测PCa死亡率。
使用Cox比例风险模型分析PRS、CAPRA评分、Gleason评分和PSA对PCa死亡的影响。Kaplan-Meier方法验证分组生存差异,显著性阈值p<0.05。
在162例Gleason评分6或7的PCa患者中,共调用7,303,437个变异,质控后524个SNP和INDEL用于插补。最终获得2,685个高质量变异,涉及269个基因。主成分分析显示死亡与存活样本无聚类差异。106个变异与侵袭性PCa显著相关(p<0.05),涉及GPR19、CLCNKB、FAM131C、SCN11A等10个基因,其OR值范围0.28-3.478。其中7个变异存在于ClinVar数据库,10个存在于COSMIC数据库。
变异基因显著富集131个GO术语,其中45个与调控过程相关。Reactome通路分析显示116条通路显著富集,23条涉及DNA损伤或修复,最高频SNP参与细胞对刺激和应激的反应。
基于21个SNP的PRS在健康与癌样本比较中表现优异:训练模型准确度100%,kappa=1,敏感性100%,特异性100%,AUC=1。逻辑回归确认PRS与PCa显著正相关(点二列相关=0.738,p<0.0001)。Youden指数分析确定最佳截断值为-0.0002。
在PCa样本中,PRS结合PSA和Gleason评分的ANN模型预测死亡风险的AUC=0.718,准确性53.57%,敏感性90%,特异性68.8%。单独使用PRS、PSA或Gleason评分时性能较低。Youden指数分析显示PSA最佳截断值为17.2 ng/mL(敏感性0.76,特异性0.61),Gleason评分最佳截断值为7(敏感性0.80,特异性0.49)。
多变量Cox模型显示PSA与死亡风险显著相关(HR=1.016,p<0.001),PRS因完全分离导致无限HR(p=0.0239)。Kaplan-Meier曲线证实PRS高分患者生存率下降。
在2335例样本中,PSA水平在死亡组显著更高(p<0.0001),与侵袭性显著相关(点二列相关=0.226)。CAPRA和Gleason评分在死亡组也显著更高(均p<0.0001),相关性强(点二列相关分别为0.304和0.32)。梯度提升机(gbm)、递归分割树(rpart)和支持向量机(svmRadial)模型使用PSA+Gleason时性能最佳(AUC=0.613)。
Cox模型显示PSA是良好预测因子(HR=1.02,p<0.0001),生存概率随PSA升高而降低。Kaplan-Meier曲线验证PSA高分患者生存时间缩短。
本研究首次将PRS与PSA、Gleason评分结合,通过ML模型成功预测PCa存在和侵袭性。PRS基于21个SNP,在区分健康与癌样本时达到完美性能(AUC=1),优于许多商用模型。对于侵袭性预测,联合模型AUC达0.718,敏感性高(90%),特异性适中(68.8%),显著克服了PSA单独使用的低特异性问题。
多数显著SNP位于非编码区,部分基因如GPR19、CLCNKB等已知间接参与癌症转移、增殖抑制和侵袭调控。尽管单个SNP效应微弱,但其累积效应通过PRS量化后展现出强大预测力。
PSA和Gleason评分传统上用于风险评估,但本研究证明其与PRS结合可大幅提升预测精度。ANN模型的应用进一步凸显了ML在整合多源数据方面的优势,为临床提供了一种非侵入性、高效益的决策工具。
研究局限性包括样本量较小、人群限于欧洲血统,且缺乏与标准诊断方法的直接比较。未来需在更大规模、多样化人群中验证,并评估其相对于现有临床路径的实际效益。一旦验证,该模型有望成为精准筛选高危患者、减少过度诊疗的有效手段,最终优化PCa管理策略。
生物通微信公众号
知名企业招聘