《Andrology》:Machine Learning-Based Prediction of Sperm Retrieval Outcomes in Patients With Klinefelter Syndrome: A Multicenter Study With External Validation
编辑推荐:
**背景**:克莱恩费尔特综合征(Klinefelter syndrome)是男性不孕不育的常见遗传学病因,睾丸精子提取(testicular sperm extraction, TESE)可使部分患者获得精子。然而,由于该综合征在临床和内分泌表现上具有高度异
**背景**:克莱恩费尔特综合征(Klinefelter syndrome)是男性不孕不育的常见遗传学病因,睾丸精子提取(testicular sperm extraction, TESE)可使部分患者获得精子。然而,由于该综合征在临床和内分泌表现上具有高度异质性,预测TESE成功仍具挑战性。
**目的**:研究人员旨在开发并外部验证基于机器学习的预测模型,利用常规可获得的临床、激素及睾丸参数预测克莱恩费尔特综合征不孕不育患者的精子取出结果。
**方法**:该多中心回顾性研究纳入了470例于2021年1月至2025年11月期间接受TESE的克莱恩费尔特综合征不孕不育患者。来自12个中心的数据(n = 307)构成内部数据集,并被随机分为训练集(80%)和测试集(20%);来自一个独立中心的数据(n = 163)用于外部验证。五种有监督机器学习算法——随机森林(Random Forest)、决策树(Decision Tree)、自适应提升(AdaBoost)、梯度提升(Gradient Boosting)和极端梯度提升(Extreme Gradient Boosting)——采用重复分层五折交叉验证(五次重复)进行开发。模型性能通过准确率、F1值、灵敏度、特异度、受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUROC)和约登指数(Youden's J index)进行评估。模型可解释性通过沙普利可加性解释(Shapley additive explanations, SHAP)进行评估。
**结果**:在内部交叉验证中,所有基于集成学习的模型均表现出较高的判别性能(平均AUROC > 0.95)。在外部验证中,各模型性能有所下降;然而,随机森林模型实现了最高的准确率(0.83)、AUROC(0.95)和约登指数(0.73),表明其具有更优的泛化能力。SHAP分析确定卵泡刺激素(follicle-stimulating hormone, FSH)为最具影响力的预测因子,其次为总睾酮、黄体生成素(luteinizing hormone, LH)和双侧睾丸体积。较高的FSH和LH水平与精子取出概率降低相关,而较高的睾酮水平和较大的睾丸体积则增加了成功取精的可能性。
**结论**:机器学习模型能够准确且可解释地预测克莱恩费尔特综合征患者的精子取出结果。在评估的算法中,随机森林在外部验证期间表现出最稳健且临床平衡的性能。将基于机器学习的预测工具整合入临床,可能有助于克莱恩费尔特综合征不孕不育管理的个体化咨询和决策制定。
克莱恩费尔特综合征作为男性最常见的性染色体非整倍体疾病,其典型核型为47,XXY,以原发性睾丸功能衰竭、高促性腺激素性性腺功能减退和生精障碍为特征。尽管该病在活产男婴中的发生率约为0.1%–0.2%,但由于表型变异大、缺乏典型临床表现,大量患者未能得到诊断。辅助生殖技术尤其是常规和显微切割睾丸精子提取(cTESE和mTESE)的发展,使部分克莱恩费尔特综合征患者得以获得精子,但精子取出成功率差异显著,可靠的术前预测指标缺乏,给医患沟通和临床决策带来困难。传统统计方法如logistic回归基于预设的线性关系,难以捕捉临床、激素和睾丸参数之间复杂的非线性交互作用。在此背景下,发表于《Andrology》的该研究旨在开发并外部验证机器学习模型,以预测该类患者的精子取出结局,重点关注准确性、泛化能力和可解释性,并遵循TRIPOD-AI推荐。
该研究纳入了13个中心2021年1月至2025年11月期间470例接受TESE的克莱恩that综合征不孕不育患者,其中12个中心307例为内部数据集,病例最多的单一中心163例作为外部验证队列。研究人员采用Python环境下的NumPy、pandas、scikit-learn和XGBoost等科学计算库,对内部数据集进行z-score标准化和训练中位数填充等预处理,以8:2分层随机分割训练集与测试集,运用随机森林、决策树、AdaBoost、梯度提升和极端梯度提升五种有监督机器学习算法,通过重复分层五折交叉验证(五次重复)进行模型开发,并以校准曲线和布里尔分数(Brier score)评估模型校准度。性能评价指标涵盖准确率、F1值、灵敏度、特异度、AUROC和约登指数,同时采用SHAP分析解析特征贡献。
研究结果显示患者特征如下:总体上,成功取精者与未成功者在年龄、体重指数(body mass index, BMI)、合并症、既往TESE史、嵌合体状态、睾丸炎病史、精索静脉曲张、吸烟史等方面无显著差异,但右侧睾丸体积(5.50 ± 3.72 vs. 4.35 ± 3.37 mL, p = 0.002)和左侧睾丸体积(5.45 ± 3.72 vs. 4.28 ± 3.41 mL, p = 0.001)在成功组显著更高。内分泌参数方面,成功组总睾酮显著更高(329.57 ± 112.80 vs. 197.56 ± 85.46 ng/dL, p < 0.001),而FSH(38.33 ± 15.79 vs. 13.08 ± 11.51 IU/L, p < 0.001)和LH(18.46 ± 9.67 vs. 14.63 ± 8.68 IU/L, p < 0.001)在未成功组显著升高。手术方式(mTESE vs. cTESE)与结局无显著关联(p = 0.562)。内部数据集分析结果与总体一致;外部验证队列则显示年龄为显著差异因素(p = 0.002),年轻患者取精成功率更高,但睾丸体积差异未达统计学意义。
机器学习模型性能方面,在内部交叉验证中,所有集成模型均表现优异,平均准确率超过0.91,XGBoost(0.931 ± 0.038)和梯度提升(0.927 ± 0.037)准确率最高,各模型平均AUROC约为0.96;内部测试集梯度提升准确率最高(0.935)。外部验证时各模型性能均下降,但随机森林保持最高准确率(0.834)、AUROC(0.953)和约登指数(0.726),F1值(0.697)亦为最高,表明其在独立数据集中具有最优的泛化能力和临床平衡性。灵敏度方面,外部验证时多数模型保持约0.91的高灵敏度;特异度则以随机森林(0.814)和AdaBoost(0.822)相对较高。校准分析显示,交叉验证和内部测试时集成模型校准良好,但外部验证时校准度下降,随机森林布里尔分数最低(0.108),保持了最稳定的概率预测可靠性。
最优预测模型的确定为:基于外部验证的综合表现,随机森林被选定为预测精子取出结局的主要模型。该模型在独立队列中实现了最高的AUROC和约登指数,同时保持了稳定的灵敏度和相对较高的特异度,其抗过拟合能力、非线性关系建模能力以及特征交互和噪声的稳健性使其优于其他算法。
SHAP分析结果如下:在随机森林模型中,FSH为最具影响力特征,高FSH值与取精成功概率降低相关;总睾酮为第二重要特征,高水平增加成功可能性;LH升高则降低取精概率;双侧睾丸体积亦为重要预测因子,较大体积贡献正向预测。其他变量如雌二醇、BMI、吸烟状态、催乳素、精液量和精液pH等SHAP值较小,既往TESE史、精索静脉曲张、嵌合体状态、手术方式等分类变量影响甚微。这表明模型主要依赖内分泌标志物和睾丸体积进行判别,与克莱恩费尔特综合征的病理生理机制高度一致。
讨论部分,研究人员首先回顾了克莱恩费尔特综合征的临床特征及TESE在该类患者中的应用现状,指出尽管已识别多种预测因素,但尚无验证的综合预测工具。传统统计方法在预测精子取出结局方面存在局限,机器学习通过整合多维数据、建模复杂非线性关系展现出优势。该研究的多变量分析确认了睾丸体积和内分泌参数的关键作用:睾丸体积在整体队列和内部数据集中与成功取精显著相关,反映残留曲细精管完整性对局灶性生精的决定性意义;内分泌参数方面,总睾酮在全部数据集中均为强区分因子,FSH和LH升高则提示支持细胞功能障碍和进行性生精小管退化。值得注意的是,年龄在内部数据集中无显著差异,但在外部队列中年轻患者成功率更高,这一不一致性凸显了该综合征的多因素异质性和多变量预测方法的必要性。
模型比较方面,所有集成模型在内部验证中表现卓越,但外部验证时性能下降,反映了真实世界的变异性。外部验证队列较高的取精成功率提示可能存在数据集漂移,可能与患者选择、转诊模式或中心特异性临床实践有关。随机森林在此情况下仍保持最佳判别性能和校准稳定性,归因于其固有的抗过拟合特性和对特征交互的鲁棒性。SHAP分析的可解释性增强了模型的临床可信度,确认FSH、总睾酮、LH和睾丸体积为主要驱动因素,其方向性与已知的病理生理机制一致:高FSH反映支持细胞功能受损,高睾酮提示莱迪希细胞储备较好,有利于生精。其他变量增量预测价值有限,但并不等同于临床无关。
研究局限性包括:回顾性设计引入潜在选择偏倚;激素测量为单一时点;外部验证来自单一高容量中心,可能存在中心相关差异;部分文献报道的预测因子如抑制素B和睾丸组织病理学因术前不可用或数据不完整而未纳入;中心间变异和术者因素可能作为混杂因素影响结局。
研究结论:研究人员开发并外部验证了基于机器学习的克莱恩费尔特综合征患者精子取出结局预测模型。随机森林模型在判别性能、校准度和泛化能力之间取得了最有利的平衡。SHAP分析确认内分泌标志物和睾丸体积是预测的主要驱动因素,提供了生物学合理且临床可解释的洞见。该方法为克莱恩费尔特综合征的个体化生育咨询和决策制定迈出了有意义的一步。