《Middle East Fertility Society Journal》:Comparison of two ultrasound-based scoring systems for predicting pregnancy outcomes in IVF-embryo transfer patients
编辑推荐:
目的:子宫内膜容受性(endometrial receptivity)是体外受精-胚胎移植(IVF-ET)中胚胎着床与成功妊娠的关键决定因素。尽管已有基于超声的评分系统被用于改善其评估,但其预测效能仍不明确。本研究旨在评估Applebaum评分系统及其改良版本
目的:子宫内膜容受性(endometrial receptivity)是体外受精-胚胎移植(IVF-ET)中胚胎着床与成功妊娠的关键决定因素。尽管已有基于超声的评分系统被用于改善其评估,但其预测效能仍不明确。本研究旨在评估Applebaum评分系统及其改良版本在预测临床妊娠结局中的诊断价值。方法:这项回顾性研究纳入341例接受IVF-ET的患者。于胚胎移植当日行经阴道超声(transvaginal ultrasound)检查,采用Applebaum评分系统(A)与改良版本(B)评估子宫内膜容受性。临床妊娠定义为胚胎移植后35天经超声证实存在孕囊伴胎儿心搏。采用受试者工作特征(ROC)曲线分析评估预测效能。结果:两种评分系统在妊娠组与非妊娠组间的评分差异均无统计学意义(P>0.05)。ROC分析显示区分能力较差,系统A的曲线下面积(AUC)为0.54(95% CI:0.47–0.60),系统B的AUC为0.56(95% CI:0.50–0.63)。结论:两种评分系统预测效能均较差,AUC接近0.5。这些发现表明其临床实用性有限,基于超声的评分系统不应单独用作IVF结局的预测因子。
研究背景与必要性:子宫内膜容受性(endometrial receptivity,ER)是体外受精-胚胎移植(in vitro fertilization-embryo transfer,IVF-ET)中胚胎着床与成功妊娠的关键决定因素。超声(ultrasound)是目前临床评估ER的主要工具,主要关注子宫内膜厚度、形态及血流等参数,但单个参数的预测价值有限,难以充分反映着床背后的复杂生物学过程。为克服此局限,研究者提出了整合多参数的复合评分系统,其中Applebaum评分系统(Applebaum scoring system)应用较广,但未纳入子宫内膜容积、内膜-肌层交界区等潜在重要指标;此后出现了改良Applebaum评分系统(modified Applebaum scoring system),去除了再现性较差的指标并增加了血管相关参数。然而这两类超声评分系统在临床中的真实预测价值仍不明确,因此研究人员开展此项回顾性研究,在IVF-ET人群中对比评估原始与改良Applebaum评分系统对临床妊娠结局的预测效能,该研究发表于《Middle East Fertility Society Journal》。研究人员发现两种系统的曲线下面积(area under the curve,AUC)均接近0.5,无实际判别能力,不宜单独作为IVF结局的预测工具,这对规范临床超声评估策略、推动更综合的预测模型开发具有重要参考意义。
关键技术方法:研究人员采用回顾性队列设计,样本来源于2018年1月至2020年12月在某生殖中心接受冻融胚胎移植(frozen-thawed embryo transfer)的341例患者,严格限定入组标准为月经规律、适合冻融囊胚移植、无子宫内膜息肉、肌瘤、宫腔粘连等病变且有移植当日超声评估资料,排除染色体异常、子宫畸形、免疫性疾病、血栓倾向等可能影响妊娠的因素。所有患者于胚胎移植当日排空膀胱后由经验丰富的超声医师使用Voluson E8经阴道探头行超声检查,记录子宫内膜厚度、形态(三层或非三层)、血流(差、中等、丰富)等参数;分别按原始Applebaum系统(7项指标:厚度、形态、子宫动脉搏动指数(pulsatility index,PI)、阻力指数(resistance index,RI)、内膜血流、内膜容积、内膜蠕动,满分20分)和改良系统(6项指标:厚度、形态、子宫动脉PI、RI、内膜血流、子宫动脉舒张末期血流消失,满分20分)评分。主要结局为移植后35天经超声证实存在孕囊伴胎儿心搏的临床妊娠。统计上组间评分比较采用独立样本t检验,诊断效能采用受试者工作特征(receiver operating characteristic,ROC)曲线、AUC、灵敏度、特异度、阳性预测值(positive predictive value,PPV)、阴性预测值(negative predictive value,NPV)及Youden指数确定最佳截断值,使用SPSS 25.0分析,双侧P<0.05为差异有统计学意义。
研究结果
Patient characteristics:共纳入341例患者,平均年龄32.5±4.2岁,平均体重指数(body mass index,BMI)22.3±3.1 kg/m2,平均不孕年限4.2±2.8年;不孕原因以输卵管因素为主(43.1%),其次为男性因素(28.7%)和不明原因(19.4%);总临床妊娠率为48.1%(164/341)。研究人员通过基线资料描述确认了队列的一般特征。
Comparison of scores between pregnancy and non-pregnancy groups:原始Applebaum评分在妊娠组为13.71±3.40分,非妊娠组为13.35±3.26分;改良Applebaum评分在妊娠组为15.48±3.37分,非妊娠组为15.01±3.13分。两组间两种评分的差异均无统计学意义(原始P=0.252,改良P=0.076)。研究人员通过组间均值比较得出两种评分均未能有效区分妊娠与非妊娠人群。
Diagnostic performance of scoring systems:ROC分析显示原始Applebaum系统的AUC为0.533(95% CI:0.456–0.610),改良系统AUC为0.542(95% CI:0.465–0.619),均接近0.5,判别能力很差。原始系统最佳截断值为14分时灵敏度53.50%(95% CI:44.27–62.73)、特异度56.22%(95% CI:47.03–65.41);改良系统最佳截断值下灵敏度达74.52%(95% CI:66.31–82.73)但特异度仅34.05%(95% CI:25.43–42.67)。两系统的PPV与NPV均在48.95%–61.17%之间。研究人员通过诊断效能分析明确两种超声评分系统的预测价值均有限。
讨论部分总结:研究人员在讨论中指出,原始与改良Applebaum评分系统均表现较差,组间评分无显著差异,ROC的AUC接近0.5,说明简单整合多个超声参数并不能必然提升预测准确性。ER是涉及分子、免疫、内分泌等多因子的复杂过程,仅靠常规超声参数无法全面反映;并且这些评分未纳入胚胎质量、移植技术、黄体支持等重要临床变量,进一步限制其价值。该结果与部分研究报道的有限预测价值(如Wang等报道AUC=0.562)相符,但与Malhotra等报道的高灵敏度、特异度结果不同,差异可能源于人群、操作及评分权重不同。局限性包括回顾性设计未做多变量分析校正混杂、胚胎质量数据缺失、未分析移植胚胎数目与黄体支持等。技术上本研究用常规二维超声,而三维超声评估内膜容积与血流、弹性成像(elastography)、人工智能(artificial intelligence,AI)深度学习模型、多组学(转录组、蛋白组、代谢组)及内膜微生物组、子宫收缩测量等新兴手段可能提供更丰富信息。研究人员强调需构建融合超声参数、临床因素与分子数据的个体化智能模型。论文优势在于严格入排标准保证人群同质、固定移植当日由经验医师操作提升数据可靠性、同时对比两系统并用ROC量化诊断效能、样本量充足且统计方法规范。
结论部分翻译:总之,Applebaum与改良Applebaum评分系统在预测IVF-ET患者临床妊娠方面均表现较差,AUC接近0.5。这些发现表明基于超声的评分系统临床实用性有限,不应单独用作IVF结局的预测因子。未来研究应聚焦于将超声参数与临床、分子及组学数据整合,以开发更准确个体化的预测模型。