
-
生物通官微
陪你抓住生命科技
跳动的脉搏
从临床试验到实际应用:介绍一种用于检测阿片类药物使用障碍研究中终点偏倚的计算框架
《Drug and Alcohol Review》:From Clinical Trials to Real-World Impact: Introducing a Computational Framework to Detect Endpoint Bias in Opioid Use Disorder Research
【字体: 大 中 小 】 时间:2025年12月09日 来源:Drug and Alcohol Review 2.6
编辑推荐:
临床试验终点作为算法可能存在性能偏差,本文开发开源的DAB流程管道检测该偏差,通过F1分数和AUROC评估内外部性能。结果表明F1稳定但AUROC受人口结构影响,内部优化导致外部泛化下降,提出算法偏差的权衡问题。
临床试验的终点是一系列用于执行特定任务的指令(用于衡量治疗效果),因此它们本质上属于算法。这就意味着这些终点可能存在算法偏见:在不同的人群中,其内部和外部表现可能会存在差异,从而影响研究的公平性、有效性和临床决策的准确性。
我们开发了一个开源工具“Detecting Algorithmic Bias (DAB) Pipeline”,使用Python语言来识别终点“性能差异”——即随着少数族裔参与者比例的变化而产生的特定算法偏见。该工具通过F1分数和接收者操作特征曲线下面积(AUROC)等指标,评估在人口统计特征匹配的测试数据上的内部表现以及在人口统计特征多样化的验证数据上的外部表现。我们将该工具应用于具有代表性的阿片类药物使用障碍(OUD)相关临床试验的终点分析中。
无论少数族裔参与者的比例如何变化,F1分数都保持稳定,这表明在精确度和召回率之间的平衡(F1值)具有稳定性。相比之下,AUROC指标更为敏感,能够揭示出显著的性能差异。在人口统计特征较为均匀的群体中进行训练可以提高内部表现(即在同一群体内的准确性),但会严重损害外部泛化能力(即在不同群体内的准确性)。这种模式揭示了一个“终点偏见权衡”问题:即是在具有均匀特征的群体中优化性能,还是在现实世界中实现更广泛的适用性之间做出选择。
对于某一特定人群特征而言,如果临床试验终点表现始终稳定,那么在人群特征发生变化时,其泛化能力可能会下降,从而引入偏见。在训练数据中增加少数族裔的比例能够显著提高研究的泛化能力。这种“终点偏见权衡”强调了在OUD相关临床试验中招募具有多样性的受试者的重要性。DAB工具帮助研究人员系统地识别出哪些终点可能存在“性能差异”(即偏见)。作为一个开源工具,它促进了端点的透明评估,并有助于选择在人口统计特征上具有稳定性的终点指标。
作者声明没有利益冲突。
本研究支持的数据可在Comprehensive R Archive Network网站上公开获取,网址为:https://cran.r-project.org/package=public.ctn0094data。
生物通微信公众号
知名企业招聘