临床决策工具开发中的算法偏倚风险:一项基于690项CDI的系统性评价
《npj Digital Medicine》:Potential for Algorithmic Bias in Clinical Decision Instrument Development
【字体:
大
中
小
】
时间:2025年12月11日
来源:npj Digital Medicine 15.1
编辑推荐:
语
为解决临床决策工具(CDI)在数据驱动标准化中可能加剧医疗不平等的问题,研究人员对MDCalc平台690项CDI的开发过程进行系统性分析,发现参与者人口结构(73%为白人、55%为男性)、研究者地域分布(52%在北美)、预测变量使用(1.9%含种族变量)及结局定义(26%需随访)均存在潜在偏倚风险。该研究强调CDI开发需透明报告偏倚因素,并建议采用“模型卡片”框架提升临床应用的公平性。
随着人工智能与数据驱动技术深度融入医疗领域,临床决策工具(Clinical Decision Instruments, CDI)已成为辅助医生诊断、预测预后和制定治疗方案的重要工具。这类工具通过标准化临床实践路径,理论上可减少诊疗过程中的主观差异,提升整体医疗质量。然而,标准化背后潜藏的风险近年逐渐浮出水面:若CDI的开发数据或设计存在系统性偏倚,其“一刀切”的逻辑可能固化甚至加剧医疗资源分配的不平等。例如,若开发队列过度代表某个人群,模型对少数群体的预测准确性可能显著下降,最终导致本应受益的技术反而放大健康差距。
为量化评估这一风险,美国加州大学伯克利分校与旧金山分校的研究团队联合微软研究院,在《npj Digital Medicine》发表了一项开创性研究。团队对全球广泛使用的医疗计算平台MDCalc收录的690项CDI进行系统性剖析,首次从参与者人口学、研究者背景、预测变量选择及结局定义四个维度,全面揭示了CDI开发中潜在的算法偏倚来源。
研究团队从MDCalc提取截至2023年3月的所有CDI元数据,并通过文献检索获取652篇原始开发研究的全文。关键分析方法包括:
- 1.人口学统计:对比CDI开发队列的种族、性别分布与美国人口普查数据;
- 2.研究者地理分析:通过作者 affiliation 定位研究团队地域分布,并利用ChatGPT(GPT-3.5)推断作者性别(验证准确率99%);
- 3.预测变量分类:将变量按采集方式分为患者层面(如年龄、种族)、症状体征(如腹痛)等,重点关注种族、家族史等敏感变量;
- 4.结局定义筛查:人工识别依赖主动/被动随访的CDI,分析其可能引入的随访偏倚。
CDI开发队列的人口代表性存在显著偏差。与美国总人口相比,白人参与者比例过高(73% vs. 60.1%, p=0.012),拉丁裔代表不足(6.3% vs. 18.5%, p=0.002)。性别分布更是严重倾斜:男性参与者占比55%,显著高于女性(p<10-5),且65%的CDI队列中男性比例更高。更值得注意的是,25项CDI完全基于单性别队列开发(13项全男性、12项全女性),其中部分工具如汉密尔顿抑郁量表(HAM-D)并非针对性别特异性疾病,这引发了对模型泛化性的担忧。
分析显示,CDI开发团队的地理分布高度集中于欧美地区。北美(52%)和欧洲(31%)作者占比远超其全球人口比例,仅美国作者就占45%(p<10-5)。作者性别失衡更为突出:男性作者占比高达71%,与全球人口性别结构形成尖锐对比。这种“学术中心化”格局可能导致CDI的开发视角与疾病谱系过于局限,例如基于西方人群开发的肠易激综合征(IBS)诊断工具(如Kruis评分)假设女性患病率更高,但亚洲研究显示男女患病率相当,直接挑战工具的跨文化适用性。
- 1.种族与民族(Race and Ethnicity):1.9%(13/690)的CDI直接使用该变量,其可能编码医疗资源获取差异等结构性不平等;
- 2.腹痛:依赖临床医生主观评估严重程度,易受认知偏差影响;
- 3.家族史:1.4%的CDI将其作为风险因子,但可能对移民或家族信息缺失者造成不公。
尽管这些变量本身未必导致偏倚(如种族变量若恰当使用或可校正数据质量差异),但其敏感性要求开发者和临床使用者高度警惕。
26%(177/690)的CDI依赖随访数据定义结局,其中10%需主动随访(如电话或面访)或混合随访。这种设计可能因社会经济差异引入偏倚——低收入群体更易因交通、通讯障碍失访。例如加拿大头部CT规则(Canadian CT Head Rule)直接将失访患者数据排除分析,而HEART评分(HEART Score)和改良美国国立卫生研究院卒中量表(Modified NIH Stroke Scale/Score)则对缺失数据采用假设填充,这些处理方式可能扭曲模型对弱势群体的适用性。
本研究首次大规模实证揭示了CDI开发全链条中的偏倚风险点。作者强调,算法偏倚的治理需多方协同:开发者应在设计阶段优化队列代表性,并在“模型卡片”(Model Card)中透明报告局限性;平台(如MDCalc)需整合偏倚评估框架;临床使用者则需结合工具适用范围审慎应用。值得注意的是,偏倚治理并非简单剔除敏感变量(如种族),而需权衡其校正数据失衡的潜在价值。未来研究应深入探索主观临床评估、高价检测使用等偏倚来源,并通过跨人群验证推动CDI的公平进化。唯有如此,数据驱动的医疗标准化才能真正迈向普惠与公正。
- •CDI筛选标准:仅纳入MDCalc标注为“原始/主要参考文献”的开发研究,排除非英语文献、纯验证性研究及无法获取全文的文献。
- •性别推断技术:通过ChatGPT对作者姓名进行性别分类,提示模板为“名字{name}更常见于男性还是女性?”,并以作者公开页面信息为金标准验证。
- •随访分类定义:主动随访含电话/面访;被动随访指利用电子病历或注册数据库;前瞻性观察研究归类为被动随访。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号