综述:理解用于儿童保护预测的机器学习模型的开发、性能、公平性和透明度:一项系统评价

《Child Abuse & Neglect》:Understanding the development, performance, fairness, and transparency of machine learning models used in child protection prediction: A systematic review

【字体: 时间:2025年08月08日 来源:Child Abuse & Neglect 3.4

编辑推荐:

  儿童保护预测的机器学习模型开发、验证与透明度评估:系统综述

  在当今社会,儿童保护系统面临诸多挑战,包括决策效率低下、决策失误以及某些群体(如原住民家庭)在系统中的过度代表等问题。随着人工智能技术的快速发展,特别是机器学习(Machine Learning, ML)在决策支持系统中的应用,为解决这些问题提供了新的思路。然而,尽管这些模型在理论上具有潜力,其实际应用仍面临方法学上的不足,包括对公平性的考虑不充分、模型透明度低以及可重复性差等问题。因此,本文旨在系统性地分析当前儿童保护预测模型的开发、验证、性能评估、公平性整合以及模型解释性和透明度的操作化。

### 1. 研究背景与挑战

儿童保护系统的核心任务是识别和干预儿童虐待、忽视等风险,以保障儿童的安全与福祉。然而,传统的决策方式往往依赖于个案工作者的专业判断,这种判断可能受到个人偏见、信息不足或系统性不平等的影响。例如,研究指出,不同地区的个案工作者在评估儿童风险时,可能存在较大的主观差异,这可能导致对某些群体(如少数族裔、低收入家庭等)的不公平对待。此外,传统决策方式可能忽视了儿童长期风险的复杂性,导致某些高风险儿童被遗漏,而另一些低风险儿童则被误判为高风险,从而接受不必要的干预。

在这样的背景下,机器学习模型被引入儿童保护决策系统,以提供更客观、数据驱动的风险评估。这些模型通常基于行政医疗记录、儿童福利数据以及司法或犯罪数据,通过分析历史数据来预测未来儿童保护相关事件的发生概率。然而,尽管这些模型在某些领域取得了进展,其方法学上的不成熟仍然是一个关键问题。研究发现,许多模型在设计过程中缺乏对公平性的深入考虑,未能有效整合公平性机制,同时也未能充分展示其解释性和透明度,这可能导致公众对模型的不信任,进而影响其在实际工作中的应用。

### 2. 方法学与研究设计

为了系统性地评估当前儿童保护预测模型的方法学质量,本研究采用了系统综述的方法,并遵循了首选报告项目(Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA)指南。此外,模型透明度的评估基于《多变量预测模型个体预后或诊断+人工智能报告》(Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis + Artificial Intelligence, TRIPOD+AI)标准,而研究的偏倚风险和模型适用性则基于《预测模型偏倚风险评估工具》(Prediction model Risk Of Bias ASsessment Tool, PROBAST)标准。

研究的纳入标准包括:发表时间在2020年1月1日至2024年9月20日之间;提供完整文本;预测未来儿童保护相关结果,包括但不限于虐待指控、福利介入、安置决策等。排除标准包括:发表时间早于2020年1月1日,以避免与先前综述(Hall et al., 2024)重叠;未提供完整文本的研究;模型未预测儿童保护相关结果;模型基于非数据驱动的方法(如传统风险评估);仅探讨风险因素与儿童保护结果之间关联的研究(如研究虐待行为的重复性);以及用于检测或诊断儿童保护相关结果的研究(如通过视频图像检测儿童暴力或通过身体伤痕诊断虐待)。

研究数据来源于多个电子数据库,包括刑事司法摘要(Criminal Justice Abstracts)、Scopus、社会科学数据库(Social Sciences Database)、Web of Science、PubMed、Embase和CINAHL Complete。此外,参考文献的手工搜索也用于识别可能被遗漏的研究。最终,共纳入11项研究,这些研究来自美国、新西兰、丹麦、荷兰和韩国等国家。

### 3. 模型开发与验证

纳入的研究中,模型的开发和验证方法呈现出多样性。这些模型主要使用了监督分类模型(如二元分类、决策树、支持向量机)、回归模型和集成方法(如随机森林、梯度提升决策树等)。模型的输入数据包括行政医疗记录、儿童福利记录、刑事司法和法院数据等,这些数据通常涉及儿童的社会经济特征、家庭结构、健康状况、司法记录等。部分研究还使用了自我报告数据,如美国国家儿童健康调查(NSCH)数据,以捕捉儿童经历的不良童年经历(Adverse Childhood Experiences, ACEs)。

在模型验证方面,大多数研究采用了持保留样本(hold-out method)的方法,将数据分为训练集和测试集。此外,一些研究使用了时间分割法(temporal split)来进行外部验证,以评估模型在新数据上的表现。例如,Chor et al. (2023) 使用了时间分割法,将数据分为开发和内部验证样本,以及外部验证样本,以确保模型的泛化能力。然而,值得注意的是,只有少数研究明确描述了模型的验证过程,尤其是在外部验证方面。

模型的开发还涉及数据不平衡的处理。由于儿童保护系统中,高风险事件(如安置、虐待指控)往往较为罕见,因此研究者通常采用不同的技术来处理这一问题,如调整多数类权重、使用Bootstrap重采样、或采用分层抽样(stratified sampling)来平衡训练和测试数据集中的样本分布。例如,Ahn et al. (2024) 在模型中引入了调整多数类权重的参数,以提高少数类(如高风险儿童)在模型中的影响力。Chor et al. (2023) 则通过200次Bootstrap重采样来减少数据不平衡带来的偏差。

此外,模型的超参数调优也是研究中常见的做法。超参数是控制机器学习模型学习过程的变量,而超参数调优则是选择最佳参数设置以提高模型性能的过程。例如,Han et al. (2021) 使用网格搜索(grid search)方法对多个模型进行了超参数调优,以优化模型的AUC、敏感度和特异度。然而,部分研究未明确描述其超参数调优的具体方法,这可能影响模型的性能评估。

### 4. 模型性能评估

模型的性能评估通常涉及多个指标,包括区分度(discrimination)、分类性能(classification)和校准度(calibration)。区分度衡量模型在区分高风险和低风险个体方面的能力,通常使用AUC(Area Under the Curve)或C-statistic进行评估。例如,Ahn et al. (2021) 使用了AUC和ERB(Error Rate Balance)来评估模型的区分度,而Vaithianathan et al. (2020) 则使用了AUC和Matthews Correlation Coefficient(MCC)作为主要评估指标。AUC值在研究中呈现较大的差异,从0.661到0.924不等,这表明模型的区分能力存在显著的不一致性。

分类性能则涉及模型在分类任务中的表现,如准确率(accuracy)、精确率(precision)、召回率(recall)和F1分数。例如,Han et al. (2021) 使用了精确率和召回率来评估模型在预测虐待复发方面的表现,而Ahn et al. (2021) 使用了F1分数来衡量模型的综合性能。然而,只有少数研究提供了完整的分类性能数据,且部分研究的性能指标未被充分解释。

校准度衡量模型预测结果与实际结果之间的吻合程度。例如,Chor et al. (2023) 使用了偏差校正的收缩斜率(bias-corrected shrinkage slope)来评估模型的校准性能,结果显示模型的校准度较高,且模型过拟合的风险较低。然而,仅有三项研究提供了校准度的详细评估,这表明在模型校准方面的研究仍然不足。

### 5. 模型公平性

在模型开发过程中,公平性是一个关键考虑因素。目前,只有四项研究明确整合了公平性机制,其中三项使用了预处理阶段的“公平性通过无知”(fairness-through-unawareness)方法,即在模型开发中排除特定的受保护属性(如种族、性别等),以减少这些属性对预测结果的影响。然而,这种方法受到批评,因为它可能忽略其他与预测相关的变量(如居住地、家庭收入等),从而导致模型缺乏对实际风险的全面理解。

相比之下,Purdy & Glass (2023) 使用了后处理阶段的“群体公平性调整”(group-specific thresholding)方法,通过调整不同群体的阈值来平衡错误率(如假阳性率和假阴性率)。这种方法在一定程度上提高了模型的公平性,但并未对模型的性能产生显著影响。此外,部分研究还探讨了其他公平性措施,如标准化预测变量以减少不同尺度或单位的数据对模型的影响,以及年龄中性化预测变量以避免对某些年龄组的偏见。

尽管有部分研究在模型设计中考虑了公平性,但总体来看,儿童保护预测模型在公平性整合方面仍存在明显不足。例如,只有四项研究明确讨论了公平性问题,而大多数研究并未详细描述如何在预处理、模型开发或后处理阶段整合公平性。此外,研究者在模型开发过程中也缺乏对公平性评估的系统性,如未提供公平性指标的详细说明或未进行跨群体的公平性比较。

### 6. 模型解释性与透明度

模型的解释性和透明度是确保其在实际应用中被信任和接受的关键因素。在本研究中,大多数模型通过使用图形化方法(如ROC曲线、P-R曲线、特征重要性图和SHAP图)来增强其解释性。这些图形化方法可以帮助用户理解模型的决策过程,从而提高模型的可解释性。

然而,尽管这些方法被广泛使用,研究中仍然存在一些透明度问题。例如,只有四项研究根据TRIPOD+AI标准描述了可重复的模型,而其余研究由于缺乏明确的方法学细节和代码共享,其模型的可重复性受到质疑。此外,许多研究未能提供足够的信息以支持模型的透明度,如未详细描述数据预处理步骤、未提供代码共享,或未说明模型如何应用于新的人群。

透明度的不足还体现在模型的使用过程中。例如,一些研究未明确说明模型如何在实际工作中被使用,或未提供模型的使用指南和用户交互要求。这可能影响模型的实用性,尤其是在需要高透明度和可解释性的领域,如儿童保护决策。

### 7. 偏倚风险评估

根据PROBAST标准,所有纳入的研究都被评估了偏倚风险和模型适用性。结果表明,九项研究被评定为高偏倚风险,而两项研究的偏倚风险未明。高偏倚风险通常与研究设计的不足有关,如样本选择偏差、预测变量的不完整描述或未充分评估模型的性能指标。例如,Trudeau et al. (2023) 在模型开发中使用了相同的预测变量和实际结果数据,导致模型存在循环逻辑,从而影响其性能评估的客观性。

此外,模型的适用性也是一个重要问题。十项研究被评定为适用性问题不明确,而一项研究(Trudeau et al., 2023)被评定为高适用性风险。适用性问题通常涉及模型在不同环境或人群中的泛化能力,如模型是否能够应用于其他地区或文化背景下的数据。

### 8. 讨论与挑战

尽管本研究中纳入的模型在技术上具有一定的先进性,但其在实际应用中仍面临诸多挑战。首先,公平性整合仍然是一个薄弱环节。大多数模型仅在预处理阶段排除了受保护属性,而未在模型开发或后处理阶段进行更深入的公平性调整。此外,模型的性能与公平性之间存在权衡,提高公平性可能会降低模型的预测能力,这需要在模型设计中进行权衡和优化。

其次,模型的解释性和透明度仍然不足。尽管一些研究使用了图形化方法来增强模型的可解释性,但大多数研究未能提供足够的细节以支持模型的透明度。例如,代码共享和数据共享的缺失使得模型的可重复性受到质疑,而模型的使用指南和用户交互要求的缺失则可能影响其在实际工作中的应用。

第三,模型的适用性问题也需要进一步探讨。许多模型基于特定地区的数据,可能难以在其他地区或文化背景下应用。此外,模型的性能评估通常仅限于开发数据,缺乏对新数据的外部验证,这可能影响其在实际工作中的可靠性。

### 9. 未来方向与建议

为了提高儿童保护预测模型的公平性、解释性和透明度,研究者需要采取一系列措施。首先,应采用更先进的公平性技术,如在模型开发过程中整合公平性机制,而不仅仅依赖于预处理阶段的“公平性通过无知”方法。此外,研究者应加强与利益相关者的合作,确保模型的设计和验证能够反映实际需求和伦理考量。

其次,模型的透明度应得到进一步提升。这包括提供完整的数据预处理步骤、开放源代码以及详细的模型使用指南。此外,研究者应考虑使用合成数据或联邦学习(federated learning)等方法,在保护数据隐私的前提下提高模型的透明度。

最后,模型的适用性应得到更充分的评估。这包括对模型在不同环境和人群中的表现进行测试,以及探索模型的泛化能力。同时,政策制定者和实践者应共同努力,推动公平性技术的整合和透明度的提升,以确保这些模型能够真正服务于儿童保护工作的目标。

### 10. 结论

本研究是首次使用TRIPOD+AI和PROBAST标准对儿童保护预测模型的透明度和偏倚风险进行评估。研究结果表明,尽管这些模型在技术上取得了一定进展,但其在公平性、解释性和透明度方面仍存在显著不足。未来的研究和实践应关注如何更有效地整合公平性机制,提高模型的透明度和可重复性,并确保模型能够适应不同的环境和人群。这些改进将有助于提升儿童保护系统的决策质量,从而更好地服务于儿童和家庭的福祉。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号