
-
生物通官微
陪你抓住生命科技
跳动的脉搏
解决自动疾病检测中的性别差异问题:对不同疾病类型下机器学习方法的广泛分析
《ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING》:Addressing Gender Disparities in Automatic Disease Detection: A Broad-Spectrum Analysis of Machine Learning Across Diverse Disease Types
【字体: 大 中 小 】 时间:2025年11月07日 来源:ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING 2.9
编辑推荐:
机器学习模型在疾病诊断中的应用需关注算法偏见与性别等人口统计属性的差异,本研究评估了八种ML流程(含性别敏感、堆叠集成及混合方法)在六组四类疾病数据集上的表现,发现堆叠集成在多数场景下效果最优且不受数据规模与平衡性影响,性别敏感方法效果有限。
机器学习(ML)模型在现有研究中被广泛用于以更有效的方式诊断疾病并为医疗问题提供解决方案。然而,有必要关注算法在自动疾病检测(ADD)过程中存在的偏见或与性别等人口统计属性相关的不平等问题。尽管有一些研究尝试考虑或减轻基于数字ML的系统的各种不平等现象,但相关研究的数量仍然有限,且现有研究大多仅针对单一特定类型的疾病进行探讨。因此,本研究对八种不同的ML流程进行了全面评估,以检验性别敏感型方法、堆叠集成方法以及这两种方法相结合的混合方法的优越性。据我们所知,这是文献中首项从广泛角度处理基于ML的自动疾病检测的研究,涵盖了多种疾病类型,与其他同类研究不同。通过对四种疾病类型的六个数据集进行的全面评估,发现f1分数所测量的性能在0.743到0.965之间波动,具体取决于数据集的性质。另一方面,性别敏感型方法仅在少数情况下减轻了性能差异,并未在大多数情况下提高整体预测性能。相比之下,堆叠集成方法在几乎所有情况下都表现出更优的性能,取得了最佳的整体效果。无论数据集的大小和平衡状态如何,采用这些方法的流程表现也表现出相似的趋势。
机器学习(ML)模型在现有研究中被广泛用于以更有效的方式诊断疾病并为医疗问题提供解决方案。然而,有必要关注算法在自动疾病检测(ADD)过程中存在的偏见或与性别等人口统计属性相关的不平等问题。尽管有一些研究尝试考虑或减轻基于数字ML的系统的各种不平等现象,但相关研究的数量仍然有限,且现有研究大多仅针对单一特定类型的疾病进行探讨。因此,本研究对八种不同的ML流程进行了全面评估,以检验性别敏感型方法、堆叠集成方法以及这两种方法相结合的混合方法的优越性。据我们所知,这是文献中首项从广泛角度处理基于ML的自动疾病检测的研究,涵盖了多种疾病类型,与其他同类研究不同。通过对四种疾病类型的六个数据集进行的全面评估,发现f1分数所测量的性能在0.743到0.965之间波动,具体取决于数据集的性质。另一方面,性别敏感型方法仅在少数情况下减轻了性能差异,并未在大多数情况下提高整体预测性能。相比之下,堆叠集成方法在几乎所有情况下都表现出更优的性能,取得了最佳的整体效果。无论数据集的大小和平衡状态如何,采用这些方法的流程表现也表现出相似的趋势。