数据人工制品术语表:助力医疗 AI 公正,打破健康数据偏差困局

【字体: 时间:2025年02月10日 来源:Journal of Biomedical Science 9

编辑推荐:

  为解决医疗 AI 中因数据集偏差导致的公平性和有效性问题,研究人员开展 “数据人工制品术语表(Data Artifacts Glossary)” 的研究。通过专家讨论、文献回顾等得出该术语表可系统记录更新医疗数据偏差,有助于提升医疗 AI 的公正性和准确性,促进健康公平。

  在当今医疗领域,人工智能(AI)的发展可谓如日中天。它就像一位神通广大的 “智慧医生”,凭借先进算法,能快速诊断疾病、制定个性化治疗方案,还能帮忙管理医疗资源,为医疗行业带来了无限可能。可谁能想到,这位 “智慧医生” 也有自己的 “小烦恼”。
原来,AI 做出准确判断和决策的关键,在于它所学习的数据。一旦这些数据存在偏差,AI 就可能 “跑偏”。在现实中,这种偏差问题屡见不鲜。比如,不同种族患者在医疗待遇上存在差异,黑人患者的疼痛管理往往不如白人患者,部分少数族裔患者糖尿病视网膜病变的筛查率也较低。当 AI 基于这些带有偏差的数据进行训练时,不仅会复制这些不公平现象,还可能让情况变得更糟,使医疗不公平的 “鸿沟” 进一步扩大。更麻烦的是,一些 AI 算法的内部机制晦涩难懂,可能产生新的偏差,却难以被察觉。

为了攻克这一难题,来自麻省理工学院实验室(Laboratory for Computational Physiology, Massachusetts Institute of Technology)、哈佛陈曾熙公共卫生学院(Harvard T.H. Chan School of Public Health)等多个机构的研究人员联合开展了一项意义重大的研究。他们的研究成果发表在《Journal of Biomedical Science》上,为解决医疗数据偏差问题带来了新的曙光。

研究人员采用了一种受德尔菲法(Delphi method)启发的独特方法。首先,组建了一支多学科融合的团队,成员包括临床医生、计算机科学家、数据科学家、研究人员、项目经理、教育专家和法律专家。团队成员各自独立思考,初步梳理出医疗数据集中可能存在的偏差来源,再通过广泛的文献回顾,参考多种数据文档方法,如数据卡(Data Cards)、数据声明(Data Statements)等。之后,经过多轮结构化讨论,不断完善和拓展初步概念,最终达成共识,确定了术语表的结构,并利用重症监护医疗信息库(MIMIC-IV)数据集进行试点测试。

研究结果如下:

  1. 数据人工制品术语表(Data Artifacts Glossary)的特性:这是一个动态、开源的协作平台,采用类似 Linux 和 Python 的开源模式。借助强大的版本控制系统,由 GitHub 提供支持,方便众多利益相关者共同参与编辑和管理。任何修改都需通过 “拉取请求(pull requests)”,并经过严格的同行评审,确保内容质量。同时,详细的文档记录让新用户和贡献者能够快速上手。
  2. MIMIC-IV 数据集的应用示例:在 MIMIC-IV 数据集的应用中,研究人员提出了四个初始分类来构建术语表框架。“参与者非随机缺失(Participants not missing at random)” 类别揭示了数据集中特定患者群体缺失或代表性不足的问题,像不同种族患者在有创通气使用上存在差异;“数据点有效性(Validity of data points)” 关注数据收集的准确性,例如脉搏血氧仪在不同种族患者中的测量偏差;“数据非随机缺失(Data not missing at random)” 探讨数据收集过程中的不均衡现象,如不同群体的血糖监测频率差异;“其他杂项偏差(Miscellaneous biases)” 涵盖了无法归为上述类别的各类偏差,包括数据收集的地理位置、特定时期医疗实践等因素导致的偏差。

研究结论和讨论部分指出,数据人工制品术语表有着不可忽视的重要意义。它不仅为研究人员、临床医生和 AI 开发者提供了一个全面的参考工具,帮助他们深入了解数据集的偏差,避免在模型开发中引入偏差,还能挖掘健康不公平现象的根源,推动医疗公平的实现。不过,该术语表也存在一定局限性,如社区参与度的问题,以及无法直接提供解决偏差的方案等。但总体而言,这项研究为医疗 AI 的发展奠定了更坚实的基础,有望在未来让 AI 更好地服务于全体患者,推动医疗行业向更加公平、高效的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号