开放获取口腔颌面影像数据集的特征、许可与伦理考量:系统性评价揭示标准化指南的迫切需求

【字体: 时间:2025年07月06日 来源:npj Digital Medicine 12.4

编辑推荐:

  本研究针对口腔颌面影像AI研究中公开数据集的特征、伦理审查及许可规范不明确问题,系统评价了105个开放数据集(含437,538张图像)。研究发现83.8%数据集未披露伦理审批,61.9%未明确许可条款,且仅25.7%标注了注释者资质。该研究发表于《npj Digital Medicine》,为建立AI专用知情同意和数据集复用标准提供了关键证据,对推动口腔AI研究的规范发展具有重要意义。

  

在口腔医学加速数字化的浪潮中,人工智能(AI)技术正深刻改变着疾病诊断和治疗规划的方式。从龋齿检测到颌骨分割,从种植体定位到癌变细胞识别,这些AI模型的训练都离不开高质量的口腔颌面影像数据集。然而令人担忧的是,当前公开可用的影像数据集中,关于数据采集的伦理审批、注释者资质以及许可条款等关键信息普遍缺失,这就像建造高楼却没有稳固的地基——可能导致AI模型存在潜在偏见或法律风险。

针对这一紧迫问题,由香港大学牙医学院Kuo Feng Hung领衔的国际研究团队,在《npj Digital Medicine》发表了开创性研究。研究人员系统检索了PubMed、Google Scholar等数据库及Kaggle等平台,最终纳入了2018-2024年间创建的105个开放数据集,包含来自21个国家的437,538张图像和100段口内视频。这些数据涵盖了全景放射影像、根尖片、锥形束CT(CBCT)、磁共振成像(MRI)等11种影像模态,堪称目前最全面的口腔颌面影像数据集评估。

研究采用系统性评价方法,通过双盲筛选流程(Cohen's kappa值0.83-0.92)确保数据可靠性。关键技术包括:PRISMA指南框架下的文献筛选、QUADAS-2工具评估注释偏倚风险、METRIC框架分析数据质量维度。特别关注了数据集的地理来源、机构归属、注释规范等特征,并首次系统梳理了Creative Commons(CC)许可协议在口腔影像数据中的应用现状。

【数据集特征分析】
研究发现全景放射影像数据集占比最高(43.2%),其次是口内照片(23.1%)和根尖片(11.5%)。

地理分布显示62.9%数据集未标明来源,在已标明的数据中,亚洲贡献最多(特别是中国和印度),欧洲和南美次之。值得注意的是,仅13个数据集(12.4%)披露了影像设备制造商信息,这为评估设备间差异带来了挑战。

【注释质量评估】
在83个提供注释的数据集中,71.1%因未说明注释者资质被评定为"高风险"偏倚。表3详细列举了各类注释标准:如数据集3包含五种复杂注释(从牙齿掩膜到眼球追踪热图),由专家和牙科学生共同完成;而数据集67的15万张照片注释则由6年经验以上的正畸医生完成。这种注释质量的巨大差异,使得跨数据集整合时需格外谨慎。

【伦理与法律隐患】
研究揭示的突出问题包括:83.8%数据集未说明是否获得伦理审批;38.1%完全未指定许可条款。在明确许可的65个数据集中,52.3%采用CC BY 4.0许可,但存在误标许可证等问题。表4显示,仅12个数据集(11.4%)同时满足伦理审批和许可披露的"低风险"标准,而36个(34.3%)因双重缺失被列为"高风险"。

这项研究的意义不仅在于揭示了口腔AI数据生态系统的关键缺陷,更提出了建立标准化指南的迫切需求。作者建议:①开发AI专用知情同意书,明确告知患者数据可能用于机器学习;②制定统一的注释资质认证体系;③规范数据共享的许可协议选择。这些措施将有助于解决当前"数据孤岛"现象,促进口腔AI研究的可重复性和临床转化。

正如研究者强调的,在口腔医学全面数字化的今天,缺乏规范的数据共享机制就像没有交通规则的十字路口——看似畅通却隐患重重。该研究为构建安全、合规的口腔影像数据高速公路提供了首个系统性路线图,对实现《健康中国2030》规划中提出的智能医疗愿景具有重要推动作用。未来研究可在此基础上,进一步探索联邦学习等隐私保护技术在这些数据集中的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号