皮肤肿瘤AI诊断数据集构建方法论:拉丁美洲回顾性数据整合的经验与标准化框架
《BMC Medical Research Methodology》:A methodology for developing dermatological datasets: lessons from retrospective data collection for AI-based applications
【字体:
大
中
小
】
时间:2025年11月07日
来源:BMC Medical Research Methodology 3.4
编辑推荐:
本研究针对皮肤肿瘤AI诊断中数据集构建缺乏标准化流程、临床元数据缺失及地域代表性不足等问题,提出一套四阶段方法论(伦理审批与数据源分析、数据记录与结构化、临床数据与图像处理、质量评估),通过智利与墨西哥回顾性临床数据验证,构建了包含多模态图像与标准化元数据的皮肤肿瘤数据集。该方法为资源有限地区建立可复用、跨学科协作的皮肤病数据集提供了实践指南,助力提升AI模型的泛化性与公平性。
在人工智能(AI)席卷医疗领域的浪潮中,皮肤病学因其高度依赖视觉诊断的特性,成为AI技术应用的先锋阵地。深度学习模型在皮肤癌分类、病灶检测等任务中展现出惊人潜力,然而,这些模型的训练和验证极度依赖于高质量、结构化的皮肤病学数据集。现实却不容乐观:现有公开数据集往往“偏科”严重——它们大多源自北美、欧洲等高收入国家,缺乏标准化构建方法,临床元数据(如患者病史、病灶特征等)记录不完整甚至缺失,且对拉丁美洲、亚洲等地区人群的代表性严重不足。这种“数据贫困”现象不仅限制了AI模型在全球范围内的泛化能力,更可能加剧医疗资源不平等,让算法偏见在诊断中悄然滋生。
面对这一严峻挑战,来自智利和墨西哥的研究团队在《BMC Medical Research Methodology》上发表了一项重要研究。他们深知,构建一个“好”的数据集,不仅是堆砌图片,更是一场需要严谨方法学指导的系统工程。为此,团队提出了一套全新的、可复现的四阶段方法论,旨在为全球,特别是中低收入国家的研究者,提供一个从零开始构建皮肤病学数据集的“实战手册”。
为了验证这一方法,研究人员开展了一项基于回顾性临床记录的研究。他们从智利一家三级学术医院的电子病历中(2019-2020年)筛选出1003个经活检确诊的皮肤肿瘤病例,涵盖光化性角化病、基底细胞癌(BCC)、皮肤鳞状细胞癌(cSCC)、黑色素瘤(MSC)、痣、脂溢性角化病等七类病灶。同时,他们整合了墨西哥哈利斯科州一家皮肤病研究所2010年至2019年间的83个基底细胞癌病例。所有病例均包含临床图像和皮肤镜图像两种模态,并附有详细的临床元数据。研究的关键技术方法主要包括:1)伦理审批与数据源分析:首先获得机构审查委员会(IRB)批准,系统评估临床记录的完整性和诊断确认方式(以活检金标准为主);2)数据记录与结构化:将去标识化后的数据存入符合HIPAA(健康保险流通与责任法案)标准的服务器,使用表格文件(XLS)统一管理元数据、变量描述和图像坐标;3)临床数据与图像处理:对图像进行裁剪、匿名化处理,去除模糊或包含个人标识的图像,并将元数据变量进行分类和数值编码;4)质量评估:由皮肤科专家和计算机科学家组成跨学科团队进行联合视觉审查,检查图像-元数据一致性、重复项和格式错误,确保数据集质量。
通过应用于智利和墨西哥的两个独立案例,该四阶段方法论被证明具有高度的适应性和可操作性。在智利案例中,团队处理了1012个初始病例,经过质量评估后最终保留1003个病例,包含5171张图像(3545张皮肤镜图像和1626张临床图像)。墨西哥案例则聚焦于基底细胞癌,最终整合了83个病例的460张图像。这一过程验证了该方法在应对不同数据源质量和规模差异时的稳健性。
研究成功定义并实施了一套最小化元数据要求。智利数据集包含了20个关键变量,如患者年龄、性别、解剖部位、直径、Breslow厚度、皮肤光分型、肿瘤病史等。墨西哥数据集则根据数据可得性整合了9个变量。所有变量均被分类和编码,并附有详细的数据字典,为AI模型提供了丰富的上下文信息,超越了单纯图像分析的局限。
研究详细记录了图像处理中遇到的常见问题及解决方案,如通过裁剪去除图像中的标识信息、剔除模糊图像等。尤其重要的是,团队系统性地识别并处理了图像中的外部伪影,例如照明阴影、解剖结构(如手指)、纸质标记、缝合线等(见图5),这些伪影若不被处理,可能干扰AI模型的训练。
质量评估阶段凸显了跨学科团队的核心价值。皮肤科专家负责临床信息的准确性和医学合理性校验,计算机专家则确保数据格式的规范性和对AI算法的友好性。这种协作确保了最终数据集兼具临床实用性和技术可用性。
本研究的主要结论在于,它填补了皮肤病学AI研究领域一个关键的方法学空白。它首次系统化地提出并验证了一个兼顾严谨性、灵活性和可重复性的数据集构建框架。其重要意义体现在三个层面:实践指导价值:为资源有限的研究机构,特别是拉丁美洲等代表性不足地区的医疗机构,提供了清晰的“第一步”指南,降低了数据集构建的门槛。促进算法公平性:通过强调元数据规范和人群多样性,有助于纠正现有AI模型中的地域和肤色偏见,推动开发更具泛化能力的诊断工具。推动跨学科融合:方法论本身即是临床医学与计算机科学深度协作的产物,为未来类似研究树立了合作范式。
当然,研究也存在一定局限,例如目前验证的病例集中于皮肤肿瘤,方法论在炎症性、感染性皮肤病等领域的普适性仍需进一步检验。此外,回顾性研究无法弥补历史数据中元数据的固有缺失。但无论如何,这项研究为皮肤病学AI研究的数据基石铺设了一条更为坚实、透明的道路,其影响将随着更多高质量、多样化数据集的涌现而持续扩大。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号