MedIMeta:多域多任务医学影像元数据集,解锁医学影像分析新未来

【字体: 时间:2025年04月20日 来源:Scientific Data 5.8

编辑推荐:

  在医学影像分析中,机器学习技术面临数据稀缺、格式不一等难题。研究人员构建了医学影像元数据集(MedIMeta)。实验表明其在监督学习和跨域少样本学习(CD-FSL)中表现良好,为医学影像分析研究提供了有力支持。

  在医学领域,随着科技飞速发展,医学影像分析成为疾病诊断与治疗的关键环节。机器学习(ML)技术的融入,为该领域带来了新的曙光,它能从医学影像中挖掘有价值信息,辅助医生做出更精准的诊断决策。然而,这一技术在实际应用中却遭遇了重重阻碍。
医学影像数据极为复杂,格式、尺寸及其他参数千差万别,在将其用于机器学习模型训练前,需进行大量繁琐的预处理和标准化工作。而且,标注数据集稀缺,尤其是针对罕见病或特殊病症的数据,严重制约了模型的训练效果和泛化能力。少样本学习(FSL)技术虽致力于解决这一问题,试图让模型从少量样本中学习并做出准确预测,但在实际应用中,机器仍难以达到人类基于少量信息进行准确判断的水平。跨域少样本学习(CD-FSL)虽能让模型在不同领域任务间迁移知识,可医学领域不同成像模态、疾病表现和数据特征差异巨大,给跨域知识迁移带来了诸多挑战。

为突破这些困境,德国图宾根大学 “机器学习:科学新视角” 卓越集群(Cluster of Excellence “Machine Learning: New Perspectives for Science”)的 Stefano Woerner、Arthur Jaques 和 Christian F. Baumgartner 等研究人员开展了一项极具意义的研究。他们构建了医学影像元数据集(Medical Imaging Meta-Dataset,MedIMeta),这是一个多域、多任务的元数据集。研究表明,MedIMeta 能有效助力医学影像分类的机器学习模型和跨域少样本学习算法的开发与评估,该研究成果发表在《Scientific Data》上。

研究人员为构建 MedIMeta 付出了诸多努力。首先,他们从公开渠道选取了 19 个数据集,这些数据集涵盖 10 个不同领域,包含 54 项医学任务。筛选时,数据集需满足开放许可、适合定义分类任务、图像尺寸合适且图像数量不少于 100 张等条件。接着,他们对所有图像进行标准化处理,统一调整为 224×224 像素的大小,并为每个数据集预设了训练、验证和测试集划分。为方便使用,研究人员还开发了 Python 包 “medimeta”,用户可轻松加载数据。

在技术验证环节,研究人员进行了两类实验。一是监督学习实验,他们选用 ResNet-18 和 ResNet-50 模型,在每个数据集的主要任务上进行训练,通过在验证集上的 AUROC(Area Under the Receiver Operating Characteristic Curve,受试者工作特征曲线下面积)指标进行早停法训练,并对数据增强、学习率和权重衰减等超参数进行搜索。二是跨域少样本学习实验,采用 5-shot 学习模式,对比 ImageNet 预训练(IN-PT)、多域多任务预训练(mm-PT)和多域多任务模型无关元学习(mm-MAML)三种方法。每次实验都以一个任务为目标任务,从无域重叠和无主体重叠的其他任务中迁移知识,每个目标任务重复实验 100 次以确保结果可靠。

监督学习实验结果显示,多数数据集上模型能取得较高的 AUROC 值。部分任务得分较低,是因为这些任务包含的类别样本数量极少,增加了学习难度。相对复杂的 ResNet 50 模型在多数数据集上比 ResNet 18 性能略高。跨域少样本学习实验中,令人意外的是,简单的 ImageNet 预训练微调方法表现与 mm-PT 和 mm-MAML 基线方法相当甚至更优。这可能意味着所选的预微调方法过于简单,无法充分发挥优势。不过,这些少样本学习方法的性能仍与完全监督学习存在差距。

综上所述,MedIMeta 数据集的出现意义重大。它为医学影像分析领域的研究提供了丰富的数据资源,极大地降低了研究人员处理数据的成本。在跨域少样本学习研究中,它为评估新方法提供了高复杂度的平台,推动了该领域技术的发展。虽然 MedIMeta 存在样本数量不均衡、部分任务缺乏临床现实性、未涵盖所有医学成像模态和解剖区域等局限性,但在平衡机器学习实用性和临床现实性方面,它做出了有益的尝试,为后续研究指明了方向,有望促进医学影像分析与机器学习的深度融合,提升医学诊断和治疗水平。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号