
-
生物通官微
陪你抓住生命科技
跳动的脉搏
OHSU MoleMapper智能手机皮肤图像数据集发布:全球最大公开用户采集色素性皮肤病变图像库助力AI辅助黑色素瘤研究
【字体: 大 中 小 】 时间:2025年08月03日 来源:Scientific Data 6.9
编辑推荐:
本研究由俄勒冈健康与科学大学(OHSU)团队主导,发布了包含27,499张色素性皮肤病变图像的MoleMapper数据集,通过智能手机非临床环境采集的纵向图像填补了皮肤影像学研究空白。该数据集包含病灶图像、周边皮肤斑块及元数据,支持自监督学习与图像质量分析,为开发基于Transformer架构的AI诊断模型提供重要资源,推动黑色素瘤早期检测技术发展。
在皮肤癌诊疗领域,黑色素瘤的早期识别始终是临床难点。尽管计算机辅助诊断概念早在1987年就被提出,但传统方法受限于专业设备采集的有限样本量——1994年开创性研究仅用240张图像就宣称达到80.7%准确率。随着深度学习时代到来,现代视觉Transformer模型需要数百万级训练数据,而医疗图像获取却面临临床采集成本高、隐私保护严格等瓶颈,形成尖锐矛盾。
俄勒冈健康与科学大学(Oregon Health & Science University, OHSU)的研究人员通过MoleMapper项目开创性地解决了这一矛盾。这项IRB批准的研究(#16038)利用智能手机在非临床环境中采集了全球最大规模的用户自拍皮肤病变图像库,相关成果发表于《Scientific Data》。研究团队开发了iOS/Android双平台应用,让参与者自主拍摄身体"区域"(zone)照片并标记可疑痣体,通过加密传输至Sage Bionetworks平台。经过6年积累,最终发布包含27,499张病灶裁剪图、7,305张周边皮肤斑块和1,000张背景区域图像的数据集,所有图像均去除健康标识符并保留EXIF元数据。
关键技术包括:1)基于ResearchKit框架的移动端数据采集系统;2)HIPAA合规的图像去标识化流程;3)病灶区域智能裁剪算法(保留3倍病灶尺寸);4)多维度元数据管理架构。研究特别设计了前后躯干分区系统

数据记录
数据集包含5个关联表格,采用"乌鸦脚"符号表示实体关系



技术验证
研究强调"真实世界"数据价值,所有图像均使用原生相机API采集,未做后期处理。与临床级皮肤镜图像(如HAM10000、ISIC数据集)相比,这些非专业拍摄图像更能反映公众自查时的真实场景。
这项研究创造了三个重要价值:首先,它突破了医疗图像采集的时空限制,证明智能手机可低成本获取大规模皮肤影像数据;其次,首次提供了公众自查关注病灶的实证数据,有助于理解非专业人士的癌变识别模式;最后,为自监督学习提供了优质预训练资源,弥补了传统监督学习需要标注数据的缺陷。正如通讯作者Tracy Petrie指出,该数据集特别适合探索"区域-病灶"关联特征,这对开发基于上下文的AI诊断模型具有关键意义。数据集已通过Sage Synapse平台(syn51520810)向认证研究人员开放,将持续推动皮肤癌早期检测技术的民主化进程。
生物通微信公众号
知名企业招聘