
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Galar:首个大规模多标签视频胶囊内镜数据集推动AI辅助消化道疾病诊断革新
【字体: 大 中 小 】 时间:2025年05月21日 来源:Scientific Data 5.8
编辑推荐:
针对视频胶囊内镜(VCE)分析耗时、图像质量不均等临床痛点,德国德累斯顿工业大学团队构建了迄今最全面的多中心VCE数据集Galar。该研究收录80段视频共3,513,539帧标注图像,涵盖29类功能/解剖/病理标签,采用五重交叉验证的ResNet-50模型验证显示对小肠段识别准确率达92%。该数据集通过CC BY 4.0协议开放共享,为开发实时边缘AI(Edge AI)诊断系统奠定基础。
当医生需要检查患者难以触及的小肠部位时,视频胶囊内镜(VCE)就像个会拍照的"智能药丸",能在消化道内自主拍摄数小时视频。但这种革命性技术面临三大困境:医生需要目不转睛观看数小时模糊视频寻找病变、胶囊电池续航有限导致部分肠段漏检、气泡和污物常遮挡关键画面。更棘手的是,目前公开的VCE数据集要么样本量小如Kvasir-Capsule的4.7万张图,要么仅聚焦单一病症如出血检测,严重制约人工智能(AI)辅助诊断系统的研发。
德国德累斯顿工业大学联合两家医疗中心的研究团队决心打破这一瓶颈。他们历时12年收集了449例VCE视频,从中精选80段病理特征明确的视频,构建出迄今最全面的多标签VCE数据集Galar。这个数据量达580GB的宝库包含351万张精细标注的帧图像,每帧都标记了29类特征——从技术性指标(如气泡、视野清晰度)到解剖标志(如幽门、回盲瓣),再到14种病理改变(如溃疡、血管扩张)。特别值得注意的是,研究采用五名标注员交叉验证机制,关键病理帧更经过10年资历消化科专家复核,确保标注质量。
研究团队采用三大关键技术:基于CVAT开源平台的分布式标注系统实现多中心协作;FFMPEG工具处理PillCamTM和OlympusTM两种胶囊系统的异构视频数据;通过分层分组交叉验证(StratifiedGroupKFold)解决数据不平衡问题。为验证数据集价值,他们用ImageNet预训练的ResNet-50模型开展多任务学习,结果显示对"小肠"段的识别准确率达92%,"胃"区达93%,但罕见病理如"红斑"的F1值仅0.02,凸显小样本病症的识别仍是挑战。
在"数据记录"部分,研究揭示了关键数据特征:OlympusTM系统提供的视频占比最大(275万帧/22段),但分辨率较低(336×336像素);PillCamTM系统虽仅占76万帧,却提供512×512高清图像。技术标注组耗时最长,仅6段视频完成全部质量标注,反映动态图像评估的复杂性。"技术验证"章节详细对比了不同任务的性能:多标签分类中"气泡"检测AUROC达0.87,而"无视野"类别因样本稀少准确率仅29%,说明数据分布对模型效果的关键影响。
这项发表于《Scientific Data》的研究具有三重里程碑意义:其一,Galar首次实现多中心、多设备来源的VCE数据标准化,为开发泛化性强的AI模型铺路;其二,29类标签体系覆盖从技术缺陷到罕见病变的全维度特征,支持"端到端"诊断系统开发;其三,通过CC BY 4.0协议开放数据,可显著降低研究门槛。正如通讯作者Franz Brinkmann强调,该数据集特别适合探索边缘计算(Edge AI)在胶囊内镜中的应用,未来或可实现病变实时报警,解决电池续航导致的漏检难题。
研究也客观指出当前局限:部分病理标签样本不足(如乳糜泻零病例),且不同胶囊系统的图像特性差异可能影响模型迁移效果。团队在GitHub公开了全部代码,鼓励学界共同优化小样本学习策略。随着更多机构采用Galar数据集,VCE技术有望突破现有瓶颈,使"吞颗胶囊就完成胃肠检查"的愿景真正成为临床常规。
生物通微信公众号
知名企业招聘