
-
生物通官微
陪你抓住生命科技
跳动的脉搏
伤口护理多模态多语言视觉问答基准数据集WoundcareVQA的构建与评估
【字体: 大 中 小 】 时间:2025年08月31日 来源:Journal of Biomedical Informatics 4.5
编辑推荐:
为解决远程医疗中临床工作负荷增加的问题,研究人员构建了首个多模态多语言伤口护理视觉问答(WoundcareVQA)数据集,包含477个病例、748张图像及专家标注,测试了GPT-4o等模型在元数据分类(最高准确率0.78)和回答生成(BERTScore 0.69)中的表现,为医疗AI辅助系统开发提供基准。
随着远程医疗的普及,患者通过电子门户发送的图文咨询呈爆发式增长,这虽提升了医疗可及性,却导致医生面临"永不消失的收件箱"困境。据统计,疫情后患者消息量激增157%,而异步咨询带来的无补偿加班正加剧职业倦怠。伤口护理作为高频咨询领域,其多模态(图像+文本)和多语言特性使自动化回复系统开发面临独特挑战——现有视觉问答(VQA)数据集多基于单张图像的封闭问答,而真实场景需要结合临床背景生成专业建议。
为此,微软健康AI团队的Wen-wai Yim等人在《Journal of Biomedical Informatics》发表研究,构建了首个伤口护理多模态多语言基准数据集WoundcareVQA。该研究创新性地整合了来自百度贴吧等平台的真实患者咨询,由美国执业医生标注元数据(包括伤口类型、组织颜色等7类特征)并撰写回复,最终形成包含477个病例、768条专家回复、748张图像的双语资源。研究采用三种前沿模型(GPT-4o、Gemini-1.5-Pro和Qwen-VL)进行基准测试,发现:
关键技术方法包括:(1)从中文网络平台采集带图像的伤口咨询,经专业翻译后由美国医生标注;(2)设计包含41个解剖位置、8种伤口类型的多层次分类体系;(3)采用BLEU、BERTScore和ROUGE-L评估生成回复质量;(4)邀请临床专家从完整性、事实准确性等维度进行人工评分。
研究结果:
元数据分类:GPT-4o在结合英文文本时表现最佳,伤口类型识别准确率达0.776,但组织颜色分类仅0.296,反映视觉特征判读难度。
回复生成:GPT-4o英文回复BERTScore达0.664,中文达0.692,但BLEU分数普遍低于0.13,显示医学长文本生成的评估挑战。
人工评估:医生对GPT-4o和Gemini回复的总体评分相近(0.86 vs 0.83),但发现AI建议比人类专家更自信,如某案例中所有医生认为无需紧急处理,而AI均建议就医。
评估指标分析:BERTScore与人工评分的相关性最高(相关系数0.25),但所有自动指标与人工评估的一致性均未超过30%,凸显医学开放域问答评估的特殊性。
讨论指出,该研究揭示了医疗VQA系统的两大瓶颈:一是临床元数据标注存在固有模糊性(如伤口分期判断的专家间一致性仅0.324-0.892);二是现有自然语言生成指标难以捕捉医学回复的语义准确性。值得注意的是,当以专家回复作为"参考答案"相互比较时,其自动评分(BLEU 0.047)甚至低于系统输出,证实医学领域存在多重合理答案的特性。
这项研究的意义在于:(1)首次系统探索伤口护理领域的多模态多语言问答任务,填补了该细分领域的资源空白;(2)证实结合图文信息能提升分类性能(如伤口类型识别提升30%);(3)为缓解临床工作负荷提供了可行的AI辅助方案。未来需进一步研究提示工程优化、领域适应微调等技术,并探索系统在实际临床工作流中的整合效果。数据集已开源(https://osf.io/xsj5u/),将持续推动医疗对话生成技术的发展。
生物通微信公众号
知名企业招聘