
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言与视觉模型的结肠镜图文记录知识提取与蒸馏研究
【字体: 大 中 小 】 时间:2025年09月17日 来源:Nature Biomedical Engineering 26.6
编辑推荐:
来自多中心的研究人员提出EndoKED方法,通过连接大语言模型与视觉模型,自动化实现百万级结肠镜原始记录到像素级标注数据集的转换,显著提升息肉检测与分割性能,并在光学活检任务中达到专家水平,为临床AI系统开发提供高效数据解决方案。
通过整合大语言模型(LLM)与大视觉模型(LVM),研究者开发了名为EndoKED的知识提取与蒸馏框架,旨在自动化处理临床实践中产生的大规模结肠镜图像-文本记录。该方法能够将约百万张原始内窥镜图像及其对应文本报告转化为具有像素级注释(pixel-level annotation)的结构化数据集,显著解决了人工标注成本高、数据集规模与多样性受限的问题。实验表明,EndoKED在报告层级和图像层级的息肉检测任务中表现优异,同时支持息肉分割模型达到当前最先进(state-of-the-art)的性能与泛化能力。此外,基于EndoKED的视觉骨干网络在光学活检(optical biopsy)任务中实现了数据高效学习,并在内部、外部及前瞻性验证数据集中展现出专家级的诊断水平。
生物通微信公众号
知名企业招聘