基于语言辅助的多模态卷积变换器流程用于视网膜病变分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Language-assisted multimodal convolutional transformer pipeline for retinal lesions segmentation

【字体：大中小】 时间：2026年06月12日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要视网膜病变分割是分析视网膜疾病的关键任务之一。许多研究人员提出了深度学习模型来从视网膜扫描图像中提取病变信息。然而，这些模型通常依赖于可能对识别视网膜病变没有临床意义的图像特征。此外，这些模型还需要像素级别的真实标注数据，而在现实世界中获取这些数据非常具有挑战性。为了解决这些

摘要

视网膜病变分割是分析视网膜疾病的关键任务之一。许多研究人员提出了深度学习模型来从视网膜扫描图像中提取病变信息。然而，这些模型通常依赖于可能对识别视网膜病变没有临床意义的图像特征。此外，这些模型还需要像素级别的真实标注数据，而在现实世界中获取这些数据非常具有挑战性。为了解决这些问题，我们提出了一种新型的语言辅助多模态卷积变换器流程，该流程将图像特征与文本特征对齐。其中，文本特征是从包含有关视网膜病变的临床信息的提示中提取的，而图像特征则是从视网膜扫描图像中生成的。通过使用所提出的损失函数进行一次性训练，实现了图像特征与文本特征之间的对齐。之后，该网络能够在推理阶段稳健地从不同数据集中提取视网膜病变信息。由于该网络是从文本提示中学习到的，因此无需像现有最先进方法那样通过额外的像素级别真实标注数据进行训练来适应新的数据集。该网络已在六个公开数据集上进行了全面测试，并在交并比（intersection-over-union）指标上实现了高达7.77%的提升，表现优于现有最先进方法。

联系信箱：

粤ICP备09063491号

摘要

热点排行