
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于跨通道自注意力融合的内镜息肉检测技术提升研究
【字体: 大 中 小 】 时间:2025年06月21日 来源:Smart Health CS7.7
编辑推荐:
针对结肠镜检查中息肉检测假阳性率高的问题,研究人员提出了一种融合跨通道自注意力机制的新型框架,通过优化质量预测分支和构建多厂商内镜视频数据集,显著降低了复杂场景下的误检率,同时保持较高召回率,为临床结直肠癌早期筛查提供了更精准的AI辅助工具。
在全球癌症负担中,结直肠癌(CRC)以每年近200万新发病例和61万死亡病例的严峻形势,稳居致死率第二的恶性肿瘤宝座。尽管结肠镜筛查能通过发现并切除癌前息肉降低30%的死亡率,但医生在操作中仍会漏诊26%的病灶——那些与正常黏膜颜色相近、边界模糊的低对比度息肉,或是被器械、气泡、液体伪影掩盖的微小病变,更不用说不同厂商内镜设备在清晰度、动态范围和色彩还原上的差异带来的额外干扰。现有基于卷积神经网络(CNN)的计算机辅助诊断(CAD)系统,如DeepLesion、AFP-Net等虽展现出潜力,但在真实临床视频中仍饱受假阳性困扰:一块反光黏膜或器械残影,都可能因纹理清晰而被误判为高分息肉。
为解决这一痛点,来自中国的研究团队在《Smart Health》发表的研究中,创新性地将跨通道自注意力融合单元引入目标检测框架。该技术通过动态筛选分类分支与回归分支的最优特征,用质量分数校正初始分类得分,使模型能区分真正的息肉与具有"欺骗性高得分"的伪影。配合包含三家厂商设备的真实内镜视频数据集,该系统在保持94.5%高召回率的同时,将假阳性率降低至传统方法的1/3,相当于每千例检查可减少约200次不必要的病理活检。
关键技术方法
研究团队构建了包含完整手术视频的私有数据集(获IRB 202112254批准),涵盖不同厂商设备采集的复杂场景。技术核心是跨通道自注意力融合单元,该模块通过计算分类分支与回归分支的交互注意力权重,生成质量预测分数来优化分类置信度。采用改进的FCOS(Fully Convolutional One-Stage)架构,在损失函数中引入负样本软标签计算,增强模型对噪声的鲁棒性。对比实验在GIANA、CVC-Clinic等公开数据集和私有数据集上完成。
研究结果
Polyp detection
通过对比YOLOv5、Mask R-CNN等基线模型,新框架在私有数据集上假阳性率降低41.2%,在公开数据集CVC-Clinic上mAP(平均精度)提升6.8个百分点。特别对直径<5mm的小息肉,检测灵敏度提高23%。
Methodology
跨通道自注意力单元通过三层交叉特征交互实现:首先对分类特征图与回归特征图进行通道拼接,接着通过1×1卷积生成查询(Query)、键(Key)矩阵计算注意力权重,最后将加权融合特征输入质量预测分支。消融实验显示该模块使气泡误检率下降62%。
Experiments
多中心验证显示,对于奥林巴斯、富士、宾得三家厂商设备,新方法保持召回率>90%的同时,特异性从78.3%提升至92.1%。动态质量评分机制成功将器械伪影的预测分值平均压低47%。
Conclusion
该研究证实,通过特征空间的自注意力筛选机制,能有效破解内镜影像中"高质低真"的检测困境。临床转化后预计可使结肠镜筛查的无效活检减少15%-20%,尤其适合基层医院推广。
讨论与展望
这项工作的突破性在于将NLP领域的自注意力机制创造性应用于医学影像的误判溯源。不同于传统CAD系统单纯依赖CNN的层级特征,交叉通道交互使模型具备"自我质疑"能力——当分类分支强烈指示息肉存在时,质量分支会通过回归特征的空间一致性进行二次验证。研究者特别指出,未来可结合时序信息(如相邻帧运动特征)进一步优化对飘动黏膜褶皱的判别。随着国产内镜设备的普及,这种不依赖特定厂商数据的通用框架,或将成为CRC筛查标准流程中的"AI第二阅片人"。
生物通微信公众号
知名企业招聘