基于深度多任务学习的胃肠道病灶智能诊断与严重程度评估框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月18日 来源：Scientific Reports 3.8

编辑推荐：

　　本研究针对胃肠道(GT)病灶诊断中分类与严重程度评估割裂、特征提取不充分等难题，提出融合卷积视觉变换器(CViT)与增强多头注意力(EMA)的深度多任务学习框架GTCAD。通过统一特征提取和任务特异性注意力机制，在四个多类别GT数据集上实现病灶分类准确率96.5%±0.041，严重程度评估F1值0.958±0.153，显著优于现有单任务模型，为临床精准诊疗提供智能化解决方案。

胃肠道疾病是全球公共卫生重大挑战，结直肠癌每年导致220万人死亡，占癌症总死亡的35%。传统内窥镜诊断面临观察者差异大、早期病灶识别困难等痛点，尤其对扁平病灶和复杂解剖位置的病变，临床误诊率高达58%。现有深度学习模型多聚焦单一任务，将病灶分类与严重程度评估割裂处理，既降低诊断效率，又难以捕捉病变的全局特征。

电子科技大学生命科学与技术学院联合四川大学华西医院消化内镜中心的研究团队，在《Scientific Reports》发表创新成果。研究人员构建了深度多任务学习框架GTCAD，首次实现胃肠道病灶分类与严重程度评估的协同优化。该框架通过三阶段架构：先采用ResNet50和CViT块进行多尺度特征提取；再通过EMA机制融合全局与局部特征；最后通过任务特异性注意力头输出诊断结果。实验表明，模型在四个数据集上的综合性能超越现有最佳模型4.7%，特别在溃疡性结肠炎Mayo分级评估中展现临床级精度。

关键技术包括：1) 基于HyperKvasir等四大多模态数据集的样本增强策略；2) 融合CNN局部感知与Transformer全局建模的CViT架构；3) 保留原始语义特征的增强多头注意力(EMA)机制；4) 联合优化病灶分类与严重程度评估的加权损失函数。研究特别引入视频帧提取技术，将LIMUC等数据集扩展至60,000张图像，有效缓解类别不平衡问题。

【方法设计】

框架采用统一特征提取与任务特异性解码的混合架构。预处理阶段通过±15°旋转和颜色抖动等增强数据多样性。核心创新在于EMA模块，其将原始特征与QKV投影矩阵相加（式2-4），通过SoftMax归一化（式5）保留细粒度特征。可视化分析显示，8个注意力头能准确定位不同尺寸病灶（见图3），而t-SNE图谱证实特征空间聚类效果显著优于基线（见图11）。

【实验结果】

在四类数据集测试中，GTCAD以96.5%准确率刷新纪录（表3），ROC曲线显示对严重病变的AUC达1.00（图10）。相比单任务模型，多任务框架使严重程度评估F1值提升2.8%（表6）。消融实验证实EMA模块贡献最大，移除后精度下降2.6%（表7）。计算效率方面，模型参数量仅34.6M，推理速度优于同类Transformer架构（图7）。

【临床价值】

该研究突破性地解决了三个临床难题：1) 通过统一框架降低诊断流程复杂度；2) 利用Mayo评分等标准实现严重程度量化（图9）；3) 注意力可视化（图4）增强模型可解释性。未来可扩展至视频时序分析，实现动态病灶追踪。这项工作为智能内镜系统开发奠定理论基础，其多任务学习范式对其它医学影像分析具有重要借鉴意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号