LKAFormer：一种轻量级的Kolmogorov-Arnold变换模型，用于图像语义分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Intelligent Systems and Technology》：LKAFormer: A Lightweight Kolmogorov-Arnold Transformer Model for Image Semantic Segmentation

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

　　Transformer语义分割方法通过全局自注意力捕捉长程依赖，但存在高计算成本和忽略高层语义与低层结构交互的问题。本文提出轻量级Kolmogorov-Arnold Transformer（LKAFormer），采用双流Transformer编码器实现跨尺度特征融合，并通过KAN解码器的可学习非线性变换和图特征金字塔聚合优化分辨率恢复过程，显著提升复杂边界分割性能。

摘要

基于Transformer的语义分割方法通过利用全局自注意力机制有效捕捉长距离依赖关系，展现了出色的性能。然而，现有研究中仍存在两个问题：1) 大多数方法使用全秩权重矩阵来支持自注意力机制和前馈网络，以建模补丁/像素之间的长距离依赖关系，这在训练和推理过程中都会导致较高的计算成本；2) 大多数方法在图像分辨率恢复过程中忽略了高层语义与低层结构之间的信息交互，从而导致分割具有复杂边界的物体时性能下降。为了解决这些问题，提出了一种轻量级的Kolmogorov-Arnold Transformer模型（LKAFormer）用于图像语义分割，该模型包含一个双流轻量级Transformer编码器和一个图特征金字塔聚合KAN解码器。前者构建了一个分层特征跨尺度融合流程，通过设置不同大小的粗粒度和细粒度图像流来获取包含全面多尺度信息的充分语义。在该流程中，特征轻量化聚焦模块利用轻量级多头自注意力和轻量级前馈网络设计，以较低的计算成本对补丁/像素之间的复杂和长距离依赖关系进行建模，从而细化图像语义。后者利用Kolmogorov-Arnold Transformer架构的可学习非线性变换机制，自适应地捕捉图像不同子区域的空间结构依赖性。然后，在图像分辨率恢复过程中，它同时执行尺度内图融合和尺度间图融合，以增强高层语义与低层结构之间的信息交互，从而实现分割物体的稳健边界定位和纹理细化。最后，在三个具有挑战性的数据集上进行了大量实验，结果表明，与11种方法相比，LKAFormer在图像分割任务中树立了新的基准。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号