基于关系引导的视觉-语言Transformer的面部属性识别研究

【字体: 时间:2025年07月09日 来源:Pattern Recognition 7.5

编辑推荐:

  推荐:为解决面部属性识别(FAR)中视觉图像质量差和属性关系难以自适应学习的问题,研究人员提出关系引导的视觉-语言Transformer(RVLT),通过语言模态自动学习属性关系指导图像特征提取。该方法创新性地设计图像-文本交叉注意力(ITCA)和令牌选择机制(TSM),在LFWA和CelebA数据集上分别达到87.34%和91.80%的准确率,显著提升小样本场景下的性能。

  

在计算机视觉领域,面部属性识别(Facial Attribute Recognition, FAR)一直是极具挑战性的任务。想象一下,当我们需要判断一张照片中的人物是否"戴眼镜"或"有胡子"时,即使是人类也可能被光照变化、姿态差异或遮挡物所干扰。这个问题在安防监控、人脸检索等实际应用中显得尤为重要。然而,现有的基于卷积神经网络(CNN)的方法由于感受野有限,难以建立全局特征关系;而基于Transformer的方法又面临属性关系需要人工分组或固定聚类算法获取的困境。更棘手的是,当训练数据不足或图像质量较差时,模型很容易被误导——例如将光照阴影误判为胡须特征。

厦门理工学院计算机与信息工程学院的研究团队在《Pattern Recognition》上发表了一项创新研究,提出了一种名为关系引导的视觉-语言Transformer(RVLT)的新方法。这项工作的核心突破在于:首次将语言模态引入FAR任务,通过原始文本自动学习属性间的语义关系,进而指导视觉特征提取。研究人员巧妙地设计了图像-文本交叉注意力(Image-Text Cross-Attention, ITCA)机制,包含图像到文本调整注意力(ITAA)和文本到图像引导注意力(TIGA)两个模块,使模型能够自适应地调整文本标记以适应视觉信息,同时利用调整后的文本标记作为先验知识来引导图像嵌入的分布。

关键技术方法包括:(1)采用轻量级视觉嵌入器和复杂语言嵌入器的双模态架构;(2)创新的ITCA机制实现跨模态交互;(3)令牌选择机制(TSM)过滤背景干扰;(4)图像-文本对齐(ITA)损失和文本感知分类(TAC)损失函数设计。实验使用LFWA和CelebA标准数据集,在仅5% LFWA和0.5% CelebA训练数据时,分别以1.76%和0.25%的优势超越次优方法。

【Our method】部分详细阐述了RVLT的三大创新:首先,ITAA通过图像标记的键值对调整文本标记,使其适应视觉模态;TIGA则利用调整后的文本标记引导图像特征分布。这种双向调节机制有效解决了跨模态对齐难题。其次,TSM通过自注意力图筛选与面部区域相关性最高的Top-K图像标记,既提升特征提取效率又减少计算开销。最后,ITA损失将语言类标记与视觉类标记对齐,TAC损失则确保从原始文本学习的属性关系尽可能准确。

【Datasets and implementation details】展示了在挑战性场景下的卓越性能:LFWA数据集包含13,232张具有40种属性的图像,CelebA则包含202,599张图像。RVLT在这两个数据集上分别达到87.34%和91.80%的准确率,特别是在低训练数据量时优势更为显著,证明了其强大的小样本学习能力。

这项研究的里程碑意义在于:首次实现了语言模态对视觉特征提取的语义级引导,突破了传统FAR方法仅依赖视觉信息的局限。通过自动学习属性间的语义关系,RVLT能够更准确地识别具有挑战性的面部图像,为跨模态学习在细粒度视觉任务中的应用提供了新范式。未来,这种方法可扩展到医疗影像分析、智能安防等领域,为多模态融合研究开辟了新方向。正如Si Chen教授团队指出的,这项工作的核心价值在于"将语义知识转化为视觉特征的指导信号",这种思想很可能引发计算机视觉领域新一轮的方法论革新。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号