
-
生物通官微
陪你抓住生命科技
跳动的脉搏
序列生成范式下的行人属性识别:基于生成式模型的创新方法
【字体: 大 中 小 】 时间:2025年08月31日 来源:Pattern Recognition 7.6
编辑推荐:
本文提出创新性序列生成框架SequencePAR,突破传统行人属性识别(PAR)多标签分类范式,采用Transformer解码器整合视觉特征与文本提示(text prompts),通过掩码多头注意力(masked multi-head attention)实现属性序列的联合概率建模。实验在PETA数据集实现84.92%准确率,有效解决数据不平衡(imbalanced data)和噪声标注(noisy samples)问题,为智能监控(intelligent video monitoring)和自动驾驶(autonomous driving)提供新思路。
Highlight
本文突破传统行人属性识别(PAR)的判别式模型框架,首次提出基于序列生成(sequence generation)的SequencePAR方法。通过CLIP视觉编码器提取特征,结合文本提示(text prompts)构建属性查询令牌(query tokens),利用掩码Transformer解码器(masked Transformer decoder)实现属性间条件概率建模,显著提升对长尾属性(tail attributes)和噪声样本的鲁棒性。
Related Works
现有PAR方法主要依赖卷积神经网络(CNN)或图神经网络(GNN),但多标签分类框架难以捕捉属性间语义关联(如"裙子→女性"的强相关性)。相较之下,生成式模型(generative models)通过序列联合概率P(A1,A2,...,AN)动态建模属性依赖关系,为PAR研究开辟新路径。
Methodology
SequencePAR核心包含:1)视觉-文本双模态编码,将属性短语嵌入为查询令牌;2)掩码解码器层(masked decoding),通过自回归生成(autoregressive generation)实现属性预测的语义纠偏(如纠正"短袖+裙子→男性"的错误标注);3)贪心搜索(greedy search)推理机制。
Experiments
在PETA等基准测试中,SequencePAR以90.46% F1-score超越现有技术(state-of-the-art)。可视化分析显示,模型能自主挖掘属性间隐含关联(如"背包→站立姿态"),验证生成式框架在复杂场景下的优越性。
Conclusion and Future Works
本研究将PAR重构为序列生成任务,未来可探索:1)大规模预训练语言模型(LLM)的迁移应用;2)多模态提示(multimodal prompts)优化;3)动态属性集扩展机制。代码已开源(https://github.com/Event-AHU/OpenPAR)。
生物通微信公众号
知名企业招聘