
-
生物通官微
陪你抓住生命科技
跳动的脉搏
语义引导的动态注意力框架DAMF:面向视觉-触觉-文本多模态融合的机器人感知创新
【字体: 大 中 小 】 时间:2025年08月10日 来源:Knowledge-Based Systems 7.6
编辑推荐:
本文提出语义引导的动态注意力框架(DAMF),通过双跨模态注意力机制实现视觉-触觉双向交互:全局视觉语义指导触觉探索(TAHS),触觉反馈动态优化视觉注意力。针对触觉数据稀疏性,创新性引入文本辅助学习框架,利用结构化语义先验增强小样本条件下的表征学习。所构建的HTV多模态数据集为领域提供新基准。
Highlight
本研究亮点在于开发了具有语义引导能力的动态注意力框架(DAMF),通过双路径跨模态交互机制突破传统单向融合局限:视觉全局特征作为查询(Query)向量引导触觉局部特征选择,触觉反馈则通过键值(Key-Value)矩阵动态调整视觉注意力分布。这种双向动态调节机制使模型能自适应捕捉不同任务场景下的主导模态优势。
Method
如图2所示,多模态框架包含三大核心模块:
TAHS文本辅助触觉学习:通过BERT编码的文本语义向量(element-wise)缩放触觉特征维度,将材质描述(如"粗糙度0.8")等高层语义锚定到触觉表征空间
局部调制自注意力:采用门控机制限制文本模态对触觉特征的全局干扰,保留拓扑结构的同时增强跨模态对齐效率
双分支动态权重:实时生成的可学习矩阵α∈[0,1]调控视觉→触觉(V-H)和触觉→视觉(H-V)两条融合路径的贡献度
Introduction to the Datasets
实验采用三大触觉数据集:
GelSight仿真数据集:通过Sim2Real学习生成的320×320触觉图像,包含10类物体硬度/纹理的量化标签
Touch-and-Go:真实机器人采集的同步视觉-触觉数据流,特别包含光照变异场景
MSDO:提供开放词汇文本标注,如"象腿皮肤褶皱深度>2mm"等细粒度语义
Experimental setup
所有模型在PyTorch框架下实现:
触觉/视觉输入:3202分辨率,ImageNet标准化
文本处理:BERT分词后截取128个token
优化器:Adam(lr=0.001, batch=16)
关键创新:仅需10%触觉数据即可达到基线模型90%准确率
Conclusion and Future Work
DAMF框架通过语义引导的动态注意力机制,显著提升视觉-触觉融合在数据稀缺场景下的鲁棒性。未来将探索:1) 触觉传感器的跨平台泛化;2) 引入嗅觉等多模态扩展;3) 基于强化学习的动态权重优化策略。
生物通微信公众号
知名企业招聘