面向外中心到自我中心视频生成的自适应记忆优化与感知增强方法
【字体:
大
中
小
】
时间:2025年10月27日
来源:Neurocomputing 6.5
编辑推荐:
本文提出ARPE(自适应记忆优化与感知增强)框架,通过DTD(远距离时序依赖)模块捕获跨视角长程动态特征,SRW(显著性引导权重)模块实现时空注意力聚焦,DPE(DINOv2感知增强)模块融合视角不变语义,显著提升外中心-自我中心(E2VG)视频生成的时空一致性与感知真实度。
• 我们提出DTD模块,通过滑动窗口捕获外中心与自我中心序列间的远距离时序依赖关系,利用自我中心引导的跨视角对齐从远端外中心帧提取自我中心相关语义。
• 我们设计SRW模块,同步执行帧间与帧内自适应加权,选择性聚焦于时序信息丰富的帧和空间显著区域,引导模型关注语义丰富且视角相关的内容。
• 我们引入DPE模块,利用DINOv2的视角不变对象-场景语义分层优化生成帧,增强语义完整性并促进跨视角一致性。
• 在挑战性无提示E2VG设定上的大量实验表明,我们的ARPE框架相比现有基准方法实现显著提升。
本文提出自适应记忆优化与感知增强(ARPE)框架,针对无提示的外中心-自我中心跨视角视频生成任务,通过整合显著长程时序线索与感知特征,强化了时空对齐与感知真实感。该方法利用远距离时序动态(DTD)提取自我中心相关的长程外中心信息,提升重建特征保真度;通过显著性引导相关性加权(SRW)模块自适应聚焦关键时空内容;并借助DINOv2感知增强(DPE)注入视角不变语义,显著改善生成视频的语义连贯性。实验验证了各组件的协同有效性,为跨视角视频合成提供了新范式。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号