面向外中心到自我中心视频生成的自适应记忆优化与感知增强方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月27日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出ARPE（自适应记忆优化与感知增强）框架，通过DTD（远距离时序依赖）模块捕获跨视角长程动态特征，SRW（显著性引导权重）模块实现时空注意力聚焦，DPE（DINOv2感知增强）模块融合视角不变语义，显著提升外中心-自我中心（E2VG）视频生成的时空一致性与感知真实度。

亮点

• 我们提出DTD模块，通过滑动窗口捕获外中心与自我中心序列间的远距离时序依赖关系，利用自我中心引导的跨视角对齐从远端外中心帧提取自我中心相关语义。

• 我们设计SRW模块，同步执行帧间与帧内自适应加权，选择性聚焦于时序信息丰富的帧和空间显著区域，引导模型关注语义丰富且视角相关的内容。

• 我们引入DPE模块，利用DINOv2的视角不变对象-场景语义分层优化生成帧，增强语义完整性并促进跨视角一致性。

• 在挑战性无提示E2VG设定上的大量实验表明，我们的ARPE框架相比现有基准方法实现显著提升。

结论

本文提出自适应记忆优化与感知增强（ARPE）框架，针对无提示的外中心-自我中心跨视角视频生成任务，通过整合显著长程时序线索与感知特征，强化了时空对齐与感知真实感。该方法利用远距离时序动态（DTD）提取自我中心相关的长程外中心信息，提升重建特征保真度；通过显著性引导相关性加权（SRW）模块自适应聚焦关键时空内容；并借助DINOv2感知增强（DPE）注入视角不变语义，显著改善生成视频的语义连贯性。实验验证了各组件的协同有效性，为跨视角视频合成提供了新范式。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号