
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CrowdMoGen:事件驱动的集体人类运动生成
《INTERNATIONAL JOURNAL OF COMPUTER VISION》:CrowdMoGen: Event-Driven Collective Human Motion Generation
【字体: 大 中 小 】 时间:2026年01月05日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3
编辑推荐:
提出CrowdMoGen首个零样本大规模人群动作生成框架,结合LLMs场景规划与SMPL关节先验生成事件对齐、空间一致的逼真动作序列,应用于城市模拟等场景。
尽管最近在文本到动作生成方面的进展取得了令人鼓舞的结果,但这些方法通常假设所有个体都被视为一个整体单元。将这些方法扩展到处理更大规模的人群,并确保个体能够对特定事件做出适当反应,仍然是一个重大挑战。这主要是由于场景规划的复杂性——包括组织群体、规划他们的活动以及协调互动——以及可控动作生成的难度。在本文中,我们提出了CrowdMoGen,这是第一个用于集体动作生成的零样本框架,它能够有效地对个体进行分组,并根据文本提示生成与事件对齐的动作序列。1) 由于可用于监督训练有效场景规划模块的数据集有限,我们提出了一种人群场景规划器,该规划器利用预训练的大型语言模型(LLMs)将个体划分为不同的组。虽然LLMs可以为群体划分提供高层次的指导,但它们缺乏对人类动作的底层理解。为了解决这个问题,我们进一步提出集成基于SMPL的联合先验知识,以生成符合上下文的活动,这些活动包括联合轨迹和文本描述。2) 其次,为了将分配的活动融入生成网络,我们引入了一个集体动作生成器,该生成器以联合的方式将活动整合到基于Transformer的网络中,在多步去噪过程中保持空间约束。广泛的实验表明,CrowdMoGen的性能显著优于以往的方法,能够生成具有空间连贯性的、由事件驱动的真实动作序列。作为第一个集体动作生成框架,CrowdMoGen有潜力推动城市模拟、人群规划和其他大规模交互环境中的应用发展。
尽管最近在文本到动作生成方面的进展取得了令人鼓舞的结果,但这些方法通常假设所有个体都被视为一个整体单元。将这些方法扩展到处理更大规模的人群,并确保个体能够对特定事件做出适当反应,仍然是一个重大挑战。这主要是由于场景规划的复杂性——包括组织群体、规划他们的活动以及协调互动——以及可控动作生成的难度。在本文中,我们提出了CrowdMoGen,这是第一个用于集体动作生成的零样本框架,它能够有效地对个体进行分组,并根据文本提示生成与事件对齐的动作序列。1) 由于可用于监督训练有效场景规划模块的数据集有限,我们提出了一种人群场景规划器,该规划器利用预训练的大型语言模型(LLMs)将个体划分为不同的组。虽然LLMs可以为群体划分提供高层次的指导,但它们缺乏对人类动作的底层理解。为了解决这个问题,我们进一步提出集成基于SMPL的联合先验知识,以生成符合上下文的活动,这些活动包括联合轨迹和文本描述。2) 其次,为了将分配的活动融入生成网络,我们引入了一个集体动作生成器,该生成器以联合的方式将活动整合到基于Transformer的网络中,在多步去噪过程中保持空间约束。广泛的实验表明,CrowdMoGen的性能显著优于以往的方法,能够生成具有空间连贯性的、由事件驱动的真实动作序列。作为第一个集体动作生成框架,CrowdMoGen有潜力推动城市模拟、人群规划和其他大规模交互环境中的应用发展。
生物通微信公众号
知名企业招聘