首页 » Make-An-Animation:大规模文本驱动的3D人体运动生成

Make-An-Animation:大规模文本驱动的3D人体运动生成

by AIBackup

在动画和机器人技术等领域,文本引导的人体运动生成一直备受关注。近期,运动生成的扩散模型的应用已经提高了生成运动的质量。然而,现有的方法由于依赖相对小规模的运动捕捉数据,导致在更多样化、实际环境中的提示上表现不佳。

在论文中,研究人员介绍了Make-An-Animation,这是一种文本驱动的人体运动生成模型,它从大规模的图像文本数据集中学习更多样的姿态和提示,从而显著提高了性能,超越了之前的工作。

Make-An-Animation的训练分为两个阶段。首先,研究人员在精选的大规模数据集上进行训练,这些数据集包含从图像文本数据集中提取的(文本,静态伪姿态)对。其次,他们在运动捕捉数据上进行微调,添加额外的层来模拟时间维度。

与之前的运动生成扩散模型不同,Make-An-Animation使用了类似于最近的文本到视频生成模型的U-Net架构。人类对运动真实性和与输入文本的对齐进行的评估显示,模型在文本到运动生成上达到了最新的性能。

参考资料:

  1. Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

也许你还会喜欢