首页 » CoDi:多模态任意输入输出

CoDi:多模态任意输入输出

by AIBackup

CoDi(Composable Diffusion)是由北卡罗来纳大学教堂山分校和微软Azure认知服务研究团队共同开发的一种新型生成模型。这种模型的独特之处在于,它能够从任意组合的输入模态(如语言、图像、视频或音频)生成任意组合的输出模态。这意味着,CoDi的输入不仅限于文本或图像等子集,而且可以并行生成多种模态。

可组合扩散使用多阶段训练方案,能够仅对线性数量的任务进行训练,但能够推断输入和输出模式的所有组合。

尽管许多模态组合的训练数据集不存在,但CoDi仍能自由地根据任何输入组合生成任何模态组,甚至包括训练数据中不存在的模态。为了实现这一目标,CoDi采用了一种新颖的组合生成策略,通过在扩散过程中建立共享的多模态空间,实现了模态在输入和输出空间的对齐。这使得CoDi能够同步生成如时间对齐的视频和音频等交织的模态。

CoDi的架构采用了多阶段训练方案,使其能够仅在线性数量的任务上进行训练,但在所有输入和输出模态的组合上进行推理。这种高度定制化和灵活性使CoDi在联合模态生成质量上表现出色,并在单一模态合成上达到或超过了单一模态的最新水平。

项目地址:CoDi官方网站

也许你还会喜欢