CoDi：多模态任意输入输出

by AIBackup 2023-05-23

written by AIBackup 2023-05-23

CoDi（Composable Diffusion）是由北卡罗来纳大学教堂山分校和微软Azure认知服务研究团队共同开发的一种新型生成模型。这种模型的独特之处在于，它能够从任意组合的输入模态（如语言、图像、视频或音频）生成任意组合的输出模态。这意味着，CoDi的输入不仅限于文本或图像等子集，而且可以并行生成多种模态。

尽管许多模态组合的训练数据集不存在，但CoDi仍能自由地根据任何输入组合生成任何模态组，甚至包括训练数据中不存在的模态。为了实现这一目标，CoDi采用了一种新颖的组合生成策略，通过在扩散过程中建立共享的多模态空间，实现了模态在输入和输出空间的对齐。这使得CoDi能够同步生成如时间对齐的视频和音频等交织的模态。

CoDi的架构采用了多阶段训练方案，使其能够仅在线性数量的任务上进行训练，但在所有输入和输出模态的组合上进行推理。这种高度定制化和灵活性使CoDi在联合模态生成质量上表现出色，并在单一模态合成上达到或超过了单一模态的最新水平。

项目地址：CoDi官方网站

CoDi：多模态任意输入输出

“帝国时代II”游戏角色模型的AI改造：Sprite-Diffuser的魔力

特斯拉全自动驾驶Beta版：无人驾驶我去机场

也许你还会喜欢

OpenAI推出新功能：函数调用，AI计算能力再升级（案例）

AI新突破：零样本文本引导的视频到视频转换技术

Galactic：以每秒100k步速度扩展端到端强化学习的重排任务

超越人类：探索“磨刀人”和生物黑客的未来

数据工程领域30个最实用的Python库

AI大清洗：生成型AI如何改变SEO内容流量、工作岗位和依赖网站的未来