首页 » 一图多解:Break-A-Scene的图像概念提取技术

一图多解:Break-A-Scene的图像概念提取技术

by AIBackup
 

Break-A-Scene是一种新颖的图像处理技术,由Google Research、耶路撒冷希伯来大学、特拉维夫大学和Reichman大学的研究人员共同开发。该技术可以从单一图像中提取多个概念,并使用自然语言引导在各种上下文中重新合成这些概念。

Break-A-Scene的核心是文本场景分解任务,即从可能包含多个概念的单一场景图像中提取出每个概念的独特文本标记,从而实现对生成场景的细粒度控制。为此,研究人员提出了一种新颖的两阶段定制过程,该过程优化了一组专用的文本嵌入(句柄)以及模型权重,以在准确捕获概念和避免过拟合之间取得微妙的平衡

此外,Break-A-Scene还引入了一种名为”union-sampling“的训练策略,以提高在生成图像中结合多个概念的能力。该技术还使用了一种被称为”masked diffusion loss”的损失函数,以确保每个句柄只能生成其指定的概念,并通过对交叉注意图的额外损失来防止概念的混淆。

Break-A-Scene的应用广泛,包括场景分解、场景重组、本地图像编辑和背景提取等。研究人员通过多个自动度量标准和用户研究来定量比较其方法与其他基线方法,并展示了其方法的多种应用。

更多信息,请参阅相关资料

也许你还会喜欢