图像扩散中的新兴对应关系：一种无监督的图像特征提取方法

by AIBackup 2023-06-07

written by AIBackup 2023-06-07

图像扩散中的新兴对应关系是由康奈尔大学的研究团队提出的一种新型图像特征提取方法，名为DIffusion FeaTures（DIFT）。这种方法的独特之处在于，它能够在无需任何显式监督的情况下，从图像扩散模型中提取出图像的对应关系。

DIFT的工作原理是，通过一种简单的策略，从扩散网络中提取出这种隐含的知识作为图像特征，并使用这些特征在真实图像之间建立对应关系。值得注意的是，DIFT在识别语义、几何和时间对应关系方面，无需任何额外的微调或任务特定数据或注释的监督，就能够优于弱监督方法和竞争性的现有特征提取方法。

特别是在语义对应关系方面，稳定扩散的DIFT能够在SPair-71k基准测试中，比DINO和OpenCLIP分别高出19和14个准确度点。它甚至在18个类别中的9个类别上，超越了最先进的监督方法，同时在整体性能上保持了与这些方法的平行。

DIFT还提供了一个交互式的演示，用户可以在自己的图像上试验这种语义对应关系。用户可以在源图像上点击一个有趣的点，然后在1或2秒后，目标图像上的对应点将以红点的形式显示在右侧，同时还会显示一个使用DIFT计算的每像素余弦距离的热图。

除了语义对应关系，DIFT还在几何对应关系和时间对应关系方面表现出强大的性能。例如，DIFT可以在没有任何对应监督的情况下，轻松地将一个图像的编辑传播到其他具有语义对应关系的图像中，甚至可以跨越不同的类别和领域。

有关DIFT的更多信息和实际应用，可以参考以下相关资料：