ImageBind：人工智能跨感官“链接”的新方式

by AIBackup 2023-05-26

written by AIBackup 2023-05-26

当人类从世界获取信息时，我们天生就会使用多种感官，比如看到繁忙的街道并听到汽车引擎的声音。

如今，Meta公司推出了一种新的方法，使机器更接近人类的能力，可以同时、全面地、直接从多种不同形式的信息中学习，而无需显式监督（组织和标记原始数据的过程）。他们构建并开源了ImageBind，这是首个能够整合六种模态信息的人工智能模型。

这个模型学习一个单一的嵌入，或者说共享的表示空间，不仅适用于文本、图像/视频和音频，还适用于记录深度（3D）、热量（红外辐射）和惯性测量单元（IMU）的传感器，这些传感器可以计算运动和位置。ImageBind使机器具备全面的理解能力，可以将照片中的物体与它们的声音、3D形状、温度以及它们的运动方式联系起来。

ImageBind可以超越之前为一种特定模态训练的专业模型，但最重要的是，它通过使机器能够更好地分析多种不同形式的信息，推动了人工智能的进步。例如，使用ImageBind，Meta的Make-A-Scene可以从音频创建图像，比如根据雨林或繁忙市场的声音创建图像。其他未来的可能性包括更准确的识别、连接和审查内容的方式，以及提升创意设计，比如更无缝地生成更丰富的媒体，创建更广泛的多模态搜索功能。

ImageBind是Meta努力创建从周围所有可能类型的数据中学习的多模态AI系统的一部分。随着模态数量的增加，ImageBind为研究人员尝试开发新的、全面的系统打开了大门，比如结合3D和IMU传感器来设计或体验沉浸式的虚拟世界。ImageBind也可以提供一种丰富的方式来探索记忆——使用文本、音频和图像的组合来搜索图片、视频、音频文件或文本消息。

在典型的AI系统中，每种模态都有一个特定的嵌入（也就是可以在机器学习中表示数据及其关系的数字向量）。ImageBind表明，可以在多种模态之间创建一个联合嵌入空间，而无需在每种不同的模态组合上进行训练。这一点很重要，因为研究人员不可能创建包含例如繁忙城市街道的音频数据和热量数据，或者海边悬崖的深度数据和文本描述的样本的数据集。

正如最近在从文本生成图像、视频和音频方面取得了令人兴奋的进展（比如Make-A-Scene和Meta的Make-A-Video），ImageBind的多模态能力可以让研究人员使用其他模态作为输入查询，并以其他格式检索输出。ImageBind也是向构建能够像人类一样全面分析不同类型数据的机器迈出的重要一步。

通过将六种模态的嵌入对齐到一个公共空间，ImageBind可以检索不同类型的内容，这些内容并未一起观察，可以添加来自不同模态的嵌入以自然地组合它们的语义，并通过使用我们的音频嵌入和预训练的DALLE-2解码器与CLIP文本嵌入一起工作，进行音频到图像的生成。

ImageBind是Meta最近一系列开源AI工具的多模态模型。这包括计算机视觉模型，如DINOv2，这是一种新方法，不需要微调训练高性能计算机视觉模型，以及Segment Anything (SAM)，这是一个通用的分割模型，可以根据任何用户提示在任何图像中分割任何对象。ImageBind补充了这些模型，因为它专注于多模态表示学习。它试图学习多种模态的单一对齐特征空间，包括但不限于图像和视频。在未来，ImageBind可以利用DINOv2的强大视觉特征来进一步提升其能力。

相关资料：

ImageBind：人工智能跨感官“链接”的新方式

DELiVR：一种基于深度学习的虚拟现实支持的cFos推断流程

斯坦福CS 229机器学习速查表：一站式学习资源

也许你还会喜欢

OpenAI推出新功能：函数调用，AI计算能力再升级（案例）

AI新突破：零样本文本引导的视频到视频转换技术

Galactic：以每秒100k步速度扩展端到端强化学习的重排任务

超越人类：探索“磨刀人”和生物黑客的未来

数据工程领域30个最实用的Python库

AI大清洗：生成型AI如何改变SEO内容流量、工作岗位和依赖网站的未来