全面识别：强大的图像标签模型RAM

AIBackup2023-06-070644 views

研究人员开发了Recognize Anything Model (RAM)，这是一个强大的图像标签基础模型。RAM能够准确识别任何常见类别，并引入了一种新的图像标签范式，利用大规模的图像-文本对进行训练，而不是手动注释。

RAM的开发包括四个关键步骤。首先，通过自动文本语义解析，大规模获取无注释的图像标签。然后，通过统一标题和标签任务，训练一个初步模型进行自动注释，由原始文本和解析标签分别进行监督。其次，使用数据引擎生成额外的注释并清理错误的注释。最后，使用处理过的数据重新训练模型，并使用较小但质量更高的数据集进行微调。

研究人员在多个基准上评估了RAM的标签能力，并观察到了令人印象深刻的零样本性能，显著优于CLIP和BLIP。值得注意的是，RAM甚至超过了完全监督的方式，并展示了与Google API竞争的性能。

研究人员在这里发布RAM项目，以推动计算机视觉中大型模型的进步。

更多信息，请参阅相关资料：

图像扩散中的新兴对应关系：一种无监督的图像特征提取方法

人工智能如何拯救世界：解析马克·安德森的观点

Related posts

OpenAI推出新功能：函数调用，AI计算能力再升级（案例）

AI新突破：零样本文本引导的视频到视频转换技术

Galactic：以每秒100k步速度扩展端到端强化学习的重排任务