全面识别:强大的图像标签模型RAM

研究人员开发了Recognize Anything Model (RAM),这是一个强大的图像标签基础模型。RAM能够准确识别任何常见类别,并引入了一种新的图像标签范式,利用大规模的图像-文本对进行训练,而不是手动注释。

RAM的开发包括四个关键步骤。首先,通过自动文本语义解析,大规模获取无注释的图像标签。然后,通过统一标题和标签任务,训练一个初步模型进行自动注释,由原始文本和解析标签分别进行监督。其次,使用数据引擎生成额外的注释并清理错误的注释。最后,使用处理过的数据重新训练模型,并使用较小但质量更高的数据集进行微调。

研究人员在多个基准上评估了RAM的标签能力,并观察到了令人印象深刻的零样本性能,显著优于CLIP和BLIP。值得注意的是,RAM甚至超过了完全监督的方式,并展示了与Google API竞争的性能。

研究人员在这里发布RAM项目,以推动计算机视觉中大型模型的进步。

更多信息,请参阅相关资料:

Related posts

OpenAI推出新功能:函数调用,AI计算能力再升级(案例)

AI新突破:零样本文本引导的视频到视频转换技术

Galactic:以每秒100k步速度扩展端到端强化学习的重排任务