首页 » QLoRA:单GPU实现ChatGPT 99%的性能

QLoRA:单GPU实现ChatGPT 99%的性能

by AIBackup

QLoRA是一种高效的微调方法,由华盛顿大学的UW NLP小组开发,能够在单个48GB的GPU上微调65B参数模型,同时保持全16位微调任务性能。这一成果在他们的论文”QLoRA: Efficient Finetuning of Quantized LLMs”中得到了详细的阐述。

QLoRA的工作原理是通过冻结的4位量化预训练语言模型反向传播梯度到低秩适配器(LoRA)。他们最好的模型系列,名为Guanaco,超越了Vicuna基准测试中所有之前公开发布的模型,达到了ChatGPT性能水平的99.3%,而只需要在单个GPU上微调24小时。

为了节省内存而不牺牲性能,QLoRA引入了一些创新:(a)4位NormalFloat(NF4),一种新的数据类型,对于正态分布的权重在信息理论上是最优的;(b)双重量化,通过量化量化常数来减少平均内存占用;(c)分页优化器,用于管理内存峰值。

QLoRA被用于微调了超过1000个模型,对8个指令数据集、多种模型类型(LLaMA,T5),以及无法通过常规微调运行的模型规模(例如33B和65B参数模型)进行了详细的指令跟踪和聊天机器人性能分析。他们的结果显示,QLoRA在小型高质量数据集上的微调可以达到最先进的结果,即使使用的模型比之前的SoTA小。

他们提供了基于人类和GPT-4评估的聊天机器人性能的详细分析,显示GPT-4评估是一种便宜且合理的人类评估替代品。此外,他们发现当前的聊天机器人基准测试无法准确评估聊天机器人的性能水平。他们发布了所有模型和代码,包括4位训练的CUDA内核。

QLoRA的开源代码已经在GitHub上发布,开发者可以直接使用。此外,他们还提供了一些教程和演示,包括如何在Colab中自己托管Guanaco gradio演示,以及如何使用QLoRA进行推理和微调的Colab笔记本示例。

QLoRA的出现,无疑为人工智能研究者和开发者提供了一种新的、高效的模型微调方法,使得在单个GPU上微调大型模型成为可能,这将对人工智能领域产生深远影响。

相关资料:

也许你还会喜欢