首页 » 揭秘ChatGPT背后的运行机制:微软AI超级计算机内部解析

揭秘ChatGPT背后的运行机制:微软AI超级计算机内部解析

by AIBackup

在最新的YouTube视频中,微软Azure CTO马克·鲁西诺维奇深入解析了运行ChatGPT等大型语言模型的AI超级计算机的内部构造。他详细介绍了微软如何构建专门的硬件和软件堆栈,以支持大型语言模型的训练和推理,以及如何利用这些技术优化运行效率。

鲁西诺维奇表示,微软在AI领域的工作已经持续了几十年,但在过去的十年中,由于GPU和云规模基础设施的崛起,AI能力有了巨大的提升。微软在Azure中建立了专门的硬件和软件堆栈,以支持大型语言模型的训练和推理。他们的AI超级计算机可以训练规模达到数百亿参数的模型

鲁西诺维奇还介绍了微软如何优化硬件以提高运行效率。他表示,微软已经使用InfiniBand在高性能计算集群中进行网络连接已经有十年的时间了。InfiniBand比以太网具有更好的成本效益,Azure是所有云服务中唯一使用InfiniBand的。这也是OpenAI选择微软作为合作伙伴的关键原因之一

在软件方面,微软开发了一种名为Project Forge的全球调度服务,用于运行微软的全球规模AI工作负载并保持高度利用率。Project Forge可以透明地进行检查点操作,定期保存模型的状态,而无需模型的代码进行任何操作。这样,如果出现任何故障,可以快速从最近的检查点恢复。

鲁西诺维奇还提到了微软如何利用他们的技术优化运行效率。他们开发了一种名为低秩适应(LoRA)微调的技术,只关注模型中需要改进的部分。这样,对于像GPT这样的模型,你可能只需要微调总参数的不到一百分之一。这意味着,你可能只需要24个GPU,而不是96个,而且每个检查点的大小只有200MB,而不是1TB。

此外,鲁西诺维奇还讨论了如何利用Azure的AI超级计算机能力来处理自己的工作负载。他表示,微软的AI基础设施支持从非常小的工作负载(如他在视频中展示的那样)到非常大的工作负载(如OpenAI的规模)。如果你只想利用微软的优化硬件基础设施,你可以直接使用虚拟机,并利用他们的硬件基础设施,最佳的GPU,InfiniBand网络,以及他们如何调整这些网络以保持高度利用率和效率。

总的来说,这个视频为我们提供了一个深入了解微软如何构建和优化AI超级计算机的机会,以支持大型语言模型的训练和推理。这些技术的发展不仅对微软自身的服务有着重要的影响,也为其他公司和个人提供了利用AI技术的可能性。

也许你还会喜欢