揭秘ChatGPT背后的运行机制：微软AI超级计算机内部解析

by AIBackup 2023-05-26

written by AIBackup 2023-05-26

在最新的YouTube视频中，微软Azure CTO马克·鲁西诺维奇深入解析了运行ChatGPT等大型语言模型的AI超级计算机的内部构造。他详细介绍了微软如何构建专门的硬件和软件堆栈，以支持大型语言模型的训练和推理，以及如何利用这些技术优化运行效率。

鲁西诺维奇表示，微软在AI领域的工作已经持续了几十年，但在过去的十年中，由于GPU和云规模基础设施的崛起，AI能力有了巨大的提升。微软在Azure中建立了专门的硬件和软件堆栈，以支持大型语言模型的训练和推理。他们的AI超级计算机可以训练规模达到数百亿参数的模型。

鲁西诺维奇还介绍了微软如何优化硬件以提高运行效率。他表示，微软已经使用InfiniBand在高性能计算集群中进行网络连接已经有十年的时间了。InfiniBand比以太网具有更好的成本效益，Azure是所有云服务中唯一使用InfiniBand的。这也是OpenAI选择微软作为合作伙伴的关键原因之一。

在软件方面，微软开发了一种名为Project Forge的全球调度服务，用于运行微软的全球规模AI工作负载并保持高度利用率。Project Forge可以透明地进行检查点操作，定期保存模型的状态，而无需模型的代码进行任何操作。这样，如果出现任何故障，可以快速从最近的检查点恢复。

鲁西诺维奇还提到了微软如何利用他们的技术优化运行效率。他们开发了一种名为低秩适应（LoRA）微调的技术，只关注模型中需要改进的部分。这样，对于像GPT这样的模型，你可能只需要微调总参数的不到一百分之一。这意味着，你可能只需要24个GPU，而不是96个，而且每个检查点的大小只有200MB，而不是1TB。

此外，鲁西诺维奇还讨论了如何利用Azure的AI超级计算机能力来处理自己的工作负载。他表示，微软的AI基础设施支持从非常小的工作负载（如他在视频中展示的那样）到非常大的工作负载（如OpenAI的规模）。如果你只想利用微软的优化硬件基础设施，你可以直接使用虚拟机，并利用他们的硬件基础设施，最佳的GPU，InfiniBand网络，以及他们如何调整这些网络以保持高度利用率和效率。

总的来说，这个视频为我们提供了一个深入了解微软如何构建和优化AI超级计算机的机会，以支持大型语言模型的训练和推理。这些技术的发展不仅对微软自身的服务有着重要的影响，也为其他公司和个人提供了利用AI技术的可能性。

揭秘ChatGPT背后的运行机制：微软AI超级计算机内部解析

240款真实机器人一网打尽：ROBOTS互动指南全新上线

Colossal-AI：让大规模AI模型更低成本、更易用、更高效

也许你还会喜欢

OpenAI推出新功能：函数调用，AI计算能力再升级（案例）

AI新突破：零样本文本引导的视频到视频转换技术

Galactic：以每秒100k步速度扩展端到端强化学习的重排任务

超越人类：探索“磨刀人”和生物黑客的未来

数据工程领域30个最实用的Python库

AI大清洗：生成型AI如何改变SEO内容流量、工作岗位和依赖网站的未来