微软AI推出基于ZeRO的高级通信优化策略,加速大型模型训练

2025-04-15 来源|AI图库吧

AI奇点网6月28日报道 | 微软研究人员在人工智能领域的创新之一是ZeRO++,一种旨在优化大型模型训练的系统。大规模模型如Turing-NLG、ChatGPT和GPT-4的训练需要跨多个GPU设备的大量内存和计算资源。为了克服ZeRO在小批量和低带宽集群训练中的限制,DeepSpeed团队开发了ZeRO++,它在现有的ZeRO优化基础上引入了增强的通信策略。

ZeRO系列优化使用集体GPU内存和计算能力进行模型状态的跨GPU划分,而不是复制。然而,在训练过程中,ZeRO可能会导致较高的通信开销。为了解决这个问题,ZeRO++结合了三个通信优化策略:量化权重通信(qwZ)、分层权重划分(hpZ)和量化梯度通信(qgZ)。

ZeRO++采用了权重量化,利用基于块的量化来降低参数通信量,并保持训练精度。通过在每台机器内维护完整的模型副本来交换GPU内存进行通信,最大限度地减少了反向传播期间的通信开销。对于梯度通信,ZeRO++引入了qgZ,一种新颖的量化梯度通信范例,可以减少跨节点流量和延迟。

这些通信优化使通信量显著减少,ZeRO++相较于ZeRO的减少量可达到4倍,从而提高了训练吞吐量和效率。当每个GPU使用小批量大小时,在高带宽集群中,ZeRO++的吞吐量比ZeRO-3提高了28%到36%。与ZeRO-3相比,ZeRO++在低带宽集群中平均加速了2倍,使得大型模型训练更容易在更广泛的集群中进行。

除了训练场景,ZeRO++还可以扩展到使用人类反馈(RLHF)训练的强化学习对话模型中。通过与DeepSpeed-Chat的集成,RLHF训练可以受益于改进的生成和训练阶段,实现比ZeRO更高的生成吞吐量(高出2.25倍)和训练吞吐量(高出1.26倍)。

DeepSpeed发布了ZeRO++,使得大型模型训练更加高效,并可供AI社区使用。这一系统旨在加速训练、减少通信开销,并实现更大的批量,最终节省时间和资源。研究人员和从业者可以利用ZeRO++更有效地训练ChatGPT等模型,并探索人工智能的新可能性。

最新
更多

微软AI推出基于ZeRO的高级通信优化策略,加速大型模型训练

微软研究人员开发了名为ZeRO++的系统,旨在解决大型人工智能模型训练中的数据传输开销和带宽限制问题。ZeRO++基于现有的ZeRO优化,提供了增强的通信策略,以提高训练效率、降低训练时间和成本。这一优化策略将受益于Turing-NLG、ChatGPT和GPT-4等大型模型的训练,解决了小批量和低带宽集群的限制。

《人工智能生成合成内容标识办法》答记者问

近日,国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局联合发布《人工智能生成合成内容标识办法》(以下简称《标识办法》),自2025年9月1日起施行。日前,国家互联网信息办公室有关负责人就《

谷歌透露开发中的语言模型 Gemini,将结合 AlphaGo 技术和大型语言模型

谷歌公司在最近的采访中透露了正在开发中的大型语言模型 Gemini。该系统将结合 AlphaGo 技术和大型语言模型,在赋予系统规划和问题解决等新的能力,超过 OpenAI 的 GPT-4。

全球AI电影大奖得主谈海螺AI体验感“技术平权让人震撼!”

国产AI电影崛起!近日,在麻省理工学院(MIT)举办的全球AI电影黑客马拉松(MIT AI Filmmaking Hackathon)中,由海螺视频与中国传媒大学未来影像研究中心联合出品的AI短片《电火花之舞》(Dance of E-Spark)凭

中国联通国际董事长孟树森呼吁应对大模型技术挑战并抓住发展机遇

中国联通国际有限公司董事长兼总经理孟树森表示,ChatGPT等大模型技术的进步将加速人类社会进入通用人工智能时代。中国联通发布的图文大模型“鸿湖图文大模型1 0”,以及其在运营商增值业务方面的应用。

网络犯罪的“智能帮凶”:OpenAI Operator 等 AI 智能体成黑客新武器

网络安全公司 Symantec 于 3 月 13 日发布博文,指出 AI 智能体(如 OpenAI 的 Operator)已突破传统工具功能限制,可协助黑客发起钓鱼攻击、构建攻击基础设施。 研究人员强调,这类 AI 工具正从“被动辅助”转向“

网站地图