
GPU交换网络技术简介
5星
- 浏览量: 0
- 大小:None
- 文件类型:PDF
简介:
GPU交换网络技术是一种旨在优化和增强图形处理器之间数据传输效率的技术,适用于高性能计算、机器学习及大数据处理等领域。
### GPU交换网络技术概要
#### 一、GPU交换网络技术概述
GPU交换网络技术是专为高性能计算(HPC)、人工智能(AI)和深度学习(DL)领域设计的一种网络架构,旨在解决大规模GPU集群之间的高效数据通信问题。随着GPU在机器学习领域的应用日益广泛,如何构建一个能够支持高效数据传输的网络成为了研究的重点。
#### 二、GPU网络拓扑结构
GPU网络拓扑的选择直接影响着整个系统的性能和成本。两种主要的构建GPU网络拓扑的方法包括:
1. **Fat-tree CLOS拓扑**:
- 特点:具备无阻塞的全连接特性,能够支持任意节点之间的通信,不受训练模型类型的限制。
- 应用场景:是公有云提供商常用的方案,适用于训练多种模型,如大规模嵌入表的推荐模型等。
- 缺点:构建成本高昂,需要大量交换机和更多的跳数,可能导致拥塞和长尾延迟。
2. **针对特定训练工作负载优化的拓扑**:
- 特点:针对特定的大型语言模型(LLM)训练工作负载进行优化,使得集群运行更加高效。
- 应用场景:在构建专用GPU集群的超大规模企业中很常见。
- 示例:Google使用的3D环面拓扑、Meta采用的带有超额订阅Spine链路的轨道优化Leaf交换机,以及某些HPC架构中采用的蜻蜓拓扑。
#### 三、Rail-Only拓扑详解
Meta的一篇论文分析了大型GPU集群中的流量模式,并提出了一种名为Rail-Only的拓扑结构。具体来说:
- 高带宽(HB)域集群:由256个GPU组成,所有GPU通过层级化的NVSwitch相连。
- 轨优化交换机:用于连接这些HB域,以实现GPU间的高效通信。
- 流量分析:
- 大部分GPU对之间不承载任何流量(99%)。
- 极少数GPU对承载流水线张量并行和第二阶段数据并行流量(<0.25%)。
- 这两种流量类型占据了总传输数据量的90%以上。
- 论文指出,Rail-Only拓扑可以达到与无阻塞CLOS拓扑相同的性能水平。
- 连接方式:在Rail-Only拓扑中,所有M个HB域中的第N个GPU通过400Gbps链路连接到Mx400G的Rail交换机。
#### 四、训练GPT-3模型时的GPU对之间的流量参数
- GH200超级计算机:提供256-GPU HB域,揭示了LLM训练的流量模式及如何优化CLOS的Spine层。
- Rail-Optimized CLOS拓扑:采用标准GPU服务器(8个GPU的HB域),通过连接每个服务器中的第N个GPU到第N个Leaf交换机,实现更高带宽和无阻塞连接。
- 拓扑结构示例:当GPU需要将数据移动到另一台服务器中不同轨的GPU时,首先使用NVlink将数据移动到目标GPU所在的服务器GPU的内存中,然后通过Rail交换机发送数据。
#### 五、Rail-Optimized连接的特点
对于大多数LLMTransformer模型而言,Rail-Optimized连接可以有效支持以下几种流量类型:
- 张量并行流量:通常位于GPU服务器内部,具有高带宽特征。
- 流水线并行流量:在GPU服务器之间使用Rail-Optimized进行通信。
- 数据并行流量:每次迭代发生一次,可采用层级化的ring-all-reduce或二叉树方法来减少通信开销。
#### 六、扩展性问题
当使用低缓存固定配置交换机时,通过Rail-only交换机来扩展集群存在一定的难度。目前最大的低缓存Rail交换机具有128个400G端口,每台服务器配备8块GPU,每8个GPU列配备8台Rail交换机,这意味着使用Rail交换机构建的最大网络规模仅为1024个GPU。对于超过1024个GPU的集群,则需要引入Spine交换机来实现GPU间的高效数据并行通信。
GPU交换网络技术是支持现代深度学习和人工智能发展的关键技术之一。通过合理选择拓扑结构和优化连接方式,可以极大地提升GPU集群的整体性能和效率。
全部评论 (0)


