AI 正在推动对更先进计算基础设施的需求,包括网络。网络带宽的不足常常成为驱动 AI 应用信息处理的瓶颈。计算基础设施的速度仅取决于其最弱环节,而这个环节往往就是网络。通过与NVIDIA合作,Supermicro 已经在其多个系统中验证了新的 NVIDIA Spectrum-X 网络平台,允许AI 工作负载的网络性能提高多达1.6倍,同时增加能效并降低总体成本。结合 NVIDIA Spectrum-4以太网交换机和 NVIDIA BlueField®-3 SuperNIC,客户现在可以最大化 AI 云处理基础设施的性能。
目前正在验证配备 NVIDIA Spectrum-X 网络解决方案的系统包括 Supermicro 明星 GPU 超级服务器,包括4U、5U和8U,并支持以下系统中的 NVIDIA GPU:
- 搭载 NVIDIA HGX H100 8-GPU 系统的 Supermicro 8U GPU 服务器:
- SYS-821GE-TNHR (8U) – Intel CPU
- AS-8125GS-TNHR (8U) – AMD CPU
- SYS-421GU-TNXR (4U) – Intel CPU
- 搭载 NVIDIA H100 PCIe GPU 或 NVIDIA L40S GPU 的 Supermicro 通用 GPU 服务器(4U和5U):
- SYS-521GE-TNRT (5U) – Intel CPU
- SYS-421GE-TNRT (4U) – Intel CPU
- SYS-421GE-TNRT3 (4U) – Intel CPU
- AS-4125GS-TNRT (4U) – AMD CPU
- AS-4125GS-TNRT2 (4U) – AMD CPU
这些由 NVIDIA Spectrum-X 驱动的 Supermicro 系统减少了基于大型变换器的生成式 AI 模型的训练和推理时间,这对于从 AI 中快速获得数据至关重要。
除了为 AI 极大提高1.6倍的网络性能外,配备 NVIDIA Spectrum-X 网络的 Supermicro 系统还从多租户环境中隔离工作负载性能中受益。允许工作负载独立于移动数据,不受可能阻碍性能的“嘈杂邻居”干扰,这对于高性能应用至关重要。此外,隔离网络工作负载还提供了额外的安全优势,可以防止一个工作负载中的恶意行为者干扰另一个独立的工作负载。NVIDIA Spectrum-X 通过为每个租户分配安全的虚拟私有云(VPCs)来实现这种增强的工作负载隔离。
能效一直是运行高性能、高功率 AI 系统时的主要关注点。通过在相同的网络功耗范围内提供更好的网络性能,NVIDIA Spectrum-X 可以为更节能的 AI 环境做出贡献,从而降低整体功耗和总体拥有成本。对于控制能源成本的用户,配备 Spectrum-X 的 Supermicro 系统是一个不错的选择。
NVIDIA Spectrum-X 完全基于标准设计,并且与基于以太网的堆栈可以实现完全互操作。此外,配备 NVIDIA Spectrum-X 的 Supermicro 服务器可以帮助客户克服部署 AI 的最大挑战——可扩展性。凭借在单个交换机中支持256个200G端口或在两层叶/脊拓扑中支持16K端口的能力,这些系统非常适合需要不断扩展基础设施的组织。
随着 Supermicro 努力满足不仅需要高性能网络而且需要云多租户的 AI 客户的需求,新系统利用远程直接内存访问(RDMA)、收敛以太网(RoCE)扩展来支持性能和多租户。与传统以太网相比,其性能大幅增长。
对于需要更快获得关键数据、多租户和未来可扩展性的客户,这些配备 NVIDIA Spectrum-X 的Supermicro 系统非常适合他们的需求。