Meta 已经在其最新的基于以太网的 AI 集群中部署了Arista 7700R4 分布式以太网交换机(DES)。
当 ChatGPT 开始与更广泛的世界产生共鸣时,AI 市场发生了变化。Arista 与 Meta 在共同开发上的合作可以追溯到2018年发布的“7368X4”迷你包100G系统,随后是一系列 OCP 相关的系统,这些系统被广泛部署。
人工智能网络的持续演变
Arista 在高性能计算(HPC)、AI 和机器学习方面的经验可以追溯到公司成立之初,当时许多首批客户正在构建大型计算网络来处理工作负载——用于石油和天然气、研究、医疗、金融(高频交易)等领域。2008年的网络需求特征与2024年的并没有太大不同——非阻塞性能、高速接口、流量管理工具、监控和可见性,不同的是规模。2010年的一个典型 HPC 集群运行在10G以太网上,有几百个节点连接到一个模块化的7500E系列系统的网络。到了2024年,事实上的标准速度是400G以太网,互连运行在800G,AI 集群的规模增加到了数万个计算节点,每个节点都包含多个XPU。
随着大型人工智能语言模型(LLM)的扩展,更高的带宽和更具挑战性的工作负载越来越适合以太网!
苛刻的 AI 应用需要最好的网络
在单个系统中容纳整个数据中心网络的网络需求是不可能的。任何单一系统都受到单个网络包处理器的物理和逻辑容量的限制,或者在多芯片系统中,受到网络机架的大小和计算节点之间的距离的限制。因此,Arista 构建了多层“网络”来满足总需求。
Arista 7800R4是一个高性能的多芯片系统,可以扩展到超过1000个400G端口,是许多大规模数据中心网络的骨干。连接到数万个400G附加XPU的人工智能网络,很快就达到了单个7800R4的上限。今天,许多大规模的 AI 设计已经部署了2层甚至3层的系统,在叶脊架构的后端网络中,有固定和模块化系统的选择。在这些设计中,每个平台都是一个独立的节点,做出转发决策,没有自动或协调的节点间通信以实现无损传输。虽然这提供了最大的自主性和广泛的多供应商互操作性,但它也被迫配置了拥塞管理、性能调整和节点间的负载平衡机制,增加了额外的复杂性。
供应商和客户正集体作为超以太网联盟的一部分,提出可以解决与大规模多级网络中无损传输、高效数据包分发、拥塞和流量管理相关的一些挑战,这些网络具有密集的 AI 工作负载。
理想情况下,一个单一的系统可以扩展并提供避免构建两层网络的需求的能力,但通常可用的模块化数据中心交换机系统都是围绕单个机架的容量和其他限制设计的。
分布式 AI 平台变革的时候已经到来
7700R4 DES平台非常不同。虽然它在物理上看起来像一个两层叶/脊网络一样被布线,但 DES 提供了单跳转发,具有一个高效的织物脊层,这是一个独立的、自治的系统,具有本地转发查找和独立的路径选择决策。
7700R4 DES汇集了 Arista R系列架构的优点,具有专用的 VoQ 用于缓冲大流量,内部100%高效的负载平衡,让您无需调整,以及实现快速的故障转移。
Arista 7700R4 DES是在 Arista 长期客户 Meta 的介入下开发的。根据他们对7800R3的经验以及R系列架构对 AI 工作负载的好处,Meta 想要一个更大规模的解决方案——提供所有相同的好处,并顺利过渡到800G。
7700R4的行为就像一个单一的系统,具有专用的深缓冲区,确保在整个基于以太网的人工智能网络中实现系统范围的无损传输。DES 不受拓扑限制,UEC就绪,针对训练和推理工作负载进行了优化,具有100%高效的架构,并提供了现代人工智能中心所需的丰富的遥测和智能功能。
总结
AI 中心的崛起对现代开放网络提出了更高的要求。Arista Etherlink 产品组合提供了新的选择,从单芯片系统扩展到模块化的多芯片、多层网络和数千个XPU端口。7700R4分布式以太网交换机为人工智能中心带来了结构简单和可扩展的优势,以及经济高效和节能的解决方案。
联系瑞技
AI 崛起既给人们带来了无限机遇,同时又给旧有基础设施带来了巨大的挑战。携手 Arista,一起为你的 IT 基础设施升级换代。
400-8866-490 | sales.cn@bytebt.com