Meta、Oracle 和 NVIDIA 之间前所未有的协同作用正在革命化人工智能数据中心的格局。 *Spectrum-X* 的采用,一款前沿以太网交换机,响应了人工智能系统的快速增长。每家公司都渴望将其基础设施转变为真正的 *“大规模 AI 工厂。”* 模型训练的效率和在大规模集群内部署的速度,成为这些科技巨头面临的关键挑战。
Meta 和 Oracle 采用 NVIDIA Spectrum-X 以现代化其 AI 基础设施
Meta 和 Oracle 正在与 NVIDIA 开展战略合作,将以太网交换系统 Spectrum-X 集成到其专用于人工智能的数据中心中。此举旨在满足日益增长的大规模人工智能系统需求,将数据中心改造成真正的“千亿规模 AI 工厂”。NVIDIA 的首席执行官 Jensen Huang 将 Spectrum-X 形容为 “神经系统”,它连接了数百万个 GPU,从而便捷了最大人工智能模型的训练。
优化 AI 训练的效率
Oracle 计划在其 Vera Rubin 架构中使用 Spectrum-X,以实现在数百万 GPU 之间的高效互联。Oracle Cloud Infrastructure 的副总裁 Mahesh Thiagarajan 表示,该配置将提高效率,从而加速新 AI 模型的部署。同时,Meta 亦将这些以太网交换机集成到其内部平台 FBOSS 中,以管理大规模网络。Meta 网络工程副总裁 Gaya Nagarajan 强调,一个 开放和高效 的网络对于支持日益庞大的 AI 模型以及为数十亿用户提供服务具有重要意义。
灵活性与互操作性是设计的核心
根据 NVIDIA 加速计算解决方案 portfolio 负责人 Joe DeLaere 的说法,灵活性是数据中心开发中的核心要素。NVIDIA 的 MGX 系统,凭借其模块化架构,让合作伙伴根据需要组合不同的处理、存储和网络组件。这种方法促进了互操作性,为多个代际硬件提供了统一的框架。
能源效率与功率挑战
随着 AI 模型的不断增长,能源效率成为数据中心面临的主要挑战。NVIDIA 正在采取 整体 方法来改善能源使用和可扩展性。例如,转向 800 伏的直流电源,有助于减少热损失并提高效率。这种新的电源管理方式也最大程度地减少了电网的峰值需求,将最大功率需求降低了 30%,从而增加了计算能力。
可扩展性与数据中心之间的连接
MGX 系统还促进了数据中心的扩展,支持 NVLink 的垂直扩展和 Spectrum-X 以太网的横向扩展。NVIDIA 网络工程高级副总裁 Gilad Shainer 指出,MGX 可以将多个数据中心连接为一个统一的集成系统。这满足了像 Meta 这样的企业的需求,这些企业需要支持大规模分布式 AI 训练操作。
合作关系与 AI 生态系统的扩展
NVIDIA 将 Spectrum-X 视为使 AI 基础设施在不同规模上更易于获取和高效的解决方案。这种专门为处理 AI 工作负载(如训练和推理)设计的以太网系统,提供高达 95% 的有效带宽。该技术远超传统以太网。通过与 Cisco、Meta 和 Oracle Cloud Infrastructure 等公司的合作,Spectrum-X 能够在各种环境中扩展,从超级大规模到企业级。
可持续性与未来准备
NVIDIA 的下一代 Vera Rubin 架构预计将在 2026 年下半年商业推出。相关产品,如 Rubin CPX 模型,将与 Spectrum-X 和 MGX 协同工作,以支持下一代 AI 工厂。Spectrum-X 和 XGS 技术共享类似的硬件架构,但对不同距离应用不同的算法,从而优化数据中心之间的通信。
在能源转型中的合作
NVIDIA 正在与各种合作伙伴进行合作,从芯片组件到电力供应,以支持向 800 伏直流电的转型。这一协作方法包括 Onsemi、Infineon、Delta 和施耐德电气等合作伙伴,确保在高密度 AI 环境中所有系统的平稳协调。
面向超级大规模计算的性能
Spectrum-X 技术专为分布式计算和 AI 工作负载而设计。它集成了自适应路由和基于遥测的拥塞控制,消除网络热点,确保稳定的性能。这些特性使得训练和推理的速度得以提升。Spectrum-X 提供的可扩展性使组织能够优化其 GPU 投资,同时应对与 AI 训练相关的不断增加的需求,这对像 Meta 这样的公司至关重要。
硬件与软件的协同作用
NVIDIA 特别注重软件优化,并将这种方法视为关键。公司不断通过将硬件开发与软件开发对齐来提高效率。在像 Dynamo、TensorRT-LLM 这样的框架以及诸如推测解码等算法上的投资,旨在提高 AI 模型的产量和性能。
AI 和可扩展基础设施
Spectrum-X 平台,包括以太网交换机和 SuperNIC,是专门为 AI 工作负载设计的第一个以太网系统。它确保在数百万个 GPU 之间的有效连接,同时在 AI 数据中心提供可预见的性能。借助高达 95% 的数据速率的拥塞控制技术,Spectrum-X 标志着相比传统以太网的一次重大进展。
想了解更多相关主题,包括人工智能投资和基础设施发展,请查看这些文章: 中国投资的挑战、人工智能安全战争、与政府和企业的合作、OpenAI 与 Oracle 的合作,以及韩国及其新的数据中心。
关于 Meta、Oracle 和 NVIDIA Spectrum-X 在 AI 数据中心合作的常见问答
Spectrum-X 是什么,它如何改善 AI 专用数据中心的性能?
Spectrum-X 是 NVIDIA 开发的一种以太网交换技术,旨在应对大规模 AI 系统日益增长的需求。它通过提供快速的连接和拥塞控制,提高了 AI 训练的效率,使数据中心能够处理大规模参数模型而不会减速。
Oracle 如何在其 Vera Rubin 架构中集成 Spectrum-X?
Oracle 利用 Spectrum-X 以太网构建大规模 AI 工厂。此集成将更高效地连接数百万个 GPU,从而便捷其客户的新 AI 模型的训练和快速部署。
Meta 的 AI 基础设施中系统的开放性与互操作性有多重要?
通过将 Spectrum-X 集成到其开放交换系统 (FBOSS) 中,Meta 确保其网络灵活且具有互操作性。这使得网络能够适应 AI 需求的变化,并有效地为数十亿用户提供服务。
NVIDIA 的模块化系统,如 MGX,对技术合作伙伴提供了哪些优势?
MGX 系统是模块化的,允许合作伙伴根据需要混合和匹配不同的处理、存储和交换单元。这种灵活性有助于优化上市时间,并确保基础设施为未来做好准备。
NVIDIA 如何应对数据中心的能源效率挑战?
NVIDIA 正在通过转向 800 伏的直流电源,并整合能源平滑技术以减少电力需求峰值来改善能源效率。这有助于优化数据中心的每瓦特性能,并提高计算能力。
NVIDIA、Meta 和 Oracle 之间的合作为何对 AI 数据中心的未来至关重要?
此合作旨在使 AI 基础设施在不同规模上更高效且更易获取。通过联合力量,这些公司能够开发专为 AI 工作负载设计的解决方案,从而优化性能并降低运营成本。
Spectrum-X 相较于传统以太网在 AI 工作负载中提供了哪些优势?
Spectrum-X 提供高达 95% 的有效带宽,远远超过传统以太网通常仅有的约 60% 的性能。这对于 AI 训练和推理任务来说尤其重要,因为每毫秒都至关重要。
NVIDIA 计划如何将 Spectrum-X 与其未来的 Vera Rubin 架构集成?
NVIDIA 计划将 Vera Rubin 架构(预计于 2026 年商业发布)与 Spectrum-X 和 MGX 以太网系统协同工作,以支持下一代 AI 工厂并改善数据中心之间的连接性。