登录

从落地部署到开放标准:Arm 推进代理式 AI 时代基础设施演进

2026-05-09 11:06 来源:Arm

随着人工智能 (AI) 系统从单纯运行模型逐步演进为编排自主的代理式工作流,基础设施的需求正在发生根本性变革。工作负载不再局限于孤立的推理任务,而是由模型、工具和服务之间的成千上万次协同交互构成。在这一全新环境中,CPU 正成为 AI 的控制中枢——负责统筹全栈的编排调度、数据流转与系统行为调度。

为满足这些新兴需求,Arm 近期推出了 Arm AGI CPU——一款专为下一代 AI 基础设施量身打造的处理器。Arm AGI CPU 主打高核心扩展性、高内存带宽与系统级能效,可统筹协调 CPU、GPU 及其他加速器之间的复杂交互,并针对大规模部署场景下的性能、一致性与互操作性进行了优化。

在四月底的 2026 年 OCP EMEA 峰会上,Arm 正式宣布:欧洲云服务提供商 Verda 将在其下一代基础设施中部署 Arm AGI CPU,用于代理式 AI 的编排调度;并将其与基于 NVIDIA GB300 的系统,以及即将面世的基于 NVIDIA Vera Rubin 的系统协同运行。此次落地部署印证了行业正朝着 CPU 与加速器深度融合架构的方向演进,CPU 在此类架构中承担着核心作用,支撑可扩展、高能效 AI 系统落地。

与此同时,Arm 正通过向开放计算项目 (Open Compute Project, OCP) 持续贡献一系列技术成果,进一步践行其对开放、标准化基础设施的长期承诺。这些实际落地部署与开放生态协作的双重推进,既清晰展现了 AI 基础设施的演进趋势,也体现了 Arm 正为这一全新阶段定义核心算力底座。

携手 Meta 规模化落地代理式 AI

Arm 在 AGI CPU 方面的工作,正与引领 AI 基础设施未来发展的头部超大规模云服务提供商紧密协作,其中包括主要合作伙伴及客户 Meta。此次合作体现了双方在构建可扩展、开放平台方面的共同愿景,以应对日益复杂的 AI 工作负载需求。

AI 系统面临的挑战不止于算力性能本身。系统整体效率与互操作性同样是实现工作负载规模化的关键。Arm 与 Meta 正携手推进基于 Arm AGI CPU 打造的新一代基础设施建设,以满足上述需求,从而实现代理式 AI 更高效的任务编排与落地部署。

Arm 与 Meta 的合作凸显了行业整体发展趋势:随着超大规模云服务提供商迈向高度集成的系统架构,CPU 在 AI 工作流管理中扮演核心角色。双方基于开放架构与系统级设计展开协作,正携手为下一代 AI 基础设施筑牢核心根基。

Verda 部署:AI 基础设施的实践落地

乘着行业发展势头,Verda 对 Arm AGI CPU 的部署体现了下一代 AI 系统的构建方式。通过将基于 Arm CPU 的基础设施与 NVIDIA GB300 GPU 平台相结合,Verda 正在打造一种紧密耦合的架构,以支持代理式 AI 工作负载的规模化运行。

在该架构模式中,加速器负责提供模型执行所需的性能,CPU 则负责工作流编排、数据流转管理及跨组件的系统行为协调。这种算力均衡架构对基于代理式 AI 系统至关重要,因为其性能不仅取决于计算吞吐能力,更依赖全栈层面的高效协同。

Verda 的此次落地应用,反映出行业正朝着面向 AI 优化的集成式异构系统演进,CPU 在其中正扮演核心且具有战略意义的角色。

代理式 AI 重新定义基础设施

传统的 AI 流程相对线性:数据输入,推理输出。而代理式系统则与之不同,它们可自主规划、推理并执行操作,往往通过跨越多个模型、服务与决策点的持续循环来完成任务。

这一转变正推动基础设施需求发生跨越式升级。加速器仍然负责执行模型工作负载并生成词元 (token),而 CPU 则正日益承担起全系统层面的统筹协调职责。因此,CPU 的需求不仅在规模上持续增长,其重要性也在不断提升。

随着这类系统持续扩展,硬件平台与系统管理的一致性变得至关重要。服务器基础系统架构 (SBSA)、服务器基础可管理性规范 (SBMR) 等标准化架构,能够确保复杂的多智能体工作负载在多元环境中稳定运行,无需开展定制化集成。

依托开放标准,实现 AI 基础设施规模化扩展

随着 AI 系统复杂度不断提升,实现高效规模化扩展,不仅需要芯片技术革新,更需要生态在硬件、固件、系统设计与部署模式等层面实现协同统一。

Arm 正持续贡献多项标准规范,助力 OCP 达成生态协同,并降低合作伙伴构建Arm 架构 AI 基础设施的门槛。这些贡献覆盖三大核心领域:首日部署就绪、参考设计加速方案落地、打造开放的芯粒生态。

首日部署就绪

规模化基础设施的落地部署,需要从起步阶段就具备高稳定性与高可靠性。Arm 正通过 OCP 持续优化其成熟的系统架构规范,包括 SBSA、SBMR 及 Arm 数据中心架构合规 (ADAC) 框架,为基础设施的规模化部署提供有力支撑。

上述规范为硬件平台、系统管理与验证构建了统一基准,使操作系统与应用程序无需修改即可在各类硬件实现版本上直接运行。配套的诊断、合规测试与系统验证工具,可进一步帮助合作伙伴加快系统上线速度,同时降低部署后的运维风险。

参考设计加速方案落地

为缩短从芯片研发到部署落地的周期,Arm 正为基于 Arm AGI CPU 的系统提供参考服务器设计。这些设计涵盖服务器硬件规范与固件开发框架,为合作伙伴提供满足量产标准的技术基础。

此类规范在对系统设计核心要素进行标准化的同时,保留了差异化定制的灵活空间,有助于简化开发流程,助力合作伙伴在各类应用场景中实现更快速、高效的部署。

打造开放的芯粒生态

随着 AI 基础设施的持续演进,芯粒化设计已成为实现性能扩展与灵活性提升的关键。通过与 OCP 及生态合作伙伴共同推进基础芯粒系统架构 (Foundation Chiplet System Architecture, FCSA) 工作,Arm 正在助力构建更加开放、且具备互操作性的芯粒生态系统。

该方案支持模块化系统设计,可降低集成复杂度,帮助合作伙伴更高效地开发与部署面向 AI 优化的芯片平台。

生态发展势头

Arm 与 OCP 的合作,是业界协同共建开放、规模化 AI 基础设施进程中不可或缺的一环。

Meta 软件工程师 Paul Saab 表示:“随着 AI 基础设施持续规模化扩展,全栈标准化对实现系统互操作与运行能效愈发重要。我们与 Arm 的合作,体现了双方在推动开放平台方面的共同愿景,以支撑大规模的 AI 工作负载需求。”

OCP 首席执行官 George Tchaparian 指出:“OCP 汇聚全球社群力量,通过开放协作加速技术创新。在芯粒、系统就绪度、参考设计等领域持续输出规范成果,是推动开放 AI 基础设施大规模普及的关键。”

Verda 创始人兼首席执行官 Ruben Bryon 表示:“Verda 运营着由可再生能源驱动,专为机器学习 (ML) 团队打造的 AI 云平台。通过将 Arm AGI CPU 与 NVIDIA GB300 算力集群以及即将上线的 VR200 集群搭配部署,我们力求打造一套从调度编排到推理任务的 Arm 原生全栈技术,为客户提供代理式 AI 大规模部署所需的算力密度与能效表现。”

奠定 AI 下一阶段发展的基石

随着 AI 基础设施的持续演进,行业的成败不仅取决于性能,更取决于能否在日趋复杂的系统环境中实现高效部署、规模化扩展与生态互通。开放标准与生态协作,将是开启 AI 下一发展阶段的关键支撑。

Arm 的技术路径将高性能计算与开放、标准化的系统基础相结合,确立了 CPU 在 AI 基础设施中的核心层级地位。依托 Verda 等实际场景部署,以及在 OCP 中持续推进的协作,Arm 正携手业界合作伙伴,共同构建可规模化、可商用落地的 AI 系统。

相关新闻

编辑精选