拥抱基础设施变革,抓住人工智能的万亿美元机遇
2025-06-27 11:40 来源:Arm
众所周知,人工智能 (AI) 有望革新人类活动的方方面面。然而,要充分释放这一潜力,就必须面对一个基本事实:支撑传统计算的基础设施已无法满足未来 AI 发展的需求。
当前,产业已经见证了这场变革所呈现出的惊人规模:
训练 ChatGPT-4 使用了超过 1PB 的数据——相当于两亿首歌曲连续播放长达 1,000 年。
OpenAI 每月为 10 亿活跃用户提供服务,每位用户消耗的数据量是传统应用的一万倍。
到 2030 年,这场 AI 革命将带动超过一万亿美元的基础设施投资。
这一爆炸性增长正在推动数据中心的能耗从兆瓦级跃升至吉瓦级,由此带来的限制无法仅靠增加更多通用服务器来解决。整个行业必须从根本上重新思考计算基础设施的架构设计、构建方式和部署策略。那些能够成功驾驭这场转型的企业,将充分释放 AI 的潜力;而未能及时跟进的企业,则极有可能面临被市场淘汰的风险。
在近日于旧金山举办的第 62 届设计自动化大会 (DAC) 的 SKYTalk 演讲中,Arm 高级副总裁兼基础设施事业部总经理 Mohamed Awad 分享了如何拥抱基础设施变革,抓住 AI 的万亿美元机遇的经验与洞察。
过往技术变革的经验启示
Awad 表示,应对如此巨大的技术变革其实已有“蓝图”可循。在过去的 30 年里,从移动计算到汽车变革,再到物联网部署,历次成功的技术革命都遵循着相似的发展路径。而那些最终脱颖而出成为领军者的企业,普遍具备以下三个共同特征:
追求技术领先
具备系统级思维
培育强大的生态系统
这一发展模式为 AI 转型提供了重要借鉴。回顾移动革命,它不仅仅是处理器速度的提升,更涉及对能效优化、软件栈乃至制造合作伙伴关系的全面革新。同样,汽车行业向自动驾驶和电动化转型的过程中,也需要在芯片设计、系统架构以及生态协作等层面采取一体化的推进策略。
Awad 表示,“要让 AI 真正实现我们为其设定的宏伟目标,所需的其实还是同样的路径——技术领先、从底层开始设计的系统,以及强大的生态系统。”
基础设施演进的迫切性
数据中心的演进过程充分展现了行业快速适应 AI 需求的能力。2020 年之前,企业主要依赖通用服务器,并通过 PCI 插槽添加加速器。到了 2020 年,重点转向了具备 GPU 之间直连能力的集成服务器。2023 年,我们见证了 CPU 与 GPU 的高度耦合集成。而如今,行业正向完整的“AI 工厂”迈进——从芯片层面开始,为特定负载场景打造整个服务器机柜。
领先的科技公司正在摒弃“一刀切”的通用架构思路。NVIDIA 的 Vera Rubin AI 集群、亚马逊云科技 (AWS) 的 AI UltraCluster、Google 的 Cloud TPU 机柜,以及微软的 Azure AI 机柜,都是针对自身独特需求而专门打造的定制化系统,而非通用解决方案。
Awad 解释道,“所有领先的超大规模云服务商都在做同样的事情。他们从芯片层开始构建高度集成的系统,根据自身的系统需求反向驱动芯片层的创新。”
这一转变反映出整个行业达成的广泛共识:AI 的计算需求必须依赖专为 AI 工作负载设计的基础设施,而非在通用系统基础上改造的解决方案。
经大规模验证的性能表现
AWS 报告称,过去两年新部署的 CPU 算力中,有超过 50% 来自其搭载 Arm 架构的 Graviton 处理器。此外,包括 Amazon Redshift、Prime Day、Google 搜索和 Microsoft Teams 在内的关键工作负载,如今都运行在基于 Arm Neoverse 等先进技术构建的基础设施上,实现了显著的性能提升与能效优化。
Awad 进一步解释说,这些举措并非出于成本削减的考量,而是为了追求性能。企业打造定制芯片,并不是因为它成本更低,而是因为它能在特定数据中心环境下,实现通用解决方案所无法达到的性能与能效水平。
通过协作加速创新
打造定制芯片面临着诸多挑战,包括高昂的成本、复杂的设计以及漫长的开发周期。解决之道在于通过协作生态系统来降低门槛、加速创新。像 Arm CSS (Compute Subsystems) 此类的预集成的计算子系统、共享的设计资源以及经过验证的工具流程,都能显著缩短开发周期。
已有行业实例展现了生态协作的潜力。部分合作项目通过在设计中使用预配置、预验证的 CSS,使合作伙伴节省了 80 人/年的工程师投入,将开发周期从数年缩短至数月。Awad 表示,其中一个项目从启动到制造出能够在 128 个核心上运行 Linux 的芯片,仅用了 13 个月——对于顶尖的芯片开发而言,这一速度堪称惊人。
正在兴起的芯粒 (Chiplet) 生态系统,代表了行业协作的又一重大突破。像 Arm 芯粒系统架构 (Arm Chiplet System Architecture, CSA) 这样的行业倡议正在定义通用接口与协议,诸多亚太地区的合作伙伴已经参与其中,共同开发标准化的计算模块,并可按需组合应用于不同场景,从而构建更加灵活且更具成本效益的开发路径。此外,通过 Arm 全面设计 (Arm Total Design) 等生态项目,这类协作框架将晶圆代工厂、设计服务商、IP 供应商以及固件合作伙伴紧密连接起来,以简化整个开发流程。
软硬件协同释放 AI 潜力
仅靠硬件创新无法真正释放 AI 的潜力。实现成功还需要强大的软件生态系统作支撑——这背后凝聚了长达 15 年的持续投入:数百万开发者的参与、广泛的开源项目支持,以及成千上万家供应商共同打造兼容的解决方案。
当今领先的 AI 基础设施部署依托于成熟的软件栈,涵盖 Linux 发行版、云原生技术、企业级 SaaS 应用以及 AI/ML 框架等。这种软件的成熟度使得企业能够放心地部署新的硬件架构,确信其整个技术堆栈可以无缝运行。
Awad 表示,“如果没有软件,硬件就没有意义。这一点至关重要。因为当我们谈论为 AI 而打造的加速器、设备和芯片时,人们常常会问我软件方面的情况。常有初创公司来找我说,‘嘿,我开发了这个很棒的硬件产品。’但当我问他们,‘有多少人专门为它开发软件?’时,答案往往就没那么有说服力了。”
拥抱基础设施变革
随着 AI 持续呈指数级增长,基础设施面临的挑战也将愈发严峻。企业无法仅靠增加传统服务器来实现扩展,他们需要的是专为 AI 工作负载优化的定制化系统,同时还必须具备在前所未有的规模下高效运行的能力。
能够成功应对这一转型的企业和技术,往往具备共同的特征:它们通过技术领先追求突破性性能表现,采用系统级的整体思维而非组件级思维,并构建协作型生态系统,在加速创新的同时降低个体风险。
这场基础设施变革既是挑战,也是机遇。那些正在着手准备——通过理解这些核心原则并构建合适的技术基础——的企业,将更有机会抓住 AI 所带来的万亿美元级市场机遇。而仍然固守旧有模式的企业,则有可能错失当代最大的技术机遇。
Awad 总结,“未来属于那些已经准备好去创造它的人。”基础设施的变革已经启程。