2026年3月20日,在深圳举行的华为中国合作伙伴大会上,该公司亮出了挑战Nvidia在AI加速器市场主导地位的最雄心勃勃的底牌。Atlas 350搭载全新Ascend 950PR处理器,在FP4精度下提供1.56 petaflops,在FP8精度下提供1 petaflop——性能约为Nvidia H20的2.8倍,而H20是美国在现行出口管制下允许向中国销售的最佳芯片。
这些数字令人瞩目。但完整的故事比标题所暗示的要复杂得多。
毫无疑问,Atlas 350对于中国半导体生态系统来说是一项重大的技术成就。这不仅体现在原始性能上,还因为它集成了华为自有的HBM内存——HiBL 1.0,容量112 GB,带宽1.4 TB/s——使该公司能够完全控制内存供应链。它还引入了CANN Next,一个旨在兼容Nvidia CUDA的软件栈,提供线程块、warp和内核启动等熟悉的抽象概念,以方便开发者迁移。
但背景至关重要。与Atlas 350进行比较的H20并非普通芯片:它是Nvidia为遵守美国出口管制而刻意限制的芯片。H20在FP8精度下仅为296 TFLOPS,远低于Nvidia在其他市场销售的产品——H100约为2,000 TFLOPS,而B200是其两倍。说Atlas 350”超越最佳美国芯片”只有在加上一个关键限定条件时才成立:美国允许出口到中国的最佳芯片。
除了原始性能之外,还有更多差异。Atlas 350功耗为600W,比H20的约400W高出50%。其内存带宽(1.4 TB/s)不到H20(4.0 TB/s)的一半。而最重要的是:Ascend 950PR主要是一款面向推理而非训练的芯片。要训练前沿模型,中国仍然依赖美国芯片。
华为有一个计划。950PR是三年路线图上的首个产品,后续包括950DT(面向训练和推理,预计2026年第四季度)、Ascend 960(2027年第四季度)和Ascend 970(2028年第四季度)。该公司目标是在2026年出货75万片Atlas 350,而字节跳动和阿里巴巴等企业已在规划大额订单。
Atlas 350发布四周后,即2026年4月24日,DeepSeek推出了其V4模型,其中有一个特别之处:华为宣布在其Ascend 950PR和950DT芯片上为V4提供”首日”推理支持。在Bilibili和微信上的直播展示中,华为的CANN框架——CUDA的功能等价物——能够在没有Nvidia GPU的情况下运行V4模型。
这一合作具有重要的战略意义。这是前沿级模型首次专门适配中国国产加速器。但这里同样存在细节问题。DeepSeek V4并非在华为硬件上训练——DeepSeek官方文档未提及华为,且《南华早报》报道称”中国前沿模型仍然依赖先进美国芯片进行训练。“Ascend 950PR是一款推理芯片,而非训练芯片。说V4是”零依赖Nvidia构建”言过其实;更准确的说法是它已被适配为可在Ascend上运行。
CANN生态系统的采用或许是华为最具战略性的举措。Nvidia的主导地位并非来自硬件,而是来自CUDA——这个软件生态系统将开发者牢牢锁定。CANN Next试图通过提供API级别的兼容性来复制这一策略,但历史并不乐观:前几代Ascend在争取大规模采纳方面举步维艰。字节跳动和阿里巴巴正在下单,这暗示这一次可能不同,但最终 verdict 尚未揭晓。
为何重要
Atlas 350代表了迄今为止中国在国产AI硬件领域取得的最可信突破。它拥有有竞争力的规格、自研内存、清晰的路线图,并且首次有前沿模型适配在其上运行。但通往完全摆脱Nvidia的道路仍然漫长。Atlas 350与H20竞争,而非与H100或B200竞争。它是一款推理芯片,而非训练芯片。而CANN软件生态系统仍需证明它能像CUDA一样吸引开发者。
明确的是,差距正在缩小。不是一蹴而就,而是稳步推进。而这对于全球半导体产业来说,是一个不容忽视的信号。
主要来源:SCMP — Huawei challenges Nvidia with powerful new AI accelerator card