华为Atlas 350：挑战Nvidia的中国芯片……但需注意重要细节

2026年3月20日，在深圳举行的华为中国合作伙伴大会上，该公司亮出了挑战Nvidia在AI加速器市场主导地位的最雄心勃勃的底牌。Atlas 350搭载全新Ascend 950PR处理器，在FP4精度下提供1.56 petaflops，在FP8精度下提供1 petaflop——性能约为Nvidia H20的2.8倍，而H20是美国在现行出口管制下允许向中国销售的最佳芯片。

这些数字令人瞩目。但完整的故事比标题所暗示的要复杂得多。

毫无疑问，Atlas 350对于中国半导体生态系统来说是一项重大的技术成就。这不仅体现在原始性能上，还因为它集成了华为自有的HBM内存——HiBL 1.0，容量112 GB，带宽1.4 TB/s——使该公司能够完全控制内存供应链。它还引入了CANN Next，一个旨在兼容Nvidia CUDA的软件栈，提供线程块、warp和内核启动等熟悉的抽象概念，以方便开发者迁移。

但背景至关重要。与Atlas 350进行比较的H20并非普通芯片：它是Nvidia为遵守美国出口管制而刻意限制的芯片。H20在FP8精度下仅为296 TFLOPS，远低于Nvidia在其他市场销售的产品——H100约为2,000 TFLOPS，而B200是其两倍。说Atlas 350”超越最佳美国芯片”只有在加上一个关键限定条件时才成立：美国允许出口到中国的最佳芯片。

除了原始性能之外，还有更多差异。Atlas 350功耗为600W，比H20的约400W高出50%。其内存带宽（1.4 TB/s）不到H20（4.0 TB/s）的一半。而最重要的是：Ascend 950PR主要是一款面向推理而非训练的芯片。要训练前沿模型，中国仍然依赖美国芯片。

华为有一个计划。950PR是三年路线图上的首个产品，后续包括950DT（面向训练和推理，预计2026年第四季度）、Ascend 960（2027年第四季度）和Ascend 970（2028年第四季度）。该公司目标是在2026年出货75万片Atlas 350，而字节跳动和阿里巴巴等企业已在规划大额订单。

Atlas 350发布四周后，即2026年4月24日，DeepSeek推出了其V4模型，其中有一个特别之处：华为宣布在其Ascend 950PR和950DT芯片上为V4提供”首日”推理支持。在Bilibili和微信上的直播展示中，华为的CANN框架——CUDA的功能等价物——能够在没有Nvidia GPU的情况下运行V4模型。

这一合作具有重要的战略意义。这是前沿级模型首次专门适配中国国产加速器。但这里同样存在细节问题。DeepSeek V4并非在华为硬件上训练——DeepSeek官方文档未提及华为，且《南华早报》报道称”中国前沿模型仍然依赖先进美国芯片进行训练。“Ascend 950PR是一款推理芯片，而非训练芯片。说V4是”零依赖Nvidia构建”言过其实；更准确的说法是它已被适配为可在Ascend上运行。

CANN生态系统的采用或许是华为最具战略性的举措。Nvidia的主导地位并非来自硬件，而是来自CUDA——这个软件生态系统将开发者牢牢锁定。CANN Next试图通过提供API级别的兼容性来复制这一策略，但历史并不乐观：前几代Ascend在争取大规模采纳方面举步维艰。字节跳动和阿里巴巴正在下单，这暗示这一次可能不同，但最终 verdict 尚未揭晓。

为何重要

Atlas 350代表了迄今为止中国在国产AI硬件领域取得的最可信突破。它拥有有竞争力的规格、自研内存、清晰的路线图，并且首次有前沿模型适配在其上运行。但通往完全摆脱Nvidia的道路仍然漫长。Atlas 350与H20竞争，而非与H100或B200竞争。它是一款推理芯片，而非训练芯片。而CANN软件生态系统仍需证明它能像CUDA一样吸引开发者。

明确的是，差距正在缩小。不是一蹴而就，而是稳步推进。而这对于全球半导体产业来说，是一个不容忽视的信号。

主要来源：SCMP — Huawei challenges Nvidia with powerful new AI accelerator card

华为Atlas 350：挑战Nvidia的中国芯片……但需注意重要细节

为何重要

同分类更多文章