Huawei Atlas 350: El Chip Chino Que Desafía a Nvidia… con Matices Importantes

Huawei acaba de lanzar el chip de IA más potente que ha fabricado China — y el dato más revelador no es su rendimiento absoluto, sino a qué chip de Nvidia logró igualar. El Atlas 350, impulsado por el nuevo procesador Ascend 950PR, ofrece 1.56 petaflops en FP4 y 1 petaflop en FP8 — aproximadamente 2.8 veces el rendimiento del Nvidia H20, el mejor chip que Estados Unidos permite vender a China bajo las restricciones de exportación actuales.

Las cifras llaman la atención. Pero la historia completa es más matizada de lo que sugieren los titulares.

El Atlas 350 es, sin duda, un logro técnico significativo para el ecosistema de semiconductores chino. No solo por el rendimiento bruto, sino porque incorpora memoria HBM propia de Huawei — la HiBL 1.0, con 112 GB y 1.4 TB/s de ancho de banda — lo que le da a la compañía control total sobre la cadena de suministro de memoria. También introduce CANN Next, una pila de software diseñada para ser compatible con CUDA de Nvidia, ofreciendo abstracciones familiares como thread blocks, warps y lanzamientos de kernel para facilitar la migración de desarrolladores.

Pero el contexto es clave. El H20 con el que se compara el Atlas 350 no es un chip cualquiera: es un chip deliberadamente limitado por Nvidia para cumplir con las regulaciones de exportación de Estados Unidos. Con 296 TFLOPS en FP8, el H20 está muy por debajo de lo que Nvidia vende en otros mercados — el H100 ofrece alrededor de 2,000 TFLOPS, y el B200 lo duplica. Decir que el Atlas 350 “supera al mejor chip americano” es cierto solo si añadimos el matiz crucial: el mejor chip que Estados Unidos permite exportar a China.

Hay más diferencias que el rendimiento bruto. El Atlas 350 consume 600W, un 50% más que los ~400W del H20. Su ancho de banda de memoria (1.4 TB/s) es menos de la mitad que los 4.0 TB/s del H20. Y lo más importante: el Ascend 950PR es un chip diseñado principalmente para inferencia, no para entrenamiento. Para entrenar modelos fronterizos, China sigue dependiendo de chips estadounidenses.

Huawei tiene un plan. El 950PR es el primer producto de una hoja de ruta de tres años que incluye el 950DT (para entrenamiento e inferencia, previsto para el cuarto trimestre de 2026), el Ascend 960 (Q4 2027) y el Ascend 970 (Q4 2028). La compañía aspira a enviar 750,000 unidades del Atlas 350 en 2026, y empresas como ByteDance y Alibaba ya planean pedidos grandes.

Cuatro semanas después del lanzamiento del Atlas 350, el 24 de abril de 2026, DeepSeek lanzó su modelo V4 con una particularidad: Huawei anunció soporte de “día cero” para inferencia del V4 en sus chips Ascend 950PR y 950DT. La adaptación, demostrada en un livestream en Bilibili y WeChat, mostró que el framework CANN de Huawei — equivalente funcional de CUDA — podía ejecutar el modelo V4 sin GPUs de Nvidia.

Esta colaboración es estratégicamente importante. Es la primera vez que un modelo de clase fronteriza se adapta específicamente para aceleradores domésticos chinos. Pero aquí también hay matices. DeepSeek V4 no fue entrenado en hardware de Huawei — los documentos oficiales de DeepSeek no mencionan a Huawei, y SCMP reporta que “los modelos chinos de vanguardia todavía dependen de chips estadounidenses avanzados para el entrenamiento.” El Ascend 950PR es un chip de inferencia, no de entrenamiento. Decir que V4 fue “construido con dependencia cero de Nvidia” es exagerado; lo correcto es decir que fue adaptado para ejecutarse en Ascend.

La adopción del ecosistema CANN es quizás el movimiento más estratégico de Huawei. Nvidia domina no por su hardware sino por CUDA, el ecosistema de software que atrapa a los desarrolladores. CANN Next intenta replicar esa jugada ofreciendo compatibilidad a nivel de API, pero la historia no acompaña: generaciones anteriores de Ascend lucharon por lograr adopción masiva. Que ByteDance y Alibaba estén haciendo pedidos sugiere que esta vez podría ser diferente, pero el veredicto aún no está escrito.

Por qué importa

El Atlas 350 representa el avance más creíble de China en hardware de IA doméstico hasta la fecha. Tiene especificaciones competitivas, memoria propia, una hoja de ruta clara y, por primera vez, un modelo fronteriza adaptado para ejecutarse en él. Pero el camino hacia la independencia total de Nvidia sigue siendo largo. El Atlas 350 compite con el H20, no con el H100 o el B200. Es un chip de inferencia, no de entrenamiento. Y el ecosistema de software CANN aún tiene que demostrar que puede cautivar a los desarrolladores como lo hizo CUDA.

Lo que sí está claro es que la brecha se está cerrando. No de golpe, pero de forma constante. Y eso, para la industria global de semiconductores, es una señal que nadie debería ignorar.

Fuente principal: SCMP — Huawei challenges Nvidia with powerful new AI accelerator card