Un usuario comparte su experiencia negativa tras adquirir el superordenador personal de IA de NVIDIA, valorado en $4,699. A pesar de las promesas de un rendimiento excepcional y capacidades avanzadas, el dispositivo presenta múltiples fallos, incluyendo problemas de red que limitan la velocidad a solo 13 Gbps, errores en el software NVFP4 y un rendimiento deficiente en comparación con alternativas más económicas. El autor critica la falta de control de calidad y el enfoque de NVIDIA en maximizar precios y acciones sobre la satisfacción del cliente. Concluye que el DGX Spark no cumple con sus expectativas y decide regresar el producto.
El engaño detrás de la promesa de NVIDIA
Cuando NVIDIA presentó el proyecto DIGITS en el CES 2025, mi entusiasmo fue palpable. La propuesta era clara: un superordenador personal de IA por $4,699, equipado con un chip GB10 Grace Blackwell, 128 GB de memoria unificada, 1 PFLOP de computación FP4 y puertos de red duales de 200 GbE. Lo vi como una oportunidad para ejecutar grandes modelos de lenguaje localmente sin depender de la nube, convirtiéndose en una herramienta para el desarrollo real de IA descentralizada. En su momento, informé que esto supuestamente democratizaría la IA y llevaría el poder del supercomputing a los escritorios.
Realicé mi pedido y esperé ansiosamente. Al recibir el DGX Spark, desenvuelto con la misma expectativa que he sentido al probar cada pieza de hardware seria para construir mi infraestructura de IA. Sin embargo, lo que encontré no fue una revolución; se trataba de una máquina donde cada cifra destacada venía acompañada de un devastador asterisco. La red no podía alcanzar la velocidad prometida, el software NVFP4 fallaba en rutas productivas y el ancho de banda de la memoria se convertía en un límite duro que hacía que la decodificación de grandes modelos fuera dolorosamente lenta. Tras semanas probando esta máquina, llegué a la conclusión de que NVIDIA lanzó una plataforma incompleta y esperaba que los primeros usuarios la depuraran por ellos.
Los puertos QSFP duales alimentados por el NIC ConnectX-7 debían permitirme conectar dos Sparks y ejecutar modelos de hasta 405B parámetros. En la práctica, las interfaces comienzan a conectarse a 200 Gbps, pero el rendimiento real se limita a alrededor de 13 Gbps —una magnitud inferior a lo prometido. La causa raíz es un error en el presupuesto energético PCIe: el controlador detecta insuficiente energía en la ranura y se regula automáticamente, incluso con la propia fuente de NVIDIA. Un mensaje recurrente del kernel indica: «mlx5_pcie_event: Se detectó insuficiente energía en la ranura PCIe (27W).» Esta es una mentira del firmware hacia el controlador.
Pero hay más problemas. Incluso sin ese error, la afirmación de 200 Gbps por puerto requiere agregación PCIe multi-host que la mayoría de los usuarios nunca configuran. El SoC GB10 físicamente no puede proporcionar más que PCIe Gen5 x4 —aproximadamente 100 Gbps— a un solo dispositivo. Para alcanzar los 200 Gbps es necesario vincular explícitamente ambos pares RoCE. Si intentas encadenar tres Sparks, el ancho de banda se reduce a ~100 Gbps por par, obligándote a adquirir un costoso switch. Como explicó ServeTheHome, la arquitectura no es un simple enlace x8 sino dos conexiones x4 separadas. Esto no es un problema menor; es un fracaso fundamental al no cumplir con la característica principal del networking.
El número destacado de 1 PFLOP depende del NVFP4, el formato propietario de punto flotante a 4 bits de NVIDIA. Esta es la característica más notablemente rota en el software enviado. Un cliente que invirtió aproximadamente $38,000 en nueve Sparks exigió públicamente una hoja de ruta porque el software prometido por NVIDIA no estaba en condiciones utilizables. La superficie del error es amplia: los modelos NVFP4 Qwen3.5 fallan con errores ilegales CUDA en ARM64 GB10. Nemotron-3-Nano provoca cudaErrorIllegalInstruction durante la captura del gráfico CUDA para tamaños mayores a uno. Y los modelos MoE enfrentan errores por direcciones desalineadas debido a que el búfer del espacio de trabajo no cumple con requisitos más estrictos.
Aún peor, durante algún tiempo faltaron completamente las guardas arquitectónicas SM121 en el sistema de compilación vLLM, lo que significaba que todos los núcleos NVFP4, CUTLASS y MLA eran omitidos silenciosamente durante la compilación. Los usuarios estaban ejecutando rutas alternativas sin saberlo. Esto no es «dolor del primer usuario». Esto es vender vaporware. He visto software incompleto antes, pero NVIDIA ha tenido un año desde su lanzamiento para solucionar estos problemas.
Los 128 GB de memoria unificada son el mayor atractivo del Spark, pero los 273 GB/s LPDDR5X se comparten entre CPU y GPU. Para generación de tokens —que está limitada por ancho de banda— este es un techo arquitectónico duro. En GPT-OSS 20B, el Spark alcanza 49.7 tok/s en decodificación; mientras tanto, una sola RTX 5090 logra 205 tok/s. Un Mac Studio M4 Max, similar en precio, tiene aproximadamente el doble del ancho de banda. El único verdadero triunfo del Spark radica en prefill —que está limitado por computación— lo cual explica por qué la configuración más eficiente implica emparejarlo con un Mac Studio —un clúster híbrido construido y evaluado por Exo Labs.
No obstante esto no era cómo se vendió originalmente este dispositivo.
El precio aumentó desde $3,999 hasta $4,699 en febrero de 2026. A ese precio, Framework Desktop con AMD Strix Halo (128 GB unificados, ~273 GB/s) cuesta $2,348 y ofrece velocidades comparables para generación token sobre grandes modelos. Una construcción usada con tres RTX 3090 por menos de $2,000 triplica la velocidad para modelos compatibles; mientras tanto, el Mac Studio M4 Max a $3,999 tiene doble ancho de banda en memoria.
La única justificación defensible para Spark radica en desarrollo CUDA-on-ARM con prefill rápido —pero debes esperar soluciones software que pueden nunca llegar.
John Carmack mismo evaluó su Spark y descubrió que consumía solo alrededor de 100W bajo carga total del sistema —muy por debajo del valor nominal declarado (240W)— afectando así su rendimiento correspondiente. Mientras tanto existen problemas documentados como fuentes defectuosas o unidades inoperativas tras actualizaciones firmware y fallos totales del stack network al momento del arribo inicial.
Como expresó un usuario en foros: el Spark es «una plataforma temprana para desarrolladores que probablemente mejorará significativamente con otro año dedicado al firmware y trabajo software.» Pero yo no pago $4,699 para ser beta tester del hardware defectuoso de NVIDIA.
Anteriormente fui fanático de Jensen Huang (él proviene Taiwán donde residí algunos años), pero ahora lo veo cada vez más como un vendedor persuasivo impulsando fantasías productivas que nunca llegan puntualmente al mercado ni cumplen sus especificaciones; simplemente no valen lo invertido.
NVIDIA parece estar atrapada en una espiral donde las promesas revolucionarias carecen tanto soporte como garantía cuando finalmente logran lanzarse al mercado.
A medida que AMD lanza plataformas Strix Halo capaces incluso para ejecutar LLMs (modelos muy grandes) casi tan rápido como hardware NVIDIA pero generalmente a menos del costo total; Apple también se destaca gracias a su RAM unificada mucho más rápida volviéndose popular entre proyectos AI debido a largas esperas provocadas por pedidos masivos.
NVIDIA ha incrementado precios injustificadamente; hace poco duplicaron precios sobre sus tarjetas RTX5090 sin razón válida alguna.
Sinceramente solía admirar a NVIDIA; sin embargo algo cambió dentro suyo: parece haber abandonado control sobre calidad enfocándose únicamente hacia aumentar precios sobre acciones dejando atrás clientes insatisfechos.
Esa sensación negativa me lleva ahora decidir dejar atrás productos NVIDIA buscando alternativas donde realmente aprecien calidad y atención hacia sus consumidores.
Dicho esto estoy retornando mi unidad y continuaré utilizando hardware ajeno a NVIDIA hacia adelante; aunque fascinante conceptualmente DGX Spark actualmente no cumple sus promesas reales ni expectativas planteadas inicialmente sobre desarrollo AI descentralizado.
| Descripción | Cifra |
|---|---|
| Precio del superordenador | $4,699 |
| Capacidad de memoria unificada | 128 GB |
| Rendimiento en FLOPS (FP4) | 1 PFLOP |
| Ancho de banda de memoria LPDDR5X | 273 GB/s |
| Velocidad real de conexión a través de puertos QSFP | 13 Gbps |
| Consumo de energía reportado por John Carmack | 100W |