Nvidia lanza Spectrum-XGS Ethernet para unir centros de datos de IA
La demanda de infraestructura para inteligencia artificial a gran escala ha puesto contra las cuerdas a los centros de datos actuales. Con el espacio, la potencia y la refrigeración al límite, crecer solo dentro de un edificio ya no basta. En este contexto, Nvidia presenta Spectrum-XGS Ethernet, una tecnología que conecta instalaciones remotas para que trabajen como si fueran una sola.
La propuesta introduce un tercer enfoque de escalado para la IA: además del scale-up (ampliar un sistema) y el scale-out (añadir más nodos), suma el scale-across para enlazar centros de datos separados geográficamente. El objetivo es transformar múltiples emplazamientos en auténticas “superfábricas” de IA con rendimiento predecible y baja latencia entre sedes.
Qué es Spectrum-XGS Ethernet y qué problema resuelve
Cuando un centro de datos alcanza su tope de potencia, densidad y refrigeración, seguir escalando se complica. Incluso el despliegue de más racks tiene límites físicos. La sincronización de miles de procesadores a distancia, además, exige una red con latencia estable y control de congestión muy fino, algo que el Ethernet genérico no garantiza. Ahí entra Spectrum-XGS Ethernet.
Se trata de una evolución del ecosistema Nvidia Spectrum-X Ethernet que extiende su rendimiento más allá de un recinto. La idea es que los chips de IA en distintas ubicaciones funcionen como un único “superchip”, minimizando la variabilidad en jitter y ofreciendo tiempos de respuesta consistentes entre sedes.
Cómo funciona: control de congestión por distancia y telemetría de extremo a extremo
La clave está en algoritmos que ajustan la red según la distancia entre centros, aplicando control automático de congestión, gestión precisa de latencia y telemetría end-to-end. Este trío de técnicas permite coordinar el tráfico entre clústeres remotos sin que los picos de carga penalicen el rendimiento del entrenamiento o la inferencia.
Con estas capacidades, Nvidia afirma que Spectrum-XGS Ethernet consigue en pruebas con su biblioteca NCCL un aumento de rendimiento de alrededor de 1,9x frente a redes Ethernet típicas entre centros de datos. En la práctica, es “casi el doble” de velocidad efectiva para las comunicaciones multi-GPU y multinodo cuando las cargas se reparten entre ubicaciones.
Rendimiento medible y métricas de plataforma
Además del salto en NCCL, la propia plataforma Spectrum-X Ethernet en la que se integra XGS ofrece una densidad de ancho de banda aproximadamente 1,6x superior a soluciones Ethernet estándar. Esta combinación apunta a un tejido de red capaz de alimentar granjas de GPU a escala con menos cuellos de botella, incluso en escenarios multiinquilino e hiperescalables.
El resultado es que varios centros de datos pueden operar como uno solo, con un comportamiento más predecible a larga distancia. Esto facilita desde entrenamientos de modelos gigantes repartidos en distintas regiones hasta la expansión de capacidad sin rehacer por completo la arquitectura eléctrica o térmica de cada sede.
Base técnica: switches Spectrum-X y SuperNICs ConnectX-8
Spectrum-XGS Ethernet llega integrado en la plataforma de red de Nvidia y se apoya en switches Spectrum-X y en los ConnectX-8 SuperNICs. La elección de Ethernet no es casual: aunque Nvidia impulsa InfiniBand en entornos de alto rendimiento, el estándar Ethernet está omnipresente y facilita la adopción en infraestructuras ya desplegadas.
En paralelo, Nvidia continúa avanzando en conmutación con fotónica de silicio dentro de su familia Spectrum-X y Quantum-X, un camino que apunta a conectar millones de GPUs entre sedes con menor consumo y costes operativos. Estas piezas encajan con el enfoque “scale-across” que Spectrum-XGS habilita.
Casos de uso y primeros despliegues
Entre los primeros en abrazar la nueva infraestructura está CoreWeave, proveedor especializado en capacidad de IA en la nube. Su CTO, Peter Salanki, señala que unir sus centros en un superordenador unificado permitirá ofrecer proyectos de IA a una escala hasta ahora difícil de alcanzar.
El modelo “centro de datos como fábrica de IA” puede resultar especialmente útil para iniciativas de gran calibre impulsadas por el sector tecnológico y de telecomunicaciones. El concepto de enlazar instalaciones a través de ciudades, países o continentes encaja con planes que buscan ampliar la capacidad sin concentrarlo todo en un único campus.
Integración con cargas de trabajo de IA distribuidas
Para entrenamiento y razonamiento de IA, el cuello de botella suele estar en la comunicación entre GPUs y en la eficiencia de las operaciones colectivas. El énfasis de Spectrum-XGS en NCCL y en la estabilidad de latencia a larga distancia apunta a mejorar precisamente esa parte, reduciendo tiempos de sincronización y aumentando el aprovechamiento de los aceleradores.
Este enfoque beneficia tanto a clústeres monoinquilino como a entornos multi-tenant, donde la previsibilidad de la red es crucial para garantizar niveles de servicio. Con telemetría de extremo a extremo, los operadores obtienen visibilidad para diagnosticar y ajustar el rendimiento entre sedes con mayor rapidez.
Disponibilidad y encaje en el ecosistema
Nvidia indica que Spectrum-XGS Ethernet está disponible como parte de la plataforma Spectrum-X. Esto facilita su adopción por organizaciones que ya utilizan el ecosistema de conmutación y SuperNICs ConnectX-8, simplificando pruebas piloto y despliegues graduales.
Para operadores y equipos de ingeniería de red, la transición no consiste en sustituir todo, sino en introducir un plano de conectividad entre centros preparado para cargas de IA. La compatibilidad con Ethernet permite integrarse con herramientas y procesos ya conocidos, reduciendo la curva de aprendizaje.
Panorama del sector y presencia en Hot Chips
La compañía tiene previsto profundizar en esta propuesta en Hot Chips, donde abordará arquitecturas a escala de rack y centros de datos. Dentro del programa, el apartado de conmutadores con óptica copackaged también pone el foco en cómo llevar la eficiencia y el rendimiento a fábricas de IA de gran tamaño, destacando el papel de Spectrum-XGS en el escalado entre sedes.
La apuesta confirma una tendencia: el crecimiento de la IA ya no depende solo de apilar más GPUs, sino de unir múltiples ubicaciones sin sacrificar rendimiento. Con esto, se amplían las opciones para distribuir cargas, optimizar costes energéticos y acercar la capacidad de cómputo a donde hace falta.
El movimiento de Nvidia con Spectrum-XGS Ethernet sitúa el “scale-across” como pieza clave para superar las limitaciones físicas de un único edificio. Con mejoras medibles en comunicaciones colectivas, mayor densidad de ancho de banda y una base Ethernet ampliamente compatible, la propuesta abre la puerta a operar varios centros de datos como un único sistema de IA, una estrategia que puede marcar la diferencia en la próxima ola de proyectos de inteligencia artificial de gran escala.