Microsoft ha gastado millones de dólares para construir la supercomputadora en la que se basa ChatGPT
Microsoft ha gastado cientos de millones de dólares en la construcción de una supercomputadora masiva para ayudar a impulsar el chatbot ChatGPT de OpenAI, en un informe Microsoft explica cómo creó la poderosa infraestructura de inteligencia artificial de Azure utilizada por OpenAI y cómo sus sistemas se están volviendo aún más robustos.
Para construir la supercomputadora que impulsa los proyectos OpenAI, Microsoft afirma haber conectado miles de unidades de procesamiento de gráficos (GPU) NVIDIA a su plataforma de computación en la nube Azure. Esto, a su vez, permitió a OpenAI entrenar modelos cada vez más potentes y «desbloquear las capacidades de IA» de herramientas como ChatGPT y Bing.
Scott Guthrie, vicepresidente de inteligencia artificial y nube de Microsoft, dijo que la compañía gastó varios cientos de millones de dólares en el proyecto, según un comunicado. Y si bien eso puede parecer una gota en el océano para Microsoft, que recientemente amplió su inversión multianual y multimillonaria en OpenAI, ciertamente demuestra que está listo para invertir aún más dinero en el espacio de IA.
Cuando Microsoft invirtió $ 1 mil millones en OpenAI en 2019, acordó construir una supercomputadora masiva y de última generación para la puesta en marcha de investigación de inteligencia artificial. El único problema: Microsoft no tenía nada que OpenAI necesitara y no estaba completamente seguro de poder construir algo tan grande en su servicio en la nube de Azure sin que se rompiera.
OpenAI estaba tratando de entrenar un conjunto cada vez más grande de programas de inteligencia artificial llamados modelos, que ingirieron mayores volúmenes de datos y aprendieron más y más parámetros, las variables que el sistema de IA descubrió a través del entrenamiento y el reentrenamiento. Esto significaba que OpenAI necesitaba acceso a potentes servicios de computación en la nube durante largos períodos de tiempo.
Para enfrentar este desafío, Microsoft tuvo que encontrar formas de vincular decenas de miles de chips gráficos A100 de NVIDIA y cambiar la forma en que coloca los servidores en bastidores para evitar cortes de energía.
“Construimos una arquitectura de sistema que podría funcionar y ser confiable a gran escala. Esto es lo que hizo posible ChatGPT”, dijo Nidhi Chappell, gerente general de Microsoft para la infraestructura de Azure AI. “Es un patrón que salió de ahí. Habrá muchos, muchos más”.
La tecnología permitió a OpenAI lanzar ChatGPT, el chatbot viral que atrajo a más de un millón de usuarios a los pocos días de su salida a bolsa en noviembre y ahora está siendo absorbido por los modelos comerciales de otras empresas, desde las administradas por el multimillonario fundador de fondos de cobertura Ken Griffin en el momento de la entrega.
A medida que las herramientas de IA generativa, como ChatGPT, ganen el interés de las empresas y los consumidores, habrá una mayor presión sobre los proveedores de servicios en la nube, como Microsoft, Amazon y Google para garantizar que sus centros de datos puedan proporcionar la enorme potencia informática necesaria.
Ahora Microsoft está utilizando el mismo conjunto de recursos que creó para OpenAI para entrenar y ejecutar sus propios grandes modelos de IA, incluido el nuevo bot de búsqueda Bing presentado el mes pasado. La empresa también vende el sistema a otros clientes. El gigante del software ya está trabajando en la próxima generación de la supercomputadora de IA, como parte de un acuerdo ampliado con OpenAI en el que Microsoft ha agregado $ 10 mil millones a su inversión.
«No los construimos como algo personalizado; comenzó como algo personalizado, pero siempre lo construimos de manera que se generalizara para que cualquier persona que quiera entrenar un modelo de lenguaje grande pueda aprovechar las mismas mejoras». dijo Guthrie en una entrevista. «Realmente nos ayudó a convertirnos en una mejor nube para la IA en general».
Entrenar un modelo masivo de IA requiere una gran cantidad de unidades de procesamiento de gráficos conectadas en un solo lugar, como la supercomputadora de IA ensamblada por Microsoft. Una vez que un modelo está en uso, responder a todas las preguntas planteadas por los usuarios (lo que se denomina inferencia) requiere una configuración ligeramente diferente. Microsoft también implementa chips gráficos para inferencia, pero esos procesadores (cientos de miles) están dispersos geográficamente en las más de 60 regiones de centros de datos de la empresa. Ahora, la compañía está agregando el último chip de gráficos NVIDIA para cargas de trabajo de IA (el H100) y la última versión de la tecnología de red Infiniband de NVIDIA para compartir datos aún más rápido.
La decisión de Microsoft de asociarse con OpenAI se basó en la creencia de que esta escala de infraestructura sin precedentes produciría resultados (nuevas capacidades de IA, un nuevo tipo de plataforma de programación) que Microsoft podría convertir en productos y servicios que brindarían beneficios reales a los clientes, dijo Waymouth. Esta creencia ha alimentado la ambición de las empresas de superar todos los desafíos técnicos para construirlo y continuar ampliando los límites de la supercomputación de IA.
Fuente: https://news.microsoft.com/