GPT-4: la IA de procesamiento de lenguaje natural de OpenAI podría llegar a finales de este semestre
En mayo de 2020, OpenAI, la empresa de IA cofundada por Elon Musk y Sam Altman, publicó GPT-3, presentada entonces como la gran red neuronal del momento. Un modelo de lenguaje de última generación, GPT-3 incluye 175 mil millones de parámetros en comparación con los 1,5 mil millones de parámetros de su predecesor GPT-2.
GPT-3 venció al modelo NLG Turing (Turing Natural Language Generation) de Microsoft con 17 mil millones de parámetros que anteriormente ostentaba el récord de red neuronal más grande. El modelo de lenguaje ha sido maravillado, criticado e incluso sometido a escrutinio; también ha encontrado nuevas e interesantes aplicaciones.
Y ahora se han dado a conocer rumores de que el lanzamiento de GPT-4, la próxima versión del modelo de lenguaje de OpenAI, podría estar llegando pronto.
Aunque todavía no se ha anunciado una fecha de lanzamiento, OpenAI ha dado algunas indicaciones sobre las características del sucesor de GPT-3, con lo cual muchos podrían esperar, que GPT-4 no debería ser más grande que GPT-3, pero debería usar más recursos computacionales, lo que limitará su impacto ambiental.
Durante la sesión, Altman insinuó que, contrariamente a la creencia popular, GPT-4 no será el modelo de lenguaje más grande. Sin duda, el modelo será más grande que las generaciones anteriores de redes neuronales, pero el tamaño no será su sello distintivo.
En primer lugar, las empresas se han dado cuenta de que utilizar el tamaño del modelo como indicador para mejorar el rendimiento no es la única ni la mejor manera de hacerlo. En 2020, Jared Kaplan y sus colegas de OpenAI supuestamente concluyeron que el rendimiento mejora más cuando los aumentos en el presupuesto de cómputo se asignan principalmente para aumentar la cantidad de parámetros, siguiendo una relación de ley de potencia. Google, Nvidia, Microsoft, OpenAI, DeepMind y otras empresas que desarrollan modelos de lenguaje han tomado estas pautas al pie de la letra.
Pero MT-NLG (Megatron-Turing NLG, una red neuronal construida por Nvidia y Microsoft el año pasado con 530 mil millones de parámetros), por grande que sea, no es la mejor cuando se trata de rendimiento. De hecho, no está calificado como el mejor en ninguna categoría de referencia. Los modelos más pequeños, como Gopher o Chinchilla (70 mil millones de parámetros), apenas una fracción de su tamaño, serían mucho mejores que MT-NLG en todas las tareas. Así, quedó claro que el tamaño del modelo no es el único factor que conduce a una mejor comprensión del lenguaje.
Según Altman, los modelos de lenguaje sufren una limitación crítica cuando se trata de optimización. La capacitación sería tan costosa que las empresas tendrían que comprometerse entre la precisión y el costo. Esto a menudo da como resultado que los modelos estén muy poco optimizados.
El CEO informó que GPT-3 se entrenó solo una vez, a pesar de algunos errores que en otros casos habrían llevado a una nueva capacitación. Debido a esto, según se informa, OpenAI decidió no hacerlo debido al costo inasequible, lo que impidió que los investigadores encontraran el mejor conjunto de hiperparámetros para el modelo.
Otra consecuencia de los altos costos de capacitación es que se restringirían los análisis del comportamiento del modelo. Según un informe, cuando los investigadores de IA concluyeron que el tamaño del modelo era la variable más relevante para mejorar el rendimiento, no consideraron la cantidad de tokens de entrenamiento, es decir, la cantidad de datos proporcionados a los modelos. Esto habría requerido cantidades extraordinarias de recursos informáticos. Según los informes, las empresas tecnológicas siguieron los hallazgos de los investigadores porque era lo mejor que tenían.
Altman dijo que GPT-4 utilizará muchos más cálculos que su predecesor. Se espera que OpenAI implemente ideas relacionadas con la optimización en GPT-4, aunque no se puede predecir en qué medida, ya que se desconoce su presupuesto.
Sin embargo, las declaraciones de Altman muestran que OpenAI debería centrarse en optimizar otras variables además del tamaño del modelo. Encontrar el mejor conjunto de hiperparámetros, el tamaño óptimo del modelo y la cantidad de parámetros podría conducir a mejoras increíbles en todos los puntos de referencia.
Según los analistas, todas las predicciones para los modelos de lenguaje se derrumbarán si estos enfoques se combinan en un solo modelo. Altman también dijo que la gente no creería lo mejores que pueden ser los modelos sin ser necesariamente más grandes. Puede estar sugiriendo que los esfuerzos de escalamiento han terminado por ahora.
Según se informa, OpenAI puso mucho esfuerzo en resolver el problema de la alineación de la IA: ¿cómo hacer que los modelos de lenguaje sigan las intenciones humanas y se adhieran a los valores humanos?
Los analistas dicen que este no es solo un problema matemático difícil (¿cómo hacemos que la IA entienda exactamente lo que queremos?), sino también filosóficamente (no existe una forma universal de alinear la IA con los humanos, ya que la variabilidad de los valores humanos de grupo a grupo es enorme y, a menudo, conflictivo).
Finalmente si estás interesado en poder conocer más al respecto, puedes consultar la publicación original en el siguiente enlace.