Los modelos más nuevos de OpenAI ya dibujan y reconocen objetos de manera más eficiente
Los investigadores de OpenAI han desarrollado dos redes neuronales que pueden dibujar objetos según las indicaciones del usuario en lenguaje natural y describir imágenes con un alto grado de precisión.
Los proyectos que se dieron a conocer hace pocos dias amplían el abanico de tareas a las que se puede aplicar la inteligencia artificial, además de que también promueven el objetivo de la comunidad de investigación de IA de crear modelos más versátiles que requieran menos ajustes manuales por parte de los ingenieros para producir resultados precisos.
DALL · E, la primera red neuronal nueva, es una versión miniaturizada del modelo de procesamiento de lenguaje natural GPT-3 que OpenAI debutó en 2020. GPT-3, una de las redes neuronales más complejas creadas hasta la fecha, puede generar texto e incluso código de software a partir de descripciones simples. DALL · E aplica la misma capacidad para dibujar imágenes según las indicaciones del usuario.
La capacidad sobresaliente del modelo es que puede producir imágenes incluso en respuesta a descripciones que encuentra por primera vez y que normalmente son difíciles de interpretar para una IA.
Durante las pruebas realizadas por los investigadores de OpenAI lograron demostrar que el modelo puede generar dibujos con éxito en respuesta a descripciones como, además de que, el modelo es capaz de generar imágenes en varios estilos diferentes.
Los investigadores decidieron probar exactamente qué tan versátil es la IA al hacer que aborde varias tareas adicionales de diversa dificultad.
En una serie de experimentos, el modelo demostró ser sumamente eficaz al tener la capacidad de generar la misma imagen desde múltiples ángulos y con diferentes niveles de resolución.
Otra prueba que se realizó a la AI, también mostró que el modelo es lo suficientemente sofisticado como para personalizar detalles individuales de la imagen que se le pide que genere.
«El control simultáneo de varios objetos, sus atributos y sus relaciones espaciales presenta un nuevo desafío», escribieron los investigadores de OpenAI en una publicación de blog . «Por ejemplo, considere la frase» un erizo con sombrero rojo, guantes amarillos, camisa azul y pantalones verdes «. Para interpretar correctamente esta oración, DALL · E no solo debe componer correctamente cada prenda con el animal, sino también formar las asociaciones (sombrero, rojo), (guantes, amarillo), (camisa, azul) y (pantalón, verde ) sin mezclarlos «.
La otra red neuronal recientemente detallada de OpenAI, Clip, se enfoca en reconocer objetos en imágenes existentes en lugar de dibujar nuevas.
Y aun que ya existen modelos de visión por computadora que clasifican las imágenes de esa manera, es importante tomar en cuenta que la mayoría de ellos solo pueden identificar un conjunto reducido de objetos para los que están entrenados específicamente.
Una IA que clasifica animales en fotos de vida silvestre, por ejemplo, tiene que ser entrenada en una gran cantidad de fotos de vida silvestre para producir resultados precisos. Lo que distingue a Clip de OpenAI es que es capaz de crear una descripción de un objeto que no ha encontrado antes.
La versatilidad de Clip es el fruto de un nuevo enfoque de capacitación que el laboratorio ha desarrollado para construir el modelo.
Para el proceso de capacitación, OpenAI no utilizó un conjunto de datos de imágenes elaborado manualmente, sino imágenes obtenidas de la web pública y sus leyendas de texto adjuntas. Los subtítulos permitieron a Clip construir un amplio léxico de palabras asociadas con diferentes tipos de objetos, asociaciones que luego podría usar para describir objetos que no había visto antes.
“El aprendizaje profundo necesita una gran cantidad de datos, y los modelos de visión tradicionalmente se han entrenado en conjuntos de datos etiquetados manualmente que son costosos de construir y solo brindan supervisión para un número limitado de conceptos visuales predeterminados”, detallaron los investigadores detrás de Clip. «Por el contrario, CLIP aprende de los pares de texto e imagen que ya están disponibles públicamente en Internet».
Finalmente, si quieres conocer más al respecto sobre los modelos de OpenAI, puedes consultar los detalles en el siguiente enlace.