Point-E la nueva solución de de OpenAI que genera imágenes 3D
OpenAI ha ampliado las capacidades de su software de texto a imagen de dos a tres dimensiones con el lanzamiento de Point-E, una IA que genera imágenes en 3D a partir de indicaciones de texto. Según un documento publicado con el código base, Point-E no requiere una computadora de alta gama para ejecutarse y puede generar un modelo en menos de dos minutos con una sola GPU Nvidia V100.
Con ello podemos ver que los generadores de modelos 3D podrían ser el próximo avance que arrasará en el mundo de la IA. OpenAI ha estado muy activo este año, ya que por ejemplo aquí en el blog hemos hablado de la empresa por sus dos grandes proyectos: Dall-E 2 y ChatGPT.
Entre estas dos plataformas masivas de IA, la empresa ayudó a generar imágenes y largas tiradas de texto a partir de un mensaje de texto simple, y ahora la compañía ya está de regreso con un tercer concepto, que lanzó justo antes de Navidad para despertar el interés de todos. Este tercer concepto, denominado Point-E, sigue un patrón similar, creando contenido 3D a partir de indicaciones simples.
Anunciado en un artículo de investigación publicado por el equipo de OpenAI, Point-E funciona en dos etapas: primero usa una IA de texto a imagen para convertir su solicitud verbal en una imagen, luego usa una segunda función para transformar esta imagen en un modelo 3D.
Point-E es de código abierto y el código fuente está disponible en Github. Aun así, puede ser un poco complicado intentarlo, ya que los usuarios deberán estar medianamente familiarizados con las herramientas de línea de comandos y el sistema debe tener Python, a diferencia de ChatGPT, donde los usuarios pueden registrarse en un sitio web y probar sus habilidades.
Point-E no crea objetos 3D en el sentido tradicional, más bien, genera nubes de puntos, es decir, conjuntos discretos de puntos de datos en el espacio que representan una forma 3D, de ahí la abreviatura descarada.
(La «E» en Point-E es la abreviatura de «eficiencia», ya que es aparentemente más rápido que los enfoques anteriores para generar objetos 3D). Según los desarrolladores, las nubes de puntos son computacionalmente más fáciles de sintetizar, pero no capturan la forma o la textura fina de un objeto, lo cual es una limitación importante de Point-E actualmente.
Para evitar esta limitación, el equipo de Point-E entrenó un sistema de IA adicional para convertir las nubes de puntos de Point-E en mallas. (Las mallas, las colecciones de vértices, aristas y caras que definen un objeto, se usan comúnmente en el modelado y diseño 3D). Pero los investigadores señalan en su artículo que el modelo a veces puede pasar por alto partes de los objetos, lo que da como resultado formas distorsionadas o bloqueadas. Además del modelo de generación de malla, que es autónomo, Point-E consta de dos modelos: un modelo de imagen de texto y un modelo de imagen 3D.
El modelo de texto-imagen, similar a los sistemas de generación de obras de arte como DALL-E 2 y Stable Diffusion, se entrenó en imágenes etiquetadas para comprender las asociaciones entre palabras y conceptos visuales. El modelo de imagen 3D, por otro lado, se alimentó con un conjunto de imágenes asociadas con objetos 3D para aprender a traducir los dos de manera efectiva. Cuando se le proporciona un mensaje de texto, por ejemplo, «un engranaje imprimible en 3D, un solo engranaje de 7 cm de diámetro y 1 cm de grosor», el modelo de texto a imagen de Point-E genera un objeto sintético renderizado que se pasa a la imagen. -modelo 3d.
Este último luego genera una nube de puntos. Después de entrenar los modelos en un conjunto de datos de «varios millones» de objetos 3D y metadatos asociados, Point-E pudo producir nubes de puntos de colores que con frecuencia coincidían con las indicaciones de texto, dicen los investigadores de OpenAI. No es perfecto: el modelo de imagen 3D de Point-E a veces no comprende la imagen del modelo de imagen de texto, lo que da como resultado una forma que no coincide con el mensaje de texto. Aun así, es mucho más rápido que el estado del arte anterior, al menos según el equipo de OpenAI.
El resultado está lejos de alcanzar la calidad de un renderizado 3D comercial en una película o un videojuego. Pero no se supone que sea. Una vez que se introducen en una aplicación 3D como Blender, se pueden convertir en mallas texturizadas que se parecen más a las imágenes 3D normales.
«Aunque nuestro método aún no está a la altura en términos de calidad de muestreo, es uno o dos órdenes de magnitud más rápido, lo que es un compromiso práctico para algunos casos de uso», explican los investigadores de OpenAI en el documento que describe el proyecto.
Finalmente si estás interesado en poder conocer el código fuente o más sobre Point-E puedes consultar los detalles en el siguiente enlace.