LDM3D, el modelo para síntesis de imágenes 3D de Intel y Blockade
Intel y Blockade Labs han dado a conocer mediante una publicación de blog información sobre su desarrollo en conjunto de un modelo de aprendizaje automático que tiene como nombre «LDM3D» (Latent Diffusion Model for 3D) para generar imágenes y mapas de profundidad asociados basados en descripciones de texto en lenguaje natural.
El modelo se entrenó utilizando el conjunto de datos abiertos LAION-400M preparado por la comunidad LAION (Red abierta de inteligencia artificial a gran escala), que desarrolla herramientas, modelos y recopilaciones de datos para crear sistemas de aprendizaje automático gratuitos. La colección LAION-400M incluye 400 millones de imágenes con descripciones de texto.
Además de las imágenes y sus descripciones textuales, al entrenar el modelo LDM3D también se utilizan mapas de profundidad, generados para cada imagen mediante el sistema de aprendizaje automático DPT (Dense Prediction Transformer), que permite predecir la profundidad relativa de cada píxel de una imagen plana.
Intel Labs, en colaboración con Blockade Labs, presentó el modelo de difusión latente para 3D (LDM3D), el primer modelo de difusión de la industria que ofrece mapeo de profundidad para crear imágenes 3D con vistas de 360 grados que son vívidas e inmersivas.
LDM3D tiene el potencial de revolucionar la creación de contenido, las aplicaciones de metaverso y las experiencias digitales, transformando una amplia gama de industrias, desde el entretenimiento y los juegos hasta la arquitectura y el diseño.
En comparación con las tecnologías de predicción de profundidad en el posprocesamiento, el modelo LDM3D, entrenado inicialmente con profundidad, proporciona información de profundidad más precisa en la etapa de generación. Otra ventaja del modelo es la capacidad de generar datos de profundidad sin aumentar la cantidad de parámetros: la cantidad de parámetros en el modelo LDM3D es aproximadamente la misma que la del último modelo de difusión estable.
Para demostrar las capacidades del modelo se ha preparado la aplicación DepthFusion, que permite crear entornos interactivos para su visualización en modo 360 grados a partir de imágenes bidimensionales RGB y mapas de profundidad.
LDM3D permite a los usuarios generar una imagen y un mapa de profundidad a partir de un mensaje de texto determinado utilizando casi la misma cantidad de parámetros.
LDM3D está escrita en TouchDesigner, un lenguaje de programación visual adecuado para crear contenido multimedia interactivo en tiempo real. El modelo LDM3D también se puede utilizar para generar y modificar imágenes basadas en una plantilla propuesta, proyectar el resultado en una esfera para crear un entorno, generar imágenes basadas en diferentes posiciones del observador y generar video basado en el movimiento de la cámara virtual.
Se supone que la tecnología propuesta tiene un gran potencial para crear nuevos métodos de interacción con el usuario, que pueden tener demanda en varias industrias, desde el entretenimiento y los juegos hasta la arquitectura y el diseño. Por ejemplo, LDM3D se puede utilizar para crear museos interactivos y entornos de realidad virtual que generan entornos detallados basados en deseos en lenguaje natural.
El desarrollo se asemeja al sistema de síntesis de imágenes Stable Diffusion, pero permite la formación de contenido visual tridimensional, como imágenes panorámicas esféricas que se pueden ver en modo de 360 grados. En el aspecto práctico, el modelo se puede utilizar en juegos y sistemas de realidad virtual para la formación interactiva de entornos tridimensionales.
El modelo LDM3D está entrenado en una supercomputadora Intel AI con procesadores Intel® Xeon® y aceleradores Intel® Habana Gaudi® AI.
Para los interesados en el proyecto, deben saber que se ofrece para descarga gratuita un modelo listo para usar para sistemas de aprendizaje automático, que se puede usar con PyTorch y código diseñado para generar imágenes usando modelos del proyecto Stable Diffusion.
Cabe mencionar que el modelo se distribuye bajo la licencia permisiva Creative ML OpenRAIL-M, que permite el uso comercial. La distribución bajo una licencia abierta permite a los investigadores y desarrolladores interesados mejorar el modelo según sus necesidades y optimizarlo para aplicaciones altamente especializadas.
Finalmente si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.