StyleGAN3, el sistema de aprendizaje automático para la síntesis facial de Nvidi
Hace poco NVIDIA dio a conocer el código fuente de StyleGAN3, un sistema de aprendizaje automático basado en redes neuronales adversas generativas (GAN) para sintetizar imágenes realistas de rostros humanos.
En StyleGAN3 están disponibles para descargar modelos entrenados listos para usar entrenados en la colección Flickr-Faces-HQ (FFHQ), que incluye 70 mil imágenes PNG de rostros humanos de alta calidad (1024×1024). Además, hay modelos construidos sobre la base de las colecciones AFHQv2 (fotografías de caras de animales) y Metfaces(imágenes de rostros de personas a partir de retratos de pintura clásica).
Sobre StyleGAN3
El diseño se centra en los rostros, pero el sistema se puede entrenar para generar cualquier tipo de objeto, como paisajes y automóviles. Además, se proporcionan herramientas para el autoaprendizaje de la red neuronal utilizando sus propias colecciones de imágenes. Requiere una o más tarjetas gráficas NVIDIA (se recomiendan las GPU Tesla V100 o A100), al menos 12 GB de RAM, PyTorch 1.9 y el kit de herramientas CUDA 11.1+. Para determinar la naturaleza artificial de las caras recibidas, se está desarrollando un detector especial.
El sistema permite sintetizar una imagen de un nuevo rostro en base a la interpolación de los rasgos de varios rostros, combinando sus rasgos inherentes, además de adaptar la imagen final a la edad requerida, género, largo de cabello, carácter de sonrisa, forma de nariz, color de piel, gafas, ángulo fotográfico.
El generador considera la imagen como una colección de estilos, separa automáticamente los detalles característicos (pecas, cabello, gafas) de los atributos generales de alto nivel (postura, género, cambios relacionados con la edad) y permite combinarlos de forma arbitraria con la definición de propiedades dominantes mediante factores de ponderación y que como resultado, se generan imágenes que son aparentemente indistinguibles de las fotografías reales.
La primera versión de la tecnología StyleGAN (se publicó en 2019), seguida de una versión mejorada de StyleGAN2 en 2020, que mejora la calidad de la imagen y elimina algunos artefactos. Al mismo tiempo, el sistema permaneció estático, es decir no permitía animaciones realistas ni movimientos faciales. Al desarrollar StyleGAN3, el objetivo principal fue adaptar la tecnología para su uso en animación y video.
StyleGAN3 utiliza una arquitectura de generación de imágenes sin aliasing rediseñada y ofrece nuevos escenarios de entrenamiento de redes neuronales y que además incluyen nuevas utilidades para visualización interactiva (visualizer.py), análisis (avg_spectra.py) y generación de video (gen_video.py). La implementación también reduce el consumo de memoria y acelera el proceso de aprendizaje.
Una característica clave de la arquitectura StyleGAN3 fue la transición a la interpretación de todas las señales en la red neuronal en forma de procesos continuos, lo que hizo posible poder manipular las posiciones relativas al formar partes, no atadas a las coordenadas absolutas de píxeles individuales en la imagen, pero fijada a la superficie de los objetos representados.
Mientras que en StyleGAN y StyleGAN2, el ajuste a los píxeles durante la generación provocó problemas con el renderizado dinámico, por ejemplo, cuando la imagen se estaba moviendo, había una falta de coincidencia de pequeños detalles, como arrugas y pelos, que parecían moverse por separado del resto de la imagen de la cara, además de que en StyleGAN3 estos problemas se resuelven y la tecnología se ha vuelto bastante adecuada para la generación de video.
Finalmente, también vale la pena mencionar el anuncio de la creación por parte de NVIDIA y Microsoft del mayor modelo de lenguaje MT-NLG basado en una red neuronal profunda con una arquitectura » transformadora «.
El modelo cubre 530 mil millones de parámetros y se utilizó un grupo de 4480 GPU para el entrenamiento (560 servidores DGX A100 con 8 GPU A100 de 80 GB cada uno). Las áreas de aplicación del modelo se denominan solución de problemas de procesamiento de información en lenguaje natural, tales como predecir la finalización de una oración inconclusa, responder preguntas, comprensión de lectura, formar conclusiones en lenguaje natural y analizar la ambigüedad del significado de las palabras.
Si estás interesado en poder conocer más al respecto, puedes consultar los detalles de StyleGAN3 en el siguiente enlace.