HyperStyle, una adaptación de StyleGAN para la edición de imágenes
Un equipo de investigadores de la Universidad de Tel Aviv dio a conocer recientemente HyperStyle, la cual es una versión invertida del sistema de aprendizaje automático StyleGAN2 de NVIDIA que ha sido rediseñado para recrear las piezas faltantes al editar imágenes del mundo real.
StyleGAN se caracteriza por permitir sintetizar nuevos rostros de personas de apariencia realista, estableciendo parámetros como la edad, el género, la longitud del cabello, el carácter de la sonrisa, la forma de la nariz, el color de la piel, las gafas y el ángulo fotográfico.
Por otro lado, HyperStyle hace posible cambiar parámetros similares en los existentes, es decir permite crear fotografías sin modificar sus rasgos característicos y conservando la reconocibilidad del rostro original.
HyperStyle introduce hipernetworks para aprender a refinar los pesos de un generador StyleGAN previamente entrenado con respecto a una imagen de entrada determinada. Hacerlo permite reconstrucciones de nivel de optimización con tiempos de inferencia similares a los de un codificador y una alta capacidad de edición.
Por ejemplo, al usar HyperStyle, puede simular un cambio en la edad de una persona en una fotografía, cambiar un peinado, agregar lentes, barba o bigote, hacer que una imagen parezca un personaje de dibujos animados o una imagen dibujada a mano, hacer una expresión de la cara triste o alegre.
En este caso, el sistema se puede entrenar no solo para cambiar las caras de las personas, sino también para cualquier objeto, por ejemplo, para editar imágenes de automóviles.
La mayoría de los trabajos que estudian la inversión buscan un código latente que reconstruya con mayor precisión una imagen determinada. Algunos trabajos recientes han propuesto un ajuste fino por imagen de los pesos del generador para lograr una reconstrucción de alta calidad para una imagen objetivo determinada. Con HyperStyle, nuestro objetivo es llevar estos enfoques de ajuste de generadores al ámbito de las aplicaciones interactivas adaptándolos a un enfoque basado en codificadores.
Entrenamos un solohipernetwork para aprender a refinar los pesos del generador con respecto a una imagen de destino deseada. Al aprender este mapeo, HyperStyle predice de manera eficiente los pesos deseados del generador en menos de 2 segundos por imagen, lo que lo hace aplicable a una amplia gama de aplicaciones.
El método propuesto tiene como objetivo resolver el problema de reconstruir partes faltantes de una imagen durante la edición. Las técnicas propuestas anteriormente se han ocupado del equilibrio entre la reconstrucción y la edición mediante el ajuste fino del generador de imágenes para sustituir porciones de la imagen de destino mientras se recrean las regiones editables que originalmente faltaban. La desventaja de tales enfoques es la necesidad de un entrenamiento dirigido a largo plazo de la red neuronal para cada imagen.
El método basado en el algoritmo StyleGAN permite utilizar un modelo típico, preentrenado sobre colecciones comunes de imágenes, para generar elementos característicos de la imagen original con un nivel de confianza comparable a los algoritmos que requieren un entrenamiento individual del modelo para cada imagen.
Una de las ventajas del nuevo método es la capacidad de modificar imágenes con un rendimiento cercano al tiempo real, ademas de que el modelo está listo para entrenar preparado para esas personas, autos y animales basado en las colecciones de Flickr-the Faces-HQ (FFHQ, 70,000 imágenes PNG de alta calidad de rostros de personas), The Stanford Cars (16 mil imágenes de autos) y AFHQ (fotos de animales).
Además, se proporciona un conjunto de herramientas para entrenar sus modelos, así como modelos entrenados listos para usar de codificadores y generadores típicos adecuados para usar con ellos. Por ejemplo, hay generadores disponibles para crear imágenes al estilo de Toonify, personajes de Pixar, crear bocetos e incluso estilizar como princesas de Disney.
Finalmente para aquellos que estén interesados en poder conocer más al respecto sobre esta herramienta, pueden consultar los detalles en el siguiente enlace.
Tambien es importante mencionar que el código está escrito en Python usando el marco de PyTorch y tiene la licencia MIT. Pueden consultar el código en el siguiente enlace.