[Robotics_readinggroup] Sobre HoloGAN y la "constante aprendida"

Vie Dic 13 13:27:53 CET 2019

Por si les interesa,

Siguiendo con la discusión de esta "constante aprendida" que usa HoloGAN.
HoloGAN dice que hereda su estructura de StyleGAN: "A Style-Based Generator
Architecture for Generative Adversarial Networks" de gente de NVIDIA (
https://arxiv.org/pdf/1812.04948.pdf) y que basicamente va de lo mismo.
 En el artículo de StyleGAN dice:

*"We then improve this new base-line further by adding the mapping network
and AdaIN operations (C), and make a surprising observation that the
network no longer benefits from feeding the latent code into the first
convolution layer. We therefore simplify the architecture by removing the
traditional input layer and starting the image synthesis from a
learned4×4×512constant tensor(D). "*

Luego dice:

*"The constant input in synthesis network is initialized to one.".*

A lo que alcanzo a entender, dado que usan AdaIN (
https://arxiv.org/pdf/1703.06868.pdf) ya no necesitan hacer un muestreo
aleatorio en espacio latente, sino que la información que entre a la capa
AdaIN como mostraba Richard, es todo lo que se necesita para sintetizar la
imagen, siempre y cuando se parta de un "esqueleto" razonable en espacio
latente. Esto es, algun elemento del espacio latente muy representativo (o
algo asi). Suena razonable, y ademas parece que segun los experimentos,
dicho "esqueleto" existe y creo que a eso se refiere con su "sorprendente
observación".

Como quiera, este esqueleto del que se parte en espacio latente, se aprende
tambien. Es decir, es constante una vez que ya esta entrenada la red (ya no
se toman muestras aleatorias del espacio latente cada vez que se quiere
hacer una nueva sintesis), pero no lo es durante el entrenamiento. Se
inicia en 1's y evoluciona hasta ser el mejor "esqueleto" que pueda.

El punto es que la explicación de esta "constante" esta un poco mejor en el
paper de StyleGAN, por si alguno quiere atar ese cabo suelto.

Si estoy diciendo alguna tonteria o saben algo que pueda ayudar a entender
esto mejor, por favor escribanme,

Saludos!

Rodrigo