Deligen explica
La motivación de este artículo es proponer un algoritmo genético mejorado para mejorar la diversidad de datos generados para datos de entrenamiento de muestras pequeñas.
Este artículo tiene dos contribuciones principales:
1. El espacio latente del GAN original se define como un modelo de mezcla gaussiana. Los experimentos muestran que cuando los datos de entrenamiento son limitados, este pequeño cambio puede aumentar efectivamente la diversidad de muestras generadas y mejorar la estabilidad del entrenamiento GAN. Llamaron al modelo Deligan.
2. Para medir cuantitativamente la diversidad intraclase de las muestras generadas, propusieron un indicador llamado puntuación de incidencia modificada, denominado m-IS.
¿El objetivo de entrenamiento de la GAN original es poner una variable lateral que obedezca a una distribución simple? z se asigna a datos de alta dimensión que obedecen a una distribución compleja. Para lograr efectos diversificados, esto generalmente requiere la profundidad de la red, lo cual es difícil de lograr cuando los datos son limitados. Por tanto, los autores se centran en mejorar la complejidad de z.
Definen la distribución de z como un modelo de mezcla gaussiana:
Aquí
Usando una distribución gaussiana para representar la probabilidad de muestrear z en el medio, entonces esta distribución equivale a seleccionar aleatoriamente una distribución entre n distribuciones gaussianas para muestrear z.
Cada distribución gaussiana tiene dos parámetros,
y
, que pertenecen al modelo a aprender. Sin embargo, habrá un problema aquí. Los gradientes de estos dos parámetros deben propagarse nuevamente a través de Z, pero Z es una variable aleatoria no diferenciable y el gradiente no se puede pasar aquí.
Por lo tanto, es necesario utilizar una técnica llamada reparametrización. Esta técnica fue propuesta por el autor VAE. Su principio es muy simple, es decir, cada distribución gaussiana se puede escribir en forma de distribución gaussiana estándar:
De esta manera, z se convierte en una variable determinista. y podemos diferenciarnos.
Los cambios en los nodos del modelo antes y después de aplicar la técnica de reparametrización son los siguientes, se puede ver claramente el efecto de esta técnica.
De esta manera, redescribir z en Deligen es
definición
Estos dos parámetros también son parámetros que deben optimizarse en el modelo.
La diferencia entre DeLiGAN y el GAN original se puede representar esquemáticamente:
T.Salimans, I. Goodfellow y otros en su artículo ¿Mejorado? Al entrenar GAN, se propone una métrica llamada puntuación inicial para evaluar las imágenes generadas por GAN. Además de evaluar la calidad de las imágenes generadas, la puntuación inicial también tiene en cuenta la diversidad entre clases. Este artículo mejora la puntuación inicial para poner mayor énfasis en la diversidad dentro de la clase además de la calidad de la imagen.
Los detalles son los siguientes:
1) Primero, use el modelo de clasificación de imágenes de CNN Inception para clasificar las imágenes generadas por GAN, por lo que para cada imagen,
Nosotros Se puede obtener la distribución p(y|x) de sus etiquetas de clasificación.
2) Esperamos que la imagen generada sea lo suficientemente realista y fácil de juzgar por el clasificador, por lo que el perfil de distribución de p(y|x) debe tener un "pico", de modo que p(y |x) debe tener una entropía relativamente baja.
3) Por otro lado, esperamos que la diversidad de una misma categoría sea lo suficientemente grande. Por ejemplo, cuando una GAN genera dos imágenes xj que también están clasificadas como automóviles, los detalles de sus imágenes deberían ser diferentes. Naturalmente, debería haber diferencias obvias entre p (y | xi) y p (y | xj), lo que se refleja en la teoría de la información, es decir, la entropía cruzada de estas dos distribuciones es relativamente grande.
En resumen, la fracción de incidencia modificada (m-is) se puede medir mediante la divergencia KL:
Porque
cuando la divergencia k1 es relativamente grande,
Relativamente grande,
Relativamente pequeño, consistente con el análisis anterior.
Este artículo también realizó una serie de experimentos comparativos con la GAN original. Los resultados muestran que cuando la escala de datos de entrenamiento es pequeña, la GAN original no es tan buena como DeLiGAN en términos de calidad de imagen y. diversidad.
Obviamente, la razón fundamental radica en la diferencia en la complejidad espacial potencial de los dos modelos. Cuando la distribución de datos reales presenta multimodalidades complejas y la escala de los datos de entrenamiento es limitada, la distribución gaussiana mixta es más flexible que la distribución gaussiana única y puede ajustarse con mayor precisión a la distribución de datos reales.
Además de sus ventajas de rendimiento, DeLiGAN también tiene la ventaja de una implementación simple y puede servir fácilmente como un "complemento" para estructuras GAN existentes.