Red adversaria de generación GAN (1)
La red generativa adversarial incluye dos subredes: la red generadora (G) y la red discriminadora (D). La red generadora es responsable de conocer la verdadera distribución de las muestras y la red discriminadora es responsable de conocer la verdadera distribución de las muestras. para distinguir las muestras muestreadas por la red del generador Muestras y muestras reales.
Red generadora g(?) La red generadora G es similar a la función decodificadora del codificador automático. Muestra variables latentes de la distribución anterior y obtiene las muestras generadas a través de la distribución parametrizada de la red generadora G. como se muestra en la siguiente figura Mostrar. ¿Qué variables ocultas? Se puede suponer que la distribución previa de pertenece a una distribución conocida, como una distribución uniforme multivariada.
¿Se puede parametrizar una red neuronal profunda, como se muestra en la figura siguiente, y se pueden muestrear las variables latentes a partir de una distribución uniforme? Muestreo de muestras de una distribución parametrizada de una red de capas convolucionales transpuestas de múltiples capas.
Red discriminativa d(? La red discriminativa es similar a una red binaria ordinaria, ¿acepta muestras de entrada?, incluidas muestras muestreadas de la distribución de datos reales, así como muestras falsas muestreadas de la red autogenerada y * * * Juntos forman el conjunto de datos de entrenamiento de la red discriminativa. Etiquetamos la salida de la red como ? Para la probabilidad de muestras reales, etiquetamos todas las muestras reales como 1 y todas las muestras generadas por la red generativa como 0. y el error. entre etiquetas, podemos optimizar los parámetros de la red discriminante.
Nuestro objetivo es claro, no solo mejorar la capacidad del discriminador para distinguir muestras de imágenes reales y falsas, sino también mejorar el generador para generar. imágenes más realistas, lo que hace que sea cada vez más difícil para el discriminador distinguir.
Para la red discriminativa D, el objetivo es poder distinguir entre muestras reales y muestras falsas. minimice el valor predicho de la imagen y el real. Función de pérdida de entropía cruzada entre valores:
Donde, la salida de la muestra real en la red discriminante es el conjunto de parámetros de la red discriminante y la salida. de la muestra generada en la red discriminante es la etiqueta, porque la muestra real está marcada como verdadera, por lo que es la etiqueta de la muestra generada, porque la muestra generada está marcada como falsa Según la definición de pérdida de entropía cruzada. función, el problema de clasificación binaria:
Por lo tanto, el objetivo de optimización de la red discriminante es:
Eliminar el signo negativo, convertir la pregunta en una pregunta y escribirla en el forma esperada:
Para la red generadora g (?), esperamos poder engañar bien a la red discriminadora e identificar falsedades en la red. Cuanto más cerca esté la salida de la muestra de la etiqueta verdadera, mejor. En otras palabras, al entrenar la red generada, se espera que la salida de la red sea lo más cercana posible a 1. En este momento, la función de pérdida de entropía cruzada es:
Cambie el problema a. El problema se escribe en la forma esperada:
Luego se convierte de manera equivalente en:
El proceso de optimización de GAN no es como la minimización de la función de pérdida habitual, pero mantiene la generación y discriminación. Equilibrio dinámico Por lo tanto, su proceso de entrenamiento es mucho más difícil que el de una red neuronal general.
Los objetivos de la red discriminativa y los objetivos de la red generativa se combinan y escriben en el min-max. formulario:
En el documento original de Gan:
Para una mejor comprensión, los símbolos se clasifican más claramente y se marca la correspondencia entre los símbolos y los parámetros de la red.
Idealmente, habría una capacidad más precisa para identificar la autenticidad de los datos.
Después de una gran cantidad de entrenamiento iterativo, las muestras falsas se simulan tanto como sea posible y, finalmente, toda la GAN alcanza el llamado equilibrio de Nash, es decir, para los resultados de reconocimiento de las muestras generadas y las muestras reales, la tasa de precisión es 50% y la tasa de error es 50% cada uno. Lo siguiente se deriva específicamente del nivel teórico.
Ahora desde un nivel teórico, a través del modo de entrenamiento de game learning, qué estados alcanzarán el generador G y el discriminador D respectivamente. Específicamente, veamos las dos preguntas siguientes:
Primero, damos una explicación intuitiva a través de un ejemplo de una distribución normal unidimensional. Como se muestra en la siguiente figura, la línea de puntos negra representa la distribución de datos reales, que es una distribución normal, la línea continua verde representa la distribución de aprendizaje de la red generadora y la línea de puntos azul representa la curva de límite de decisión del discriminador. . En la figura, (a) (b) (c) y (d) representan las trayectorias de aprendizaje de la red generativa respectivamente. En el estado inicial, como se muestra en la Figura (a), la distribución y la diferencia son grandes, y el discriminador puede aprender fácilmente el límite de juicio, que es la línea de puntos azul en la Figura (a). El punto de muestreo de juicio comienza en 0. , y el punto de muestreo medio es 1. A medida que la distribución de la red generada se acerca cada vez más a la distribución real, al discriminador le resulta cada vez más difícil distinguir las muestras verdaderas y falsas, como se muestra en las Figuras (b) y (c). Finalmente, la red resultante logra un rendimiento óptimo y una distribución aprendida. En este momento, las muestras extraídas de la red generada son muy realistas y el discriminador no puede distinguirlas, es decir, la probabilidad de juzgar que las muestras son verdaderas y falsas es igual, como se muestra en la Figura (d).
Se corrigen los parámetros del generador G y se determina el mejor estado que puede alcanzar el discriminador D:
Se demuestra que para un generador G dado, el discriminador D debe De manera óptima, nuestro objetivo es maximizar la función de pérdida, cuya forma integral es:
Para un dado, la distribución verdadera siempre es fija, por lo que la suma es un valor fijo, por lo que para el discriminador D, encuentre p>
El valor máximo de, donde es el parámetro de red discriminante. Para las funciones, no es difícil obtener el valor máximo en, que es el valor máximo. Por lo tanto, los puntos extremos disponibles también lo son
Así que lo mejor que puede lograr el discriminador es la fórmula dada en el teorema.
Consideremos ahora la segunda pregunta.
Divergencia JS (divergencia Jensen-Shannon)
Para la divergencia KL, es asimétrica. Pero la divergencia JS es simétrica.
Cuando se alcance, considere la divergencia de la suma en este momento:
Considerando la llegada de la red de juicio, la función de pérdida en este momento es:
Entonces podemos obtener:
Para una red generativa, el objetivo es minimizar la función de pérdida, ya que el mínimo solo se obtiene cuando (en este momento):
En este momento, la red generada alcanza el siguiente estado:
Es decir, la distribución aprendida es consistente con la distribución real y la red alcanza el punto de equilibrio de Nash. En este momento:
En otras palabras, la imagen generada por el generador tiene una probabilidad de 0,5 de ser verdadera y una probabilidad de 0,5 de ser falsa.