LSGAN: Red antagónica generativa de mínimos cuadrados
Método: utilice la función de pérdida de mínimos cuadrados para reemplazar la función de pérdida de entropía cruzada tradicional de GAN.
Este artículo estudia principalmente LS GAN comparando GAN.
Ejemplo:
Cuando el generador se actualiza con muestras falsas que están en el lado derecho del límite de decisión pero aún lejos de los datos reales, la función de pérdida de entropía cruzada puede causa el problema del gradiente de fuga.
Como se muestra en la Figura (b), cuando utilizamos muestras falsas (magenta) para actualizar el generador haciendo creer al discriminador que provienen de datos reales, casi no causa errores porque están en la derecha. , Es decir, el plano de datos real para determinar el límite.
Pero estas muestras aún están lejos de los datos reales. Queremos acercarlas a los datos reales.
Resumen del problema: en el caso de la función de pérdida de entropía cruzada, el discriminador determina que los datos falsos de la superficie real están muy lejos de los datos reales y el efecto es insuficiente.
Con base en esta observación, proponemos la red adversarial generativa de mínimos cuadrados, que utiliza la función de pérdida de mínimos cuadrados como discriminador.
La función de pérdida de mínimos cuadrados puede mover muestras erróneas al límite de decisión,
Porque la función de pérdida de mínimos cuadrados penaliza las muestras alejadas del lado derecho del límite de decisión.
Como se muestra en la Figura (c), la función de pérdida de mínimos cuadrados penalizará las muestras falsas (magenta) y las llevará al límite de decisión, lo que permitirá clasificarlas correctamente.
A partir de esta característica, el método de mínimos cuadrados puede generar muestras más cercanas a los datos reales.
Resumen
Mínimos cuadrados: en comparación con la pérdida de entropía cruzada, la ventaja de la pérdida de mínimos cuadrados es que las muestras generadas engañan al discriminador y al mismo tiempo permiten que el generador aleje las muestras generadas de Durante el proceso de toma de decisiones, las imágenes de límites se acercan al límite de decisión, lo que garantiza la generación de muestras de alta calidad.
Entropía cruzada: con la entropía cruzada como pérdida, el generador no optimizará las imágenes generadas que el discriminador identifica como imágenes reales, incluso si estas imágenes generadas todavía están lejos del límite de decisión del discriminador. es decir, lejos de los datos reales. Debido a que la pérdida de entropía cruzada en este momento ya es muy pequeña, el generador ha completado sus objetivos de diseño.
La desventaja de LSGAN es que cuando el discriminador es lo suficientemente bueno, no resuelve el problema de dispersión de gradiente del generador.
Dispersión de gradiente: cuando se utiliza el algoritmo de retropropagación para propagar gradientes, a medida que aumenta la profundidad de propagación, la amplitud del gradiente disminuirá bruscamente, lo que provocará que los pesos de las neuronas poco profundas se actualicen lentamente y no puedan aprender de manera efectiva.
De esta manera, el modelo profundo se convierte en un modelo superficial en el que las primeras capas son relativamente fijas y solo las últimas capas se pueden cambiar.
Función de pérdida de GAN:
Función de pérdida de LSGAN:
Mínimos cuadrados
Notas de fórmula:
El objetivo del discriminador d
generador g
g es aprender la distribución pg en los datos x.
G sigue una distribución uniforme o gaussiana pz(z) para muestrear la variable de entrada Z y luego asigna la variable de entrada Z al espacio de datos G(Z; θg).
d es la clasificación El dispositivo d(x; θd), cuyo propósito es identificar si la imagen proviene de los datos de entrenamiento o de g.
Z es ruido, que puede obedecer a una distribución normal o gaussiana. La distribución de probabilidad de los datos reales X, la distribución de probabilidad de Z... es el valor esperado, ambos son valores esperados.
Supongamos que utilizamos el esquema de codificación a-b para el discriminador, donde A y B son las etiquetas de datos falsos y datos reales, respectivamente.
c representa el valor de los datos incorrectos predichos por g y creídos por d.
Las ventajas específicas del método de mínimos cuadrados:
1. El límite de decisión es fijo (los parámetros del discriminador son fijos) y las muestras generadas están cerca del límite de decisión y más cerca. a los datos reales.
2. Penalice las muestras que están lejos del límite de decisión Al actualizar el generador, se pueden generar más gradientes, aliviando así el problema de desaparición del gradiente (desaparición del gradiente: la tasa de aprendizaje de la capa oculta frontal es). menor que el de la capa oculta trasera, es decir, a medida que aumenta el número de capas ocultas, la precisión de la clasificación disminuye).
En GAN; minimizar la ecuación 1 produce minimizar la divergencia de Jensen-Shannon:
LSGAN: Discuta la relación entre LSGAN y f-divergencia
Explicación de la fórmula: ( La codificación a-b demuestra las siguientes condiciones A, B, C)
asistirá
No cambia el valor óptimo porque no se introducen parámetros G .
De esta manera podemos derivar el discriminador óptimo bajo condiciones G fijas:
Utilice pd para representar pdata y vuelva a expresar la Ecuación 4.
La prueba detallada no se dará aquí
Simplíquelo como:
Si: b-c = 1 y b-a = 2, entonces
Esta es la divergencia de Pearson. En resumen, se puede demostrar que si A, B, C satisfacen las condiciones de b-c = 1, b-a = 2, minimizar la Ecuación 4 minimizará la divergencia de Pearson χ2 entre pd pg y 2pg.
Adopte el esquema de codificación a-b:
De la prueba anterior, podemos establecer a = 1, b = 1, c = 0.
Uso del esquema de codificación binaria 0-1:
Estas dos fórmulas son relativamente parecidas, pero aquí, el autor usa la codificación a-b para implementar el experimento:
Traer Uno de los experimentos:
Referencias: Mao Xiaodong, Li Qing, Xie Hairen, etc. Generación de mínimos cuadrados.
Adversarial Networks[C]//2017 IEEE Conference Proceedings
Conferencia internacional sobre visión por computadora, Venecia, octubre
22-29 de octubre de 2017. Washington: IEEE Sociedad de Computación, 2017:
2813-2821.