La Red de Conocimientos Pedagógicos - Currículum vitae - Iniciar el equilibrio de límites para generar una red de contramedidas

Iniciar el equilibrio de límites para generar una red de contramedidas

Resuelva el problema: el modelo de cultivo de Gan es difícil

Ejercicio: BEGAN no estima directamente la distancia entre la distribución generada pg y la distribución verdadera px, sino que estima la distancia entre los errores de distribución.

Si las distribuciones de error entre distribuciones son similares, pg y px también pueden considerarse similares.

BEGAN diseña el discriminador G como un codificador automático para reconstruir el error de distribución y optimizar la puntuación.

La distancia entre errores de tela es la siguiente:

BEGAN propone un concepto de equilibrio para equilibrar el entrenamiento de G y D, de modo que GAN pueda usar una red muy simple sin agregar habilidades de entrenamiento. como BN y minibath también pueden lograr buenos resultados de entrenamiento.

Al mismo tiempo, también se propone un hiperparámetro que puede equilibrar la diversidad y la calidad de la muestra y un método para medir la convergencia del modelo.

En el experimento, se descubrió que BEGAN converge rápidamente y el entrenamiento de G y D está equilibrado, pero la selección de hiperparámetros es una prueba de experiencia.

1. El proceso de entrenamiento estándar hace que GAN tenga una convergencia rápida y estable.

2. Introducir el concepto de ecualización para ecualizar la potencia del discriminador y generador de frecuencia.

3. Proporcionar un nuevo método para controlar el equilibrio entre diversidad de imágenes y calidad visual.

4. Medida aproximada de convergencia

Utilizando el codificador automático como discriminador, la distribución de pérdidas del codificador automático se deriva de la coincidencia de pérdidas de distancia de Wasserstein (similar a lo que dije anteriormente sobre la divergencia de KL). , tiene definición positiva, simetría, desigualdad triangular).

l:r^nx-> 1. Función de pérdida del codificador automático de píxeles de entrenamiento R+:

BEGAN propuso una idea, utilizando un codificador automático como discriminador d. Lo que hace es igualar la distribución de errores tanto como sea posible, en lugar de hacer coincidir directamente la distribución de muestras. Si la distribución de errores es lo suficientemente cercana, la distribución de muestras reales también lo será.

d: Función de codificador automático

n: Este es el estándar objetivo

v: Es un ejemplo de dimensión Nx.

U1, 2 son dos distribuciones de la función de pérdida del codificador automático.

γ (U1, u2) es el conjunto de todas las combinaciones de 1 y 2.

M1, 2∈R son sus respectivos valores medios.

La distancia de Wasserstein es:

de donde se derivan x1 y x2

El límite inferior de W1(u1, u2) se puede derivar usando la desigualdad de Jensen:

p>

El objetivo es optimizar el límite inferior de la distancia de Wasserstein entre las distribuciones de pérdidas del codificador automático, no el límite inferior entre las distribuciones de muestra.

El discriminador de frecuencia está diseñado para maximizar la pérdida del autocodificador entre la Ecuación 1.

Sea u1 la distribución de pérdidas L(x), donde x es la muestra real.

Supongamos que u2 es la distribución de pérdida L(G(z))

donde G: RNz →RNx es la función generadora.

Z∈[-1, 1]Nz es una muestra aleatoria uniforme con dimensión Nz.

Debido a que m1, m2 ∈R+ alcanza el máximo | m1-m2 | Solo hay dos soluciones posibles:

Elegimos la opción (b) como nuestro objetivo, porque minimizar m1 naturalmente lo hará. dar como resultado la codificación automática de imágenes reales.

Dados los parámetros del discriminador y del generador θD y θG,

Actualice cada parámetro minimizando las pérdidas LD y LG.

Represente el problema como un objetivo GAN, donde zD y zG son muestras de z:

La función de pérdida corresponde a g y d al principio;

2. Introducción del equilibrio:

Cuando hay un equilibrio entre las pérdidas del generador y del discriminador, se cumplen las siguientes condiciones:

El discriminador no puede distinguir las muestras generadas de las muestras reales, por lo que El error Las distribuciones (incluidos los errores esperados) de deben ser las mismas para que estén equilibradas.

La introducción de γ en D balanceado no solo codifica automáticamente imágenes reales, sino que también distingue correctamente las muestras de entrada. Cuando γ es pequeño, significa que el denominador es grande, por lo que en este momento el modelo se centra en la precisión del reconocimiento y G solo genera imágenes que pueden engañar a d.

El discriminador tiene dos objetivos en competencia:

1. Codificar automáticamente imágenes reales e identificar imágenes reales a partir de imágenes generadas.

2. El término γ nos permite equilibrar estos dos objetivos.

Los valores de γ más bajos conducen a una menor diversidad de imágenes porque el discriminador se centra más en codificar automáticamente imágenes reales.

γ se llama ratio de diversidad. Hay límites naturales y la imagen es clara y detallada.

Para θD y θG y cada paso de entrenamiento t, el objetivo es

γ∈[0, 1] es un hiperparámetro Cuanto menor es el valor, menor es la diversidad del generado. muestras.

λk es el tamaño del paso de actualización de kt+1, y kt representa el énfasis en la capacidad de discriminación D.

Utiliza la teoría del control proporcional para mantener el equilibrio.

Esto se logra utilizando la variable kt ∈ [0, 1] para controlar la importancia de L(G(zD)) en el proceso de descenso del gradiente.

Inicializamos k0 = 0. λk es la ganancia proporcional de k;

En términos de aprendizaje automático, es la tasa de aprendizaje de k.

Usamos 0,001 en el experimento.

Esencialmente, esto puede considerarse como una forma de control de retroalimentación de circuito cerrado, donde kt se ajusta en cada paso para mantener la Ecuación 4.

En la etapa inicial de entrenamiento, G tiende a generar datos que son fáciles de reconstruir para el codificador automático porque los datos generados son cercanos a cero y la distribución real de los datos aún no se comprende con precisión.

En este momento L(X)>L(G(z))

En comparación con el entrenamiento tradicional que requiere entrenamiento alternativo de D y G o entrenamiento previo de D, el método propuesto por BEGAN es Para empezar, no se requiere entrenamiento de estabilización.

Adam utiliza hiperparámetros predeterminados durante el entrenamiento.

θD y θG son actualizados de forma independiente por optimizadores Adam independientes en función de sus respectivas pérdidas.

Normalmente utilizamos un tamaño de lote de n = 16.

3. Indicador de convergencia global:

Determinar la convergencia de las GAN es a menudo una tarea difícil porque la formulación original se define como un juego de suma cero.

Como resultado, una pérdida aumentó y otra disminuyó.

Usando el concepto de equilibrio, derivamos la medida global de convergencia: podemos enmarcar el proceso de convergencia como encontrar la reconstrucción más cercana L(x) (señal de salida del dispositivo de control) que minimice el valor absoluto de la instantánea. error de proceso del algoritmo de control proporcional La expresión matemática de la acción de control que está linealmente relacionada con la señal de entrada)|γL(x)-L(G(Zg))|. Esta medida consta de dos elementos y:

Esta medida se puede utilizar para determinar cuándo la red ha alcanzado su estado final o si el modelo ha colapsado, es decir, si el modelo ha convergido.

4. Arquitectura del modelo

Discriminador: R Nx-& gt; R Nx es una red neuronal profunda convolucional y su arquitectura es un codificador automático.

Nx = H × W × C es la abreviatura de x tamaño.

Donde h, w y c son alto, ancho y color.

Utilizamos codificadores automáticos y codificadores y decodificadores profundos. El objetivo es hacerlo lo más sencillo posible, evitando los típicos trucos de GAN.

La estructura se muestra en la Figura 1. Usamos una convolución de 3 × 3 y aplicamos unidades lineales exponenciales en su salida.

Repite cada capa varias veces (normalmente 2 veces). Observamos que cuantas más repeticiones, mejor es el efecto visual.

El filtro de convolución aumenta linealmente con cada reducción de resolución.

La reducción de resolución se implementa como submuestreo con un tamaño de paso de 2, y el aumento de resolución lo completan los vecinos más cercanos.

En el límite del codificador y decodificador, el tensor de los datos procesados ​​se asigna hacia y desde el estado de incrustación h ∈ RNh a través de la capa completamente conectada, donde Nh no tiene ninguna dimensionalidad de estados ocultos en no lineal. codificadores automáticos.

El generador G: RNz → RNx utiliza la misma arquitectura que el decodificador discriminador (aunque con pesos diferentes).

Pero por simplicidad. El estado de entrada es Z ∈ [-1, 1] NZ, muestreado uniformemente.

Esta arquitectura simple logra resultados de alta calidad y demuestra la solidez de la tecnología.

Además, el adelgazamiento opcional ayuda a la propagación del gradiente y produce imágenes más nítidas. Inspirándose en las redes residuales profundas [8], la red se inicializa con residuos que desaparecen: para capas consecutivas del mismo tamaño, la entrada de la capa se combina con su salida: inx+1 = carry×inx+(1 carry)×outx.

En el experimento, comenzamos desde carry = 1 y recorrimos 16.000 pasos.

Disminuye gradualmente hasta 0.

También introducimos conexiones de salto [8, 17, 9] para ayudar a la propagación del gradiente. El primer tensor del decodificador h0 se obtiene proyectando H a un tensor de 8 × 8 × n. Después de cada paso de muestreo ascendente, la salida se concatena con h0 muestreado a la misma dimensión.

Esto crea conexiones de salto entre los estados ocultos y cada capa de muestreo sucesiva del decodificador.

No hemos explorado otras técnicas comúnmente utilizadas en GAN, como la normalización por lotes, la eliminación, la convolución transpuesta o el crecimiento exponencial de filtros convolucionales, aunque pueden mejorar aún más estos resultados.

5. Comprender a través de experimentos

Cuando el valor de γ cambia, el efecto de comparación de diversidad y calidad de los resultados generados por el modelo es el siguiente, de lo cual se puede ver que

γ Los valores más pequeños producen imágenes más claras y cercanas.

Cuanto mayor sea el valor de γ, mayor será la diversidad, pero la calidad de la imagen también disminuirá.

La continuidad espacial de BEGAN es mejor que la de otras GAN:

A medida que el modelo converge, la calidad de la imagen también mejora.

En resumen, BEGAN ha realizado grandes mejoras en los problemas de dificultad en el entrenamiento de GAN, dificultad para controlar la diversidad de muestras generadas y dificultad en la convergencia de discriminadores y generadores equilibrados.

Artículos de referencia: Bertello D, Schum T, Metz L. Began: Boundary Equilibrium Generative Active Networks[J].arxiv:1703.5438+0075438+07,

2017