GAN de aprendizaje de representación no entrelazada para reconocimiento facial invariante de pose
En este artículo, el autor se propone desentrañar el DR-Gan presentado por d. Como se muestra en la siguiente figura:
La siguiente figura es una comparación entre el GAN anterior y el DR-GAN propuesto por el autor:
DR-GAN tiene dos variantes, una es El modelo básico toma una imagen como entrada, que se llama DR-GAN de imagen única, y la otra es DR-GAN de múltiples imágenes, cuya entrada son varias imágenes.
En términos generales, GAN contiene un generador y un discriminador, los cuales compiten para maximizar y minimizar un problema. Intentará distinguir entre imágenes reales e imágenes generadas y, al mismo tiempo, intentará generar una imagen que parezca real para engañar. Como se muestra en la siguiente figura:
Existen dos diferencias obvias entre DR-GAN de imagen única y GAN tradicional.
Según la descripción anterior, podemos expresar este problema:
Dada una imagen de rostro: y su etiqueta:, la primera es la identificación y la segunda es el gesto. Nuestros objetivos son: 1. Aprenda la representación de rasgos faciales independientes de los gestos; 2. Sintetice una imagen de rostro con la misma identificación pero con diferentes poses. Además, aquí hay una red CNN de objetivos múltiples, que consta de dos partes:
Es decir, dada una imagen de rostro ingresada, se generará su ID y pose, y dada una cara generada, intentará predecir que es falsa. La siguiente fórmula:
Al mismo tiempo, contiene un codificador y un decodificador. El codificador genera una representación característica de la imagen de la cara de entrada: y el decodificador genera la imagen de la cara generada: donde están la pose y el ruido del objetivo. La siguiente fórmula:
Como se muestra a continuación, varias imágenes son iguales, pero diferentes.
Cabe destacar que todos * * * comparten un conjunto de parámetros.