Sobre las diversas decepciones del rostro humano
Para aprender mejor las características, este artículo propone que tanto el reconocimiento como la verificación son objetivos de entrenamiento, es decir, se utiliza una combinación de dos pérdidas para que las características aprendidas no solo se puedan usar para la clasificación, sino también para la clasificación. También se puede utilizar para determinar si es la misma persona. Por lo tanto:
El identificador que falta se usa para determinar a qué categoría pertenece y softmax se usa para calcular la probabilidad:
El autor también usa la similitud del coseno, de la siguiente manera:
p>
Algoritmo de entrenamiento de la siguiente manera:
Obviamente, el algoritmo necesita seleccionar dos muestras a la vez.
Este artículo propone tres factores importantes que afectan la efectividad de las redes neuronales: escasez, selectividad y robustez.
El autor propuso DeepID2+, como se muestra a continuación:
Este artículo cuestiona la distancia euclidiana comúnmente utilizada. En tareas de clasificación comunes, procesaremos las características y finalmente obtendremos la puntuación de cada categoría a través de una capa fc. La clase con la puntuación más alta es la que predijimos. Suponiendo una tarea de clasificación binaria, el límite de la clasificación es:. Esto incluye los parámetros de la capa de clasificación.
Si la longitud normalizada es 1, se establecerá en . El límite se convierte en:, donde es el ángulo entre y. Como se muestra en la siguiente figura:
El autor de este artículo normalizó las características y parámetros de la capa de clasificación (FC), pero descubrió que después de múltiples rondas de entrenamiento, la red aún no convergía. Por ello, los autores exploran las causas de este fenómeno y proponen un método para entrenar esta red.
El autor respondió las siguientes preguntas:
Respuesta:
En este artículo, el autor utilizó el siguiente método de normalización para características y parámetros:
El gradiente es el siguiente:
Los autores estudiaron el aprendizaje métrico regularizado, como la pérdida contrastiva y la pérdida triplete. Después de la regularización, el producto interno se puede considerar como la distancia euclidiana, de la siguiente manera:
// TODO
Esta pérdida tiene algunas desventajas, es decir, no tiene ningún impacto en las muestras negativas. dentro del límite. Como se muestra en la siguiente figura:
Los puntos rojos en la sombra son puntos que no se ven afectados por la pérdida.
L-softmax diseña una nueva capa de clasificación para mejorar el rendimiento de la expresión de características. Como se muestra en la siguiente figura:
En este artículo, el autor utiliza una red neuronal (Inception, ResNet, etc.) como extractor de características y entrena las características de salida con pérdida triplete. Esta estructura no requiere una capa de clasificación y el modelo será pequeño.
Triple pérdida:
La pérdida de ArcFace es la siguiente:
Hay muchos artículos sobre caras y métricas que no he leído con atención, incluso estas introducciones. No entendí completamente el artículo. Para aprender características discriminativas en el reconocimiento facial a gran escala, es necesario hacer muchas cosas. Una pérdida aún más efectiva: si la selección de parámetros no es buena, es probable que el efecto no sea tan bueno como el fc normal.