¿En qué características se basa el reconocimiento facial de opencv?
El método basado en características es un método de detección de rostros de abajo hacia arriba. Debido a que el ojo humano puede tratar los rostros de manera diferente, los investigadores creen que existe una hipótesis subyacente de que los rostros o partes de los rostros pueden tener características o atributos que no cambian bajo diversas condiciones, como la forma, el color de la piel, la textura y la información de los bordes. El objetivo de los métodos basados en características es encontrar estas características invariantes y utilizarlas para localizar caras. Este método es muy eficaz, tiene una velocidad de detección rápida en entornos específicos y es insensible a la postura, expresión y rotación facial. Sin embargo, dado que la extracción de partes de la cara generalmente depende de operadores de bordes, este tipo de método tiene requisitos más altos en cuanto a calidad de imagen, iluminación y fondo, porque es probable que la iluminación, el ruido y las sombras destruyan los bordes de la parte de la cara, afectando así la efectividad. del algoritmo.
El algoritmo de coincidencia de plantillas requiere primero el carácter TN como plantilla estándar (plantilla fija) o primero se parametriza la plantilla (plantilla variable). Luego, al detectar una cara, se calcula el valor de correlación entre la imagen de entrada y la plantilla, que suele ser una descripción completa obtenida calculando de forma independiente la coincidencia del contorno de la cara, los ojos, la nariz y la boca. Finalmente, se determina si hay una cara en la imagen en función del valor de correlación y el umbral preestablecido. Los algoritmos de detección de rostros basados en plantillas variables son mucho mejores que los algoritmos de plantilla fija, pero aún no pueden manejar de manera efectiva los cambios en la escala, la pose y la forma de la cara.
Los métodos basados en la forma de la apariencia no requieren un preprocesamiento complejo de las imágenes de entrada, ni requieren un análisis manual de los rasgos faciales o la extracción de plantillas. En cambio, se utilizan métodos específicos (como el análisis de componentes principales (PCA), la máquina de vectores de soporte (SVM), el método de red neuronal (ANN), etc.) para entrenar una gran cantidad de muestras faciales y no faciales (generalmente no faciales). conjuntos de muestras La capacidad es más del doble que la del conjunto de muestras faciales para garantizar la precisión del detector entrenado). Por lo tanto, éste también es un enfoque ascendente. La ventaja de este método es que utiliza un potente algoritmo de aprendizaje automático para lograr buenos resultados de detección de forma rápida y estable, y también puede obtener resultados de detección efectivos en imágenes de rostros de múltiples poses bajo fondos complejos. Sin embargo, este método generalmente requiere recorrer toda la imagen para obtener resultados de detección y requiere una gran cantidad de muestras de rostros y no rostros y un largo tiempo de entrenamiento durante el proceso de entrenamiento. En los últimos años, la investigación sobre detección de rostros basada en este método ha sido relativamente activa.
Método de reconocimiento facial basado en características algebraicas
En el reconocimiento facial basado en características algebraicas, cada imagen de rostro se considera como un elemento de píxeles en escala de grises, donde se representan los rasgos de un rostro humano. por características de datos que reflejan ciertas propiedades. Suponemos una imagen de rostro), (y x I es una imagen bidimensional N M × en escala de grises, que también se puede ver como N M. No todas las partes del espacio contienen información valiosa, por lo que, en términos generales, estos puntos en un espacio tan grande necesitan para ser mapeado a un espacio dimensional inferior a través de algunas transformaciones, y luego a través de algunas proyecciones de imágenes en el medio. Las medidas para determinar la similitud entre imágenes, las más comunes son varias medidas de distancia basadas en características algebraicas, análisis de componentes principales (. PCA) y el análisis discriminante lineal de Fisher (LDA) son los métodos más estudiados. Este capítulo presenta brevemente PCA.
La aplicación del reconocimiento facial completo de PCA (Análisis de Componentes Principales) incluye cuatro pasos: preprocesamiento de imágenes faciales; base de datos y entrenamiento para formar un subespacio de características; combinando la imagen de entrenamiento y la imagen de prueba se proyecta en el subespacio obtenido en el paso anterior; se selecciona una determinada función de distancia para el reconocimiento. La descripción detallada es la siguiente:
La base de datos de rostros después de la normalización, cada persona en la base de datos selecciona una cierta cantidad de imágenes para formar un conjunto de entrenamiento. Deje que las imágenes normalizadas sean n × n y conéctelas. columnas para formar un vector de n2 dimensiones, que puede considerarse como un espacio de n2 dimensiones. Un punto en. Esta imagen se puede describir mediante la transformación K-L mediante un subespacio de baja dimensión.
4.2 Calcule la generación. matriz de transformación k.l.
La matriz de dispersión total del conjunto de muestras de entrenamiento es la matriz generadora, es decir,
o escriba:
donde, xi es el vector imagen del I-ésima muestra de entrenamiento, |l es el vector promedio de muestras de entrenamiento y m es el número total de muestras de entrenamiento. Para encontrar los valores propios y los vectores propios normalizados ortogonales de una matriz dimensional n2 × n2, la cantidad de cálculo es demasiado grande, por lo que se introduce el teorema de descomposición de valores singulares para resolver problemas de alta dimensión.
4.3 Utilice el teorema de descomposición de valores singulares (AVD) para calcular los valores propios y vectores propios de la imagen.
Supongamos que A es una matriz n × r-dimensional con rango R, entonces hay dos matrices ortogonales y matrices diagonales:
Entre ellas, estas dos matrices ortogonales y diagonales La matriz satisface la siguiente fórmula:
dónde está el valor propio distinto de cero de la matriz,
4.4 Proyecte las imágenes de entrenamiento y las imágenes de prueba en el espacio de características, y proyecte cada par de imágenes de caras en Subespacio de cara característica, obtenga un conjunto de coeficientes de coordenadas, correspondientes a un punto en el subespacio. Asimismo, cualquier punto del subespacio también corresponde a una subimagen. Este conjunto de coeficientes se puede utilizar como base para el reconocimiento facial, es decir, los rasgos faciales característicos de esta imagen facial. Es decir, cualquier imagen de rostro se puede expresar como una combinación lineal de este conjunto de rostros propios. Cada coeficiente ponderado es el coeficiente de expansión de la transformación K.L, que se puede utilizar como característica de identificación de la imagen para representar la posición de la imagen. en el subespacio, y también es un vector.
Se puede utilizar para la detección de rostros. Si es mayor que un cierto umbral, F puede considerarse una imagen de rostro; de lo contrario, no lo es. De esta manera, el problema original del reconocimiento de imágenes faciales se transforma en un problema de clasificación basado en puntos de muestra de entrenamiento en el subespacio.
Método de reconocimiento facial basado en mecanismo de conexión
Los métodos de reconocimiento representativos basados en mecanismo de conexión incluyen redes neuronales y métodos de coincidencia elástica.
Las redes neuronales han sido un punto de investigación en el campo de la inteligencia artificial en los últimos años. La extracción y el reconocimiento de rasgos faciales basados en la tecnología de redes neuronales son una dirección de investigación activa. Las redes neuronales forman un sistema complejo a través de una gran cantidad de neuronas simples conectadas entre sí, y han logrado buenos resultados en el reconocimiento facial, especialmente en imágenes frontales de rostros. Las redes neuronales de uso común incluyen redes BP, redes convolucionales, redes de funciones de base radial, redes autoorganizadas y redes neuronales difusas. La red BP tiene una pequeña cantidad de cálculo y un consumo de tiempo corto, y su función adaptativa mejora la robustez del sistema. En comparación con otros métodos, las redes neuronales pueden obtener expresiones implícitas de reglas de reconocimiento, pero sus desventajas son un largo tiempo de entrenamiento, una gran cantidad de cálculos, una velocidad de convergencia lenta y una fácil caída en mínimos locales. Gutta et al. utilizaron un modelo de clasificador híbrido que combinaba RBF y clasificadores de árbol para el reconocimiento facial. Lin et al. utilizaron muestras virtuales para el aprendizaje por refuerzo y desrefuerzo, y adoptaron una estructura de red modular para acelerar el aprendizaje, implementando un método de red neuronal basado en la toma de decisiones probabilística y logrando resultados ideales. Este método se puede aplicar a todos los pasos de la detección y el reconocimiento de rostros. El método de coincidencia elástica utiliza un gráfico de topología de atributos para representar caras. Cada vértice del gráfico de topología contiene un vector de características para registrar la información de características de la cara alrededor de la posición del vértice. Los vértices del mapa topológico están representados por la transformada wavelet, que tiene cierta adaptabilidad a la luz, el ángulo y el tamaño, y puede adaptarse a cambios en la expresión y el ángulo de visión. Teóricamente mejora algunas deficiencias del algoritmo de cara propia.
Método de reconocimiento facial basado en datos tridimensionales
Un sistema completo de reconocimiento facial incluye tres partes: recopilación de datos faciales, análisis y procesamiento de datos y salida del resultado final. La Figura 2-1 muestra los pasos básicos del reconocimiento facial 3D: 1. Obtener la información de la forma 3D del rostro a través del equipo de recopilación de datos 3D. 2. Preprocesar los datos 3D obtenidos, como suavizar la eliminación de ruido y extraer el área facial; rasgos faciales a partir de datos tridimensionales y compararlos con los datos en la base de datos de rostros 4. Utilice el clasificador para realizar juicios de clasificación y generar el resultado de la decisión final;
Los métodos representativos basados en datos tridimensionales incluyen el método de síntesis de modelos y el método de curvatura.
La idea básica del método basado en la síntesis de modelos es: ingresar una imagen facial bidimensional, usar alguna tecnología para restaurar (o restaurar parcialmente) la información tridimensional de la cara y luego volver a sintetizar la imagen de la cara en condiciones específicas. Los ejemplos típicos incluyen modelos deformables en 3D y algoritmos de reconocimiento facial mejorados en 3D basados en la recuperación de formas.
El modelo deformable 3D primero construye un modelo de rostro 3D deformable a partir de 200 modelos de rostro 3D de alta precisión, utiliza este modelo para ajustar una imagen de rostro determinada para obtener un conjunto específico de parámetros y luego sintetiza una pose arbitraria e ilumina imágenes de rostro. El algoritmo de reconocimiento facial mejorado en 3D basado en la recuperación de formas utiliza un modelo facial 3D general para sintetizar una nueva imagen facial. El proceso de síntesis cambia ciertas condiciones de postura y fuente de luz.
La curvatura es la característica local más básica que expresa información de la superficie. Por lo tanto, la curvatura de la superficie de la cara se utilizó por primera vez para procesar el reconocimiento facial tridimensional. Lee y lJ utilizaron valores de curvatura promedio y curvatura gaussiana para segmentar regiones convexas en mapas de profundidad de caras.
Si eres desarrollador, puedes consultar Tel y colorreco para obtener mejores respuestas técnicas.