Texto original del documento de características kazajo (continuará)
El procesamiento de imágenes multiescala es una herramienta importante en la visión por computadora. Podemos extraer automáticamente puntos de detección de interés de diferentes espacios de escala. Se puede obtener un descriptor local invariante para cada punto de detección. Este algoritmo de funciones de múltiples escalas es muy importante en los marcos de visión por computadora modernos.
La idea básica de la multiescala es simple: aumentar el tiempo o la escala aplicando la función de filtrado adecuada a la imagen original, creando así un espacio de escala de la imagen. Por ejemplo, el espacio de escala gaussiano se implementa mediante convolución con un núcleo gaussiano que agrega desviación estándar a la imagen original. Para valores de kernel más grandes, obtenemos una representación de imagen más simple. Utilizando la representación de imágenes a múltiples escalas, podemos detectar y describir características de la imagen en diferentes espacios de escala y resoluciones. Algunos autores también han demostrado que, bajo algunos supuestos generales, el núcleo gaussiano y su conjunto de derivadas parciales son núcleos suaves para el análisis del espacio de escala. Sin embargo, cabe señalar que los espacios de escala gaussiana son sólo un ejemplo de difusión lineal, ya que también son posibles otros espacios de escala lineal.
El núcleo gaussiano puede ser la forma más sencilla de representar el espacio de escala de la imagen, pero no es la única. Sin embargo, también tiene algunas desventajas. En el espacio de escala gaussiana, la ventaja de elegir una escala gruesa es reducir el ruido y resaltar la estructura. El precio es una pérdida de precisión local. La razón es que el desenfoque gaussiano no preserva los límites naturales de los objetos y el ruido y los detalles de la imagen se suavizan por igual en todas las escalas. Cuanto mayor sea el desenfoque gaussiano, mayor será la pérdida de características de detección del área local en el espacio de escala gruesa.
Parece más apropiado adaptar el desenfoque localmente a los datos de la imagen, de modo que el ruido quedará borroso, pero los detalles o bordes seguirán siendo ineficaces. Para lograr esto, se proponen diferentes métodos espaciales de escala no lineales para mejorar el método espacial de escala gaussiano. En general, los métodos de difusión no lineal funcionan mucho mejor que los métodos de difusión lineal, logrando resultados impresionantes en diferentes aplicaciones como la segmentación de imágenes o la eliminación de ruido. Sin embargo, hasta donde sabemos, este artículo es el primero en utilizar un esquema eficiente para el filtrado de difusión no lineal en el contexto de la detección y descripción de características de múltiples escalas. El uso de tecnología de dispersión no lineal para detectar y describir regiones de la imagen a diferentes escalas a través del espacio de escala no lineal puede mejorar la repetibilidad y claridad de la imagen.
Una de las razones por las que el filtrado de difusión no lineal no se utiliza ampliamente en componentes prácticos de visión por computadora, como la detección y descripción de características, puede ser que la mayoría de los métodos son ineficientes. Estos métodos suelen implicar discretizar la función utilizando el método directo de Euler. El método de Euler requiere un tamaño de paso pequeño para converger, por lo que requiere múltiples iteraciones para alcanzar la escala requerida y es computacionalmente costoso. Weickert et al. introdujeron accidentalmente un esquema eficiente para el filtrado por difusión no lineal. Uno de los antecedentes de estos esquemas es el uso de tecnología de división de operadores aditivos (aos). Mediante el método AOS, se puede obtener un espacio de escala no lineal estable de cualquier tamaño de paso. Una cuestión clave en el formato AOS es resolver el sistema tridiagonal de ecuaciones lineales, lo que se puede lograr utilizando una variante especial del algoritmo de eliminación gaussiano: el algoritmo de Thomas.
Propuesto para realizar la detección y descripción automática de características en un espacio de escala no lineal. Presenta cómo utilizar la tecnología AOS eficaz y la dispersión de conductancia variable para construir un espacio de escala no lineal y cómo obtener características significativas y altamente repetibles bajo diferentes transformaciones de imagen. Evaluamos nuestras nuevas funciones en detalle en un marco de evaluación estándar, así como en aplicaciones de comparación de imágenes reales que utilizan superficies deformadas.
Nuestro tema se llama Kaze para rendir homenaje a Iijima, el padre del análisis espacial a escala.
Kaze es una palabra japonesa que significa viento. En la naturaleza, el viento se define como un flujo de aire a gran escala, a menudo controlado por procesos no lineales. Sobre esta base se simula el proceso de difusión no lineal en el dominio de la imagen. El resto de este artículo está organizado de la siguiente manera: en la Sección 2, describimos el trabajo relacionado. La tercera parte presenta brevemente los principios básicos del filtrado por difusión no lineal. La sección 4 describe en detalle el algoritmo de la característica Kaze. Finalmente, los resultados experimentales detallados y las conclusiones se dan en la Sección 5 y la Sección 6 respectivamente.
La detección y descripción de características es un área de investigación muy activa en visión por ordenador. En muchas aplicaciones diferentes, es muy importante obtener características que muestren una alta repetibilidad y singularidad bajo diferentes transformaciones de imagen (como punto de vista, desenfoque, ruido, etc.). Los algoritmos de descripción y detección de características de múltiples escalas más populares son la transformación de características invariantes de escala (SIFT) y las características robustas mejoradas rápidas (SURF).
Las funciones Sift son un hito en la detección de funciones y la coincidencia de imágenes, y todavía se utilizan ampliamente en robots móviles y reconocimiento de objetivos. En SIFT, los valores máximo y mínimo de la diferencia de resultados del operador gaussiano (DOG) se obtienen a través del espacio de escala gaussiano. Para establecer el espacio de escala, se calcula una pirámide de desenfoque gaussiano sobre la imagen original. El espacio de escala consta de diferentes sub y octavas. Para un conjunto de características detectadas, se construye un descriptor basado en las principales direcciones de gradiente en la región local de interés de los puntos clave detectados. Luego se define una cuadrícula rectangular que generalmente consta de subregiones de 4 × 4 (por dirección principal), se establece un histograma de dirección de gradiente ponderado por su tamaño y se obtiene un vector descriptor de 128 elementos.
Inspirándose en SIFT, Bay et al. propusieron descriptores y detección de surf. Las características de surf muestran mejores resultados en términos de repetibilidad, importancia y robustez, pero al mismo tiempo se pueden calcular más rápido debido al uso de imágenes integrales, lo que significa que las derivadas gaussianas a diferentes escalas se pueden calcular con una simple aproximación de filtros cuadrados sin tener que calcular todo el espacio de escala gaussiano. De manera similar a SIFT, se define una cuadrícula rectangular que consta de 4 × 4 subregiones (por dirección principal) y se calcula la suma de las respuestas de las wavelets HAAR (ponderadas gaussianas centradas en el punto clave de interés) para cada región. La dimensión del descriptor final suele ser un contador extendido de 64 o 128. Agrawal y Konolige mejoraron el surf mediante el uso de descriptores de detección envolvente central (CenSurE) y de surf modificado (m-surf). M-surf es una variante del descriptor de surf original, pero maneja mejor los efectos de límite del descriptor y adopta un esquema de ponderación gaussiano de dos etapas más robusto e inteligente.
Estos métodos y muchos algoritmos relacionados posteriores se basan en el espacio de escala gaussiano y el conjunto de derivadas gaussianas como núcleos suaves para el análisis del espacio de escala. Sin embargo, el espacio de escala gaussiana nuevamente no preserva los objetos ni suaviza los límites naturales, y maneja los detalles y el ruido por igual en todas las escalas. Mediante el filtrado de difusión no lineal, se pueden obtener características de múltiples escalas con mayor repetibilidad e importancia que los algoritmos anteriores basados en el espacio de escala gaussiano. Con un ligero aumento en el costo computacional en comparación con navegar o CenSurE, nuestros resultados muestran una gran mejora en el rendimiento en términos de detección y descripción de características.
El método de difusión no lineal describe el cambio en el brillo de la imagen con una escala creciente como la divergencia de ciertas funciones de flujo que controlan el proceso de difusión. Estos métodos a menudo se describen mediante ecuaciones diferenciales parciales no lineales (PDES) porque la naturaleza no lineal de las ecuaciones diferenciales involucradas extiende el brillo de la imagen a un espacio de escala no lineal. La ecuación 1 proporciona la fórmula clásica de difusión no lineal:
donde y representan las operaciones de divergencia y gradiente respectivamente.
Debido a la introducción de la función de transferencia, se hace posible la estructura local de imagen adaptativa de difusión. La función depende de la estructura diferencial local de la imagen y la función puede representar tanto escalares como tensores. El tiempo es un parámetro de escala; cuanto mayor sea el valor, más simple será la imagen. En este artículo, nos centraremos en la difusión conductiva variable, que utiliza la magnitud del gradiente de la imagen para controlar la difusión en cada nivel de escala.
En el campo de la visión por computadora, Perona y Malik mencionaron por primera vez el filtrado de difusión no lineal, que relaciona la función con la amplitud del gradiente. Para reducir la pérdida computacional en los bordes locales, se utilizan regiones más suaves en lugar de límites. De esta forma, la función se puede definir como:
donde representa el gradiente de la versión suavizada gaussiana de la imagen original. Perona y Malik describen dos ecuaciones diferentes para la función de transferencia:
donde este parámetro es el factor de contraste que controla el nivel de difusión.
Las características favorecen los bordes de alto contraste y las áreas grandes sobre las áreas pequeñas. Para las regiones donde la velocidad de difusión disminuye rápidamente, Weickert propuso una función de difusión ligeramente diferente: el suavizado en ambos lados del borde funciona mejor que el suavizado en el borde. El suavizado selectivo favorece el suavizado intrarregional sobre el desenfoque interregional. La función se llama y define de la siguiente manera:
El parámetro de contraste se puede elegir manual o automáticamente en función de alguna estimación del gradiente de la imagen. El parámetro de contraste determina si el gradiente debe mejorarse o suprimirse. En este artículo, utilizamos el valor empírico, que se establece en el 70% del histograma de los valores de gradiente de la versión suavizada de la imagen original. En nuestros experimentos, este valor empírico suele dar buenos resultados. Sin embargo, para algunas imágenes, analizar los parámetros de contraste con más detalle puede dar mejores resultados. La Figura 1 muestra las funciones de conducción para diferentes valores de parámetros en las ecuaciones de Perona y Malik. Generalmente, para valores más altos, sólo se consideran gradientes mayores.
No existe una solución analítica para las ecuaciones diferenciales parciales en el filtrado por difusión no lineal. Por tanto, es necesario utilizar métodos numéricos para aproximar las ecuaciones diferenciales. Un posible método de discretización de la ecuación de difusión es la llamada interpolación lineal o esquema semiimplícito. En la representación matricial vectorial, la discretización de la Ecuación 1 se puede expresar como:
donde está la matriz que codifica la conducción especular en cada dimensión. En el formato semiimplícito, es necesario resolver un sistema de ecuaciones lineales para poder calcular la solución. La solución de se puede obtener de la siguiente manera:
El formato semiimplícito es absolutamente estable para cualquier tamaño de paso. Además, crea un espacio de escala de difusión no lineal discreto para cualquier paso de tiempo grande. En el formato semiimplícito, es necesario resolver un sistema de ecuaciones lineales, donde la matriz del sistema es tridiagonal y diagonalmente dominante. El algoritmo de Thomas es una variante del famoso algoritmo de eliminación gaussiano para ecuaciones tridiagonales y puede resolver este tipo de ecuaciones de forma muy eficiente.
En esta sección, presentamos nuevos métodos para la detección y descripción de características en espacios de escala no lineales. Dada una imagen de entrada, utilizamos técnicas AOS y difusión de conducción variable para construir un espacio de escala no lineal hasta el tiempo máximo de evolución. Luego detectamos características 2D de interés a través de un espacio de escala no lineal que muestra el valor máximo del determinante normalizado de escala de la respuesta de Hesse. Finalmente, se calculan las direcciones principales de los puntos clave para obtener descriptores invariantes de escala y rotación que tengan en cuenta la primera derivada de la imagen. Ahora, describiremos cada paso importante de la fórmula.
Utilizamos un método similar a SIFT para discretizar el espacio de escala con pasos logarítmicos y organizarlo en una serie de niveles y capas. Tenga en cuenta que siempre usamos la resolución de la imagen original y no realizamos ninguna reducción de resolución en cada nuevo nivel como en SIFT. Los niveles y capas se identifican mediante superíndices y superíndices discretos. Los niveles y capas se asignan a sus escalas correspondientes mediante la siguiente fórmula:
dónde está el nivel de escala base y el número total de imágenes filtradas. Ahora necesitamos convertir el conjunto discreto de niveles de escala en unidades de píxeles en unidades de tiempo. La razón de esta conversión es que el filtrado por difusión no lineal está definido por un término de tiempo. En el caso del espacio de escala gaussiano, la convolución de la imagen con la desviación estándar gaussiana (en píxeles) equivale a filtrar la imagen durante un período de tiempo. Aplicamos esta transformación para obtener un conjunto de tiempos de evolución y transformamos el espacio de escala en unidades de tiempo mediante el siguiente mapeo:
Debe mencionarse aquí que usamos el mapeo solo para obtener un conjunto de tiempos de evolución a partir de los cuales Construimos un espacio de escala no lineal. En general, la imagen resultante no corresponde a la convolución de la imagen original con una desviación estándar gaussiana en el espacio de escala no lineal de cada imagen filtrada. Pero nuestro marco también es compatible con el espacio de escala gaussiano, porque podemos obtener la ecuación del espacio de escala gaussiano igualando la función de difusión a 1 (es decir, una función constante). Además, mientras evolucionemos en un espacio de escala no lineal, la función de transferencia de la mayoría de los píxeles de la imagen tiende a ser constante, excepto por los fuertes bordes de la imagen correspondientes a los límites de los objetos.
Dada una imagen de entrada, primero convolucionamos la imagen con un núcleo gaussiano con desviación estándar para reducir el ruido y posibles artefactos de la imagen. Con base en la imagen base, calculamos el histograma de gradiente de la imagen según el procedimiento automático descrito en la Sección 3.1 para obtener los parámetros de contraste.
Luego, dado un parámetro de contraste y un conjunto de tiempos de evolución, se usa intuitivamente un esquema AOS (que es absolutamente estable para cualquier tamaño de paso) para construir iterativamente un espacio de escala no lineal:
La Figura 2 muestra la comparación entre Espacio de escala gaussiano y espacio de escala no lineal (usando función de transferencia) en varios tiempos de evolución de la misma imagen de referencia. Se puede observar que el desenfoque gaussiano suaviza todas las estructuras de la imagen, mientras que en el espacio de escala no lineal, los bordes fuertes de la imagen permanecen sin cambios.
Para detectar puntos de interés, calculamos la respuesta del determinante normalizado de escala del Hesse en múltiples niveles de escala. Para la detección de características de múltiples escalas, es necesario normalizar el subconjunto de operadores diferenciales en esa escala, porque generalmente la amplitud de la derivada espacial disminuye con la disminución de la escala:
donde, son, respectivamente, el segundo derivada horizontal de orden y la derivada vertical, que son las derivadas cruzadas de segundo orden. Dado un conjunto de imágenes filtradas en un espacio de escala no lineal, analizamos la respuesta del detector en diferentes niveles de escala. Buscamos el máximo en escala y ubicación espacial. Realice una búsqueda de valores extremos en todas las imágenes filtradas excepto en la suma. Busque los extremos de cada imagen filtrada en una ventana rectangular de tamaños actual, superior e inferior. Para acelerar la búsqueda de valores extremos, primero examinamos las respuestas en una ventana de 3×3 píxeles para descartar rápidamente las respuestas no máximas. Finalmente, las ubicaciones de los puntos clave se estiman utilizando una precisión de subpíxeles.
Los conjuntos de derivadas de primer y segundo orden se aproximan mediante filtros de Scharr con diferentes pasos de derivada. La segunda derivada se aproxima utilizando un filtro Scharr continuo en la coordenada derivada deseada. Estos filtros están más cerca de la invariancia de rotación que otros filtros populares, como el filtro Sobel o el filtro de diferencia central estándar. Tenga en cuenta que, aunque necesitamos calcular derivadas de múltiples escalas para cada píxel, ahorramos esfuerzo computacional en el paso de descripción porque reutilizamos el mismo conjunto de derivadas calculadas en el paso de detección.
Encuentra la dirección principal de ataque. Para obtener un descriptor invariante de rotación, es necesario estimar la dirección dominante en un vecindario local centrado en la ubicación del punto clave. De manera similar a SURF, encontramos las direcciones principales dentro de un área circular de radio, con un paso de muestreo de. Para cada muestra en la región circular, la suma de la primera derivada se pondera utilizando un gaussiano centrado en el punto de interés. Luego, la respuesta derivada se representa como un punto en el espacio vectorial y la dirección principal se determina sumando la respuesta en un segmento de círculo deslizante que cubre ese ángulo. La dirección principal se obtiene del vector más largo.
Descriptor de compilación. El descriptor M-SURF que utilizamos está adaptado a nuestro marco de espacio de escala no lineal. Para funciones de detección con dimensiones, la suma de las primeras derivadas con dimensiones se calcula en una cuadrícula rectangular. La cuadrícula está dividida en subregiones de tamaño, con superposición de . Las respuestas derivadas en cada subregión se centran en el centro de la subregión, se ponderan mediante Gauss () y se suman en un vector descriptor. Luego, cada vector de subregión se pondera con Gaussian() y el vector de subregión se define en la máscara, centrado en el punto clave de interés. Al considerar la dirección principal del punto clave, cada muestra en la cuadrícula rectangular se rotará de acuerdo con la dirección principal. Además, las derivadas se calculan en función de las direcciones principales. Finalmente, los vectores descriptores de longitud 64 se normalizan a vectores unitarios para lograr la invariancia de contraste.