Problema de detección de objetivos a múltiples escalas
En primer lugar, necesitamos saber por qué la precisión del modelo se reduce debido a la gran diferencia de tamaño de los objetos medidos. La red troncal de varios modelos en el campo de la detección de objetos no es más que utilizar convolución multicapa para extraer paso a paso la información de profundidad de la imagen, generar mapas de características multicapa y realizar procesamientos adicionales, como el posicionamiento y la clasificación. en los mapas de características de profundidad.
En este proceso de extracción de características "de superficial a profundo", las características superficiales tienen alta resolución y pueden contener ricos detalles geométricos, pero el campo receptivo es pequeño y carece de información semántica. Por el contrario, las características profundas tienen un gran campo receptivo y rica información semántica, pero la resolución no es alta y es difícil transportar detalles geométricos. En este momento, si el modelo continúa profundizándose, aparecerá un gran campo receptivo en las características ultraprofundas y la información semántica del objeto medido se diluirá y reducirá por la información ambiental circundante.
¿Qué sucede si los datos de entrenamiento contienen sujetos muy grandes y muy pequeños?
Como se muestra en la figura anterior, suponiendo que el modelo 1 * * * tiene 100 capas, la información detallada de los objetivos grandes y pequeños disminuirá a medida que el número de capas del modelo sea más profundo. Para la información semántica, debido a la pequeña escala de los objetivos pequeños, a medida que aumenta el número de capas del modelo (aumenta el número de muestreo reducido), la información semántica se puede extraer en la capa 25 y luego, a medida que el número de capas continúa aumentando, La información semántica de objetivos pequeños se diluirá rápidamente con la información ambiental. Para objetivos grandes, pueden ser necesarias 50 capas para extraer suficiente información semántica, pero en este momento la información semántica de objetivos pequeños casi se ha perdido.
Entonces, ¿la profundidad de esta red debería establecerse en 25 capas, 50 capas o 37 capas? Establecer 25 capas tiene un buen efecto de detección para objetivos pequeños, pero una capacidad de detección deficiente para objetivos grandes es lo contrario; las capacidades de detección de los dos tipos de objetivos están relativamente equilibradas en el nivel de 37, pero ninguno de los dos está en el nivel óptimo; estado de detección. Ésta es la raíz del problema de detección de objetos "multiescala".
Las siguientes son varias estrategias comunes para reducir la precisión debido al escalado excesivo.
Una colección de múltiples imágenes con diferentes resoluciones generadas a partir de la misma imagen, de grande a pequeña, es la pirámide de imágenes. Se puede obtener una pirámide de imágenes reduciendo continuamente la resolución de una imagen hasta que alcance una determinada condición de terminación. Este proceso puede parecer simple, pero puede interpretar imágenes de manera efectiva desde una perspectiva de múltiples resoluciones. La base de la pirámide de imágenes es una representación de alta resolución de la imagen que se va a procesar, mientras que la parte superior es una aproximación de baja resolución de la imagen.
El proceso de utilizar la pirámide de imágenes para resolver el problema de "grandes cambios en la escala del objeto medido, lo que da como resultado una precisión reducida del modelo" puede verse como: después de que una imagen se procesa en una pirámide de imágenes, A medida que cambia el nivel de la pirámide, un solo objeto medido. Los objetos también vienen en una variedad de escalas, de grande a pequeña. Después de pasar estas imágenes de diferentes escalas al modelo, incluso si el modelo solo es bueno para identificar objetos dentro de un cierto rango de escala, no importa cuán grande o pequeño sea el objeto medido, una determinada capa de la pirámide siempre se puede escalar a el rango de escala en el que el modelo es bueno para procesar. Considere los pros y los contras del enfoque de la pirámide de imágenes.
Aunque este método de procesamiento resuelve el problema de los cambios a gran escala en el objeto medido mediante la extracción de características a múltiples escalas, aumentará en gran medida el uso de memoria y traerá dificultades al entrenamiento de redes complejas. Aumentará en gran medida la complejidad computacional del modelo, lo que dará como resultado un tiempo de inferencia del modelo más prolongado.
La jerarquía de funciones de la pirámide se puede ver como una pirámide de imágenes basada en funciones. Generalmente, el mapa de características poco profundo del modelo es más grande. Posteriormente, la convolución de stride = 2 o pool se usará gradualmente para reducir el tamaño del mapa de características tanto el mapa de características más grande en el frente como el mapa de características más pequeño en el. La parte posterior se puede utilizar para la detección.
El modelo de detector único (SSD) intenta utilizar niveles de funciones piramidales. Los mapas de características en la "capa de características adicionales" de SSD se reducen varias veces para formar cuatro mapas de características de diferentes escalas. Estos cuatro mapas de características luego se usan repetidamente en el proceso de propagación hacia adelante para predecir respectivamente, por lo que la "capa de características piramidal" ". No aumentará la carga computacional del modelo y puede considerarse como un costo computacional cero.
Pero al mismo tiempo, en lugar de reutilizar los mapas de características en VGG-Base, SSD agrega varias capas nuevas después de la capa superior de la red para construir la pirámide, perdiendo así la oportunidad de reutilizar mapas de características con mayor resolución en la capa de características. , pero estos mapas de características de mayor resolución son muy importantes para detectar objetivos pequeños.
El nombre completo de FPN es red piramidal de características, es decir, "red piramidal de características", y su estructura general se muestra en la figura anterior. FPN es una estructura de red que utiliza el mapeo de características multiescala inherente de redes neuronales convolucionales profundas para construir una pirámide de características con información semántica de alto nivel en diferentes escalas con cálculos adicionales mínimos mediante la adición de conexiones laterales y muestreo ascendente.
Para el modelo de detección de objetivos, la estructura FPN no es un módulo independiente en el modelo, sino que está integrada en la red neuronal convolucional como un elemento adicional de la columna vertebral original. La estructura de FPN se puede dividir en dos líneas principales: ruta de abajo hacia arriba y ruta de arriba hacia abajo y conexiones laterales. Aquí, usaremos ResNet como columna vertebral original para explicar cómo funciona la estructura FPN.
La ruta ascendente es la ruta ascendente, es decir, la estructura en el lado izquierdo del diagrama de estructura FPN, que es equivalente a la red troncal estándar ResNet. Primero, revise la estructura de la red ResNet:
El tamaño de entrada original de la red ResNet18 es (224x224), luego pasa a través de la capa convolucional o capa de agrupación con stride=2, escalando gradualmente el tamaño del mapa de características a (112x 112), (56x56), (28x28), (14x14) y (7x7) (ignorando la última agrupación promedio, Fc y Softmax. En este momento, la salida de cada bloque se puede etiquetar como {C1, C2, C3). , C4, C5} en secuencia.
Las rutas de arriba hacia abajo y las conexiones horizontales se pueden dividir en "rutas de arriba hacia abajo" y "conexiones horizontales", es decir, la estructura en el lado derecho de la FPN. El diagrama de estructura se puede expresar como:
Regla de operación 1: tome la salida de nivel superior C5 (tamaño = 7x7) de la ruta de abajo hacia arriba izquierda a través de una conexión horizontal y ajuste el número de canal mediante la convolución 1x1 ( este número de canal se ajusta a 256 en este artículo, para cálculos posteriores de RCNN más rápido), el resultado es la capa superior de la ruta de arriba hacia abajo y la estructura de conexión lateral, que se puede marcar como M5 (.
Regla de operación 2: tome la salida izquierda C4 a través de la conexión lateral (tamaño = 14x14), duplique el M5 obtenido mediante muestreo adicional (tamaño = 14x14) a través de la interpolación del vecino más cercano, y luego agregue C4 y el resultado muestreado adicionalmente, el resultado se puede marcar como M4 (tamaño = 65438)
Con Por analogía, M3 (tamaño = 28x28) y m2 (tamaño = 56x56) se pueden calcular más tarde (M1 está teóricamente disponible, pero C1 solo se obtiene convolucionando la imagen original una vez, por lo que casi no hay información semántica, por lo que generalmente no se calcula) Una vez completada la operación, el diagrama de estructura se puede expresar como:
Los resultados obtenidos en los pasos anteriores se pueden marcar como { M2, M3, M4, M5}, pero este no es el resultado final debido al proceso de muestreo ascendente. El efecto de alias producido afectará las predicciones posteriores, por lo que es necesario realizar una convolución de 3 × 3 en todos los mapas de características obtenidos mediante el muestreo ascendente. para eliminar el impacto del efecto de alias y obtener el resultado de salida final, que se puede marcar como {P2, P3, P4, P5}. Dado que M5 no se obtiene mediante muestreo ascendente, solo es necesario convolucionar {M2, M3, M4}.
La figura anterior muestra todo el proceso de cálculo de la estructura FPN. /p>
La mejora de datos es la forma más sencilla y eficaz de mejorar el rendimiento de la detección de objetivos pequeños. amplíe el tamaño del conjunto de datos de entrenamiento y enriquezca la diversidad del conjunto de datos, mejorando así la solidez y generalización del modelo de detección. Los métodos comunes de mejora de datos se muestran en la siguiente figura:
Aunque los datos. La estrategia de mejora resuelve hasta cierto punto el problema de la falta de información, características de apariencia y textura de objetivos pequeños, mejora efectivamente la capacidad de generalización de la red, logra buenos resultados en el rendimiento de detección final, pero también trae un aumento en el cálculo. Además, en aplicaciones prácticas, las estrategias de mejora de datos mal diseñadas pueden introducir nuevo ruido, dañando el rendimiento de la extracción de características, lo que también plantea desafíos al diseño del algoritmo.
El método de aprendizaje generativo adversarial tiene como objetivo mapear las características de objetivos pequeños de baja resolución en características equivalentes a objetivos de alta resolución, logrando así el mismo rendimiento de detección que objetivos más grandes.
Aunque la mejora de datos, la fusión de características y el aprendizaje de contexto mencionados anteriormente pueden mejorar efectivamente el rendimiento de la detección de objetivos pequeños, las ganancias de rendimiento que aportan estos métodos a menudo están limitadas por la sobrecarga computacional. Por ejemplo, Noh et al propusieron un nuevo método de superresolución a nivel de característica que utiliza convolución de huecos para mantener el mismo tamaño de campo receptivo entre las características objetivo de alta resolución generadas y las características de baja resolución generadas por el extractor de características, evitando así. el problema de El problema de las funciones de superresolución incorrectas causadas por una falta de coincidencia del campo receptivo.
"FPN es una estructura de red que utiliza el mapeo de características multiescala inherente de redes neuronales convolucionales profundas para construir información semántica de alto nivel en diferentes escalas con cálculos adicionales mínimos mediante la adición de conexiones laterales y muestreo ascendente. La estructura de la pirámide de características."
1. Comparación entre FPN y la red neuronal convolucional estándar con salida de mapa de características únicas: la red neuronal convolucional con salida de mapa de características únicas solo genera el último mapa de características, lo que fácilmente pierde información detallada de objetivos pequeños.
2. En comparación con la pirámide de imágenes, la estructura FPN utiliza el mapa de características multiescala inherente de la red neuronal convolucional profunda y no requiere escalado multinivel de la imagen original, lo que reduce en gran medida la cantidad de imágenes. cálculo.
Comparación entre 3.3. Estructura FPN y capa de características piramidales: la capa piramidal en SSD no utiliza el mapa de características subyacente en la red troncal original, lo que resulta en la pérdida de información detallada. El mapa de características se genera directamente mediante el proceso de propagación directa, por lo que la información semántica. del mapa de características profundas no se puede comparar con la combinación de información estructural superficial. Sin embargo, FPN no solo retiene la información detallada del mapa de características subyacente, sino que también fusiona información semántica profunda con detalles geométricos superficiales a través de una estructura "de arriba hacia abajo".
En resumen, FPN complementa la dirección del flujo de datos "de arriba hacia abajo" basándose en la dirección del flujo de datos "de abajo hacia arriba" de las redes neuronales convolucionales estándar a través de conexiones horizontales. Esta estructura puede enriquecer eficazmente la información semántica contenida en el mapa de características subyacente. La pirámide de la estructura FPN se calcula mediante Conv2, lo que hace que los detalles geométricos subyacentes sean particularmente ricos, especialmente la información de posición de objetivos pequeños, lo que es útil para mejorar la tasa de recuperación. de objetivos pequeños.
1. Mejora de la copia: Kisantal M, Wojna Z, Murawski J, et al. Detección mejorada de objetos pequeños [EB/OL (2019?02?19)[2019?02?19]. Detección de objetos [C] // Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones. Nueva York: IEEE, 2017:2117-2125.
8. Pirámide de imágenes: Adelson e h, Anderson c h, Bergen j r, et al. Método de la pirámide en el procesamiento de imágenes [j]. >
9. Zou Zhong, Zhong, Guo Yong, et al. Una revisión de 20 años de detección de objetivos [EB/OL (2019?05?13)[2019?05?16]. arxiv.org/abs/1905.05055.[Baidu Académico]