Explicación concisa de RFCN
Pero este disfrute * * * solo permanece en la primera parte de convolución RoIpooling y las siguientes partes no se disfrutan por completo, lo que puede considerarse como un "disfrute * * * parcial", lo que resulta en dos pérdidas: 1. Se pierde información y se reduce la precisión. 2. Debido a que las partes posteriores de la red no se comparten, el costo de tiempo de calcular repetidamente parámetros como la capa completamente conectada es demasiado alto. (Cabe agregar que la complejidad computacional de la capa completamente conectada es mayor que la de la capa completamente convolucional).
Por lo tanto, RFCN (red totalmente de convección basada en regiones) intenta mejorar el RCNN más rápido y FCN.
Pregunta 2.1
La primera pregunta es cómo mejorar el problema del disfrute incompleto.
FCN (red convolucional completa) mejora el * * * problema del disfrute incompleto, es decir, utiliza una capa convolucional completa para reemplazar la capa completamente conectada utilizada para la clasificación en la red troncal general, de modo que toda La estructura de la red se compone de convoluciones y consta de capas, por lo que se denomina red de volumen completo.
La segunda cuestión son los requisitos para la detección de objetivos.
Obviamente, el problema de detección de objetivos incluye dos subproblemas: el primero es determinar el tipo de objeto y el segundo es determinar la ubicación del objeto. Al determinar los tipos de objetos, queremos seguir siendo insensibles a la posición (es decir, podemos clasificar correctamente el objeto sin importar dónde aparezca) y sensibles a la posición (por supuesto, queremos poder determinar la ubicación del objeto independientemente de cómo sea la posición). cambios).
Estos dos requisitos parecen contradictorios y RFCN hizo un compromiso, que en realidad no es un compromiso. Es un problema de este tipo: sabemos que las redes totalmente convolucionales son muy fuertes en la extracción de características, por lo que son muy buenas para clasificar objetos. Sin embargo, las redes convolucionales ordinarias solo se centran en características y no en información de ubicación, por lo que no pueden usarse directamente. detección. Por lo tanto, RFCN introduce el concepto de "mapa de puntuación sensible a la posición" en la red FCN para garantizar la sensibilidad de la red totalmente convolucional a la posición del objeto.
Hablemos primero de la estructura y luego continuemos explicando la sensibilidad de esta posición en la estructura.
2.2 Estructura y proceso
La siguiente figura describe la estructura de RFCN. El proceso de detección de objetivos es el siguiente:
La imagen original se convoluciona para obtener la característica. map1, y una subred es como FastRCNN: use RPN para deslizarse en featuremap1 para generar propuestas regionales para respaldo, otra subred continúa con la convolución para obtener featuremap2 con una profundidad de k 2 (k = 3). Estos mapas de características2 se recopilan, califican y clasifican de acuerdo con el RoI (propuesta de región) generado por RPN para obtener el resultado de detección final.
La figura 3 a continuación muestra un reconocimiento sensible a la ubicación exitoso. Los nueve mapas de características en el medio de la Figura 3 son en realidad los nueve mapas de características en el lado izquierdo del diagrama de estructura sensible a la posición. Cada capa corresponde a una parte interesante del objeto. Por ejemplo, la posición en esta imagen representa la cabeza. del cuerpo humano. Por lo tanto, las respuestas para todas las posiciones se guardan una vez en la posición correspondiente en el lado derecho de la Figura 3 (C+1) (ya sea ahora media superior o ahora media superior, o ahora inferior izquierda o inferior izquierda), de modo que esa posición La sensibilidad se conserva.
Cuando las puntuaciones de las nueve casillas en el mapa de agrupación superan un cierto umbral, podemos creer que hay objetos en esta propuesta de área.
La Figura 4 a continuación muestra una detección fallida: porque la puntuación del mapa de agrupación en el cuadro rojo es demasiado baja.
Tercero, resumen
Lo anterior son las notas de la lectura de RFCN. Se puede observar que el aporte de RFCN es: 1. Presentamos FCN para lograr más parámetros y funciones de red * * * Disfrute (en comparación con RCNN más rápido) 2. Resuelva el problema de la sensibilidad de posición insuficiente de redes totalmente convolucionales (utilizando mapas de puntuación sensibles a la posición).
En comparación con el RCNN más rápido, otras estructuras no son muy diferentes (se conserva RPN, * * * disfrute de la extracción de características de con_Subnetwork de la primera capa).
Leí este artículo sin tener un conocimiento profundo de FCN, por lo que el siguiente paso es leer FCN y MaskRCNN, para que el método de detección de dos etapas pueda llegar a su fin primero.