La Red de Conocimientos Pedagógicos - Currículum vitae - Notas en papel de RFBnet

Notas en papel de RFBnet

Dirección del documento:/ruinmessi/RFBNet

Dice principalmente que la detección de objetivos actual con mejor rendimiento se basa principalmente en redes profundas (como Resnet, Inception), y sus desventajas son una gran cantidad de cálculos y una velocidad lenta. . Algunas redes ligeras son más rápidas, pero tienen una precisión de detección relativamente baja. El autor propuso el módulo RFB y lo agregó a la capa superior del SSD para construir RF Ethernet.

Para construir un detector rápido y potente, una alternativa razonable es mejorar la representación de características de redes livianas mediante la introducción de algunos mecanismos hechos a mano en lugar de profundizar ciegamente el modelo.

Descripción de la estructura de RFBnet

Pass

RFB es en realidad un bloque de convolución de múltiples ramas y su estructura interna consta de dos partes:

1. La primera parte es consistente con el inicio y es responsable de simular pRF multidimensional.

2. La segunda mitad reproduce la relación entre pRF y excentricidad en la visión humana.

La siguiente figura muestra la RFB y su correspondiente mapa espacial del área de la piscina.

Específicamente, primero adoptamos una estructura de cuello de botella en cada rama, que consta de una capa de conversión 1 × 1, para reducir la cantidad de canales en el mapa de características y agregar n × n capas de conversión. En segundo lugar, reemplazamos la capa de conversión de 5 × 5 con dos capas de conversión apiladas de 3 × 3 para reducir los parámetros y capas no lineales más profundas. De la misma manera, reemplazamos la capa de conversión n×n original con una capa de conversión 1×n más n×1. Finalmente, aplicamos el diseño de acceso directo de ResNet e Inception-ResNet V2.

También conocida como capa convolucional astrosa, la intención básica de esta estructura es generar mapas de características de mayor resolución y capturar más contexto en un área más grande manteniendo la misma cantidad de parámetros.

La siguiente figura muestra dos combinaciones de capas convolucionales de múltiples ramas y capas convolucionales o de agrupación dilatada.

El detector de red RFB propuesto reutiliza el marco de múltiples escalas y de una sola etapa de SSD, en el que está integrado el módulo RFB para mejorar las características extraídas de la columna vertebral liviana, lo que hace que el detector sea más preciso y aún más rápido. suficiente. Dado que las características de RFB se pueden integrar fácilmente en CNN, podemos preservar la arquitectura SSD tanto como sea posible. La modificación principal es reemplazar la capa convolucional superior con RFB.

Utiliza exactamente la misma red troncal que los SSD. En resumen, VGG16 está preentrenado en el conjunto de datos ILSVRC CLS-LOC, donde las capas fc6 y fc7 se convierten en capas convolucionales con parámetros de submuestreo, y su capa pool5 se cambia de 2 × 2-s2 a 3 × 3-s1. Las capas convolucionales de agujeros se utilizan para rellenar los agujeros y todas las capas eliminadas, y se elimina la capa fc8.

Se mantiene la misma estructura en cascada SSD, pero las capas convolucionales con mapas de características de resolución relativamente grande se reemplazan por módulos RFB. En la versión principal de RFB utilizamos una configuración estructural única para simular los efectos de la excentricidad. Explotando las diferencias en el tamaño de pRF y la excentricidad entre imágenes visuales, ajustamos los parámetros de RFB en consecuencia para formar el módulo RFB-s, que simula el pRF más pequeño en mapas de retina humana poco profundos, y lo colocamos en conv4 3 After características. Por ejemplo, la última capa convolucional se conserva porque la resolución de su mapa de características es demasiado pequeña para aplicar filtros con núcleos grandes (por ejemplo, 5 × 5).

Train sigue principalmente SSD, incluida la mejora de datos, la minería negativa dura, la relación de fotogramas y la relación de aspecto predeterminadas y funciones de pérdida (como la pérdida suave de L1 para posicionamiento y la pérdida softmax para clasificación). Al mismo tiempo, cambiamos ligeramente nuestro cronograma de aprendizaje para adaptarlo mejor a RFB. Se dan más detalles en la sección experimental a continuación. Inicialice todas las capas de conversión nuevas utilizando el método MSRA.

A continuación se describen principalmente los resultados de la investigación. En comparación con otras redes, sin entrar en demasiadas descripciones, se agregarán más detalles sobre RFBnet más adelante.