Papeles Yolo
? Actualmente, en el campo de la detección de objetivos, los modelos de alta precisión suelen requerir una gran cantidad de parámetros y cálculos, mientras que las redes ligeras generalmente sacrifican la precisión. Por lo tanto, este artículo espera construir un marco de detección escalable, de alto rendimiento y de alta precisión. Basado en el paradigma de la red de detección de una etapa, este artículo intenta construir una variedad de redes troncales para la fusión de características y la predicción de clase/caja. Esto enfrenta principalmente dos desafíos:
? FPN es actualmente el método de fusión de múltiples escalas más utilizado y recientemente existen métodos de fusión de características de escala cruzada como PANet y NAS-FPN. Para fusionar diferentes características, el enfoque inicial fue una simple suma directa. Sin embargo, debido a las diferentes resoluciones de las distintas funciones, el disfrute de las funciones de salida fusionadas debería ser desigual. Para resolver este problema, se propone una red piramidal de características bidireccionales ponderadas (BIFPN) simple y eficiente, que utiliza pesos aprendibles para aprender la importancia de diferentes características mientras realiza repetidamente múltiples procesos de fusión de escala de arriba hacia abajo y de abajo hacia arriba.
? El artículo cree que, además de escalar la red troncal y la resolución de la imagen de entrada, escalar la red de características y la red de predicción de caja/clase también es muy importante para la precisión y el rendimiento. Basándose en EfficientNet, el autor propone un método de escalado compuesto para la red de detección y escala la resolución/profundidad/ancho de la red troncal, la red de características y la red de predicción de caja/clase.
? Finalmente, este artículo utiliza EfficientNet como columna vertebral, combina BiFPN y calibración híbrida y propone una nueva serie de detección EfficientDet, que tiene alta precisión y es liviana. Los resultados de COCO se muestran en la Figura 1. Las aportaciones de este artículo son las siguientes:
? Se definen características de múltiples escalas y el objetivo de este artículo es encontrar una función de variación para fusionar de manera efectiva diferentes características y generar nuevas características. Específicamente, la Figura 2a muestra la estructura de red FPN de arriba hacia abajo. Generalmente, FPN tiene solo una capa y aquí se deben escribir formas repetidas para comparar. FPN toma información de las capas 3 a 7, lo que representa capas de entidades con resolución.
? La operación FPN de arriba hacia abajo, como se muestra en la figura anterior, consiste en alinear la resolución mediante muestreo ascendente o descendente, que suele ser una operación convolucional para el procesamiento de características.
? La FPN de arriba hacia abajo está limitada por el flujo de información unidireccional. Para resolver este problema, PANet (Fig. 2b) agrega una red de fusión de ruta ascendente adicional, y NAS_FPN (Fig. 2c) utiliza la búsqueda de arquitectura neuronal para obtener una mejor topología de la red de características de escala cruzada, pero requiere mucho recursos para buscar. PANet es el que tiene mayor precisión, pero requiere demasiados parámetros y cálculos. Para mejorar el rendimiento, este artículo ha realizado varias mejoras en las conexiones de tamaño cruzado:
? La mayoría de los métodos de fusión de características tratan las características de entrada por igual, pero este artículo observa que las entradas con diferentes resoluciones deberían contribuir de manera diferente a las características de salida fusionadas. Para resolver este problema, este artículo propone agregar predicciones de peso adicionales a las características de entrada durante el proceso de fusión, principalmente a través de los siguientes métodos:
? son pesos que se pueden aprender, que pueden ser tensores por función, por canal o multidimensionales. Se descubrió que la forma escalar era suficiente para mejorar la precisión sin aumentar el esfuerzo computacional. Sin embargo, dado que la forma escalar es infinita, fácilmente puede causar inestabilidad en el entrenamiento, por lo que debe estandarizarse y restringirse.
? Softmax se usa para normalizar todos los pesos, pero la operación de softmax hará que el rendimiento de la GPU disminuya, lo que se explicará en detalle más adelante.
? , Garantía Relu, garantizando la estabilidad del valor. Este peso normalizado también cae, porque no hay operación softmax, es más eficiente, aproximadamente un 30% más rápido.
? BiFPN combina conexiones bidireccionales de tamaño cruzado y una rápida fusión normalizada. La operación de fusión de 6 niveles es la anterior, que es la característica intermedia de la ruta de arriba hacia abajo y la característica de salida de la ruta de abajo hacia arriba. Las características de otras capas también se construyen de manera similar. Para mejorar aún más la eficiencia, la fusión de características utiliza convolución separable en profundidad y se agrega normalización y activación por lotes después de cada convolución.
? La estructura de EfficientDet se muestra en la Figura 3. Basado en el paradigma del detector de un nivel, con la red eficiente preentrenada de ImageNet como columna vertebral, BiFPN toma las características de 3 a 7 capas de la columna vertebral como entrada y luego repite la fusión de características bidireccionales de arriba hacia abajo y de abajo hacia arriba.
Todos los niveles ***** disfrutan de networking de clase y box.
? Los algoritmos de detección anteriores se escalaron a una sola dimensión. Inspirándose en EfficientNet, se propone un nuevo método de escalado híbrido de la red de detección, que utiliza un factor híbrido para escalar simultáneamente el ancho y la profundidad de la red troncal, la red BiFPN, la red de clase/caja y la resolución. Debido a que hay demasiadas dimensiones de escala, la eficiencia de búsqueda de cuadrícula utilizada por EfficientNet es demasiado lenta, por lo que este documento utiliza un método de escalado basado en heurística para escalar todas las dimensiones de la red simultáneamente.
? EfficientDet reutiliza los factores de ancho y profundidad de EfficientNet, eficiente net-B0 para EfficientNet-B6.
? En este artículo, el ancho de BiFPN (número de canales) aumenta exponencialmente y la profundidad (número de capas) aumenta linealmente porque la profundidad debe limitarse a un valor más pequeño.
? El ancho de la red de predicción Box/class es consistente con el de BiFPN, y la profundidad (# capas) aumenta linealmente de acuerdo con la Ecuación 2.
? Debido a que BiFPN aprovecha las características de las capas 3 a 7, la resolución de la imagen de entrada debe ser divisible, por lo que se utiliza la Ecuación 3 para aumentar linealmente la resolución.
? Combinando las diferencias en las fórmulas 1-3, se propone la detección de eficiencia-D0 con la detección de eficiencia-D6. No se utilizan parámetros específicos como la Tabla 1 y EfficientDet-D7, pero la resolución de entrada se mejora según D6.
? Para el entrenamiento del modelo se utilizó el optimizador SGD con impulso = 0,9 y caída de peso = 4e-5. En la fase de calentamiento inicial del 5%, la tasa de aprendizaje aumenta linealmente de 0 a 0,008 y luego disminuye de acuerdo con la regla de desintegración del coseno, agregando normalización por lotes después de cada convolución. Decaimiento de la norma por lotes = 0,997, ε = 1e-4, promedio móvil exponencial de gradientes, decaimiento = 0,9998, pérdida focal de suma, relación de aspecto de bbox, 32 GPU, tamaño de lote = 128, método de preprocesamiento RetinaNet de D0-D4 y D5-D7 .
? La Tabla 2 muestra los resultados de comparación de EfficientDet con otros algoritmos. EfficientDet tiene mayor precisión y mejor rendimiento. En la región de baja precisión, Efficiency-D0 tiene la misma precisión que YOLOv3, pero solo utiliza 1/28 de cálculos. En comparación con RetianaNet y Mask-RCNN, la misma precisión solo utiliza 1/8 de parámetros y 1/25 de cálculos. En el área de alta precisión, EfficientDet-D7 alcanza 51,0 mAP, utilizando 4 veces menos parámetros y 9,3 veces menos cálculos que NAS-FPN, y el ancla solo utiliza 3×3 en lugar de 9×9.
? Este artículo compara la velocidad de inferencia del modelo en máquinas reales. Como se muestra en la Figura 4, la aceleración de EfficientDet en GPU y CPU es 3,2x y 8,1x respectivamente.
? Este artículo compara las contribuciones específicas de la red troncal y BiFPN a través de experimentos, y los resultados muestran que tanto la red troncal como BiFPN son importantes. Lo que hay que tener en cuenta aquí es que el primer modelo debería ser RetinaNet-R50 (640), y el segundo y tercer modelo deberían tener 896 entradas, por lo que la mejora en la precisión se debe en parte a esta razón. Además, después de usar BiFPN, el modelo se simplifica mucho, principalmente debido a la reducción de canales. Los canales de FPN son 256 y 512, mientras que BiFPN solo usa 160 dimensiones, por lo que no debería haber repetición aquí.
? La Tabla 4 muestra la precisión y complejidad de la misma red en la Figura 2 usando conexiones de diferentes tamaños cruzados, y BiFPN es bastante bueno en términos de precisión y complejidad.
? La Tabla 5 muestra la comparación de los dos métodos de ponderación bajo diferentes tamaños de modelo. El método de fusión rápida normalizada propuesto en este artículo aumenta la velocidad entre un 26% y un 31% con poca pérdida de precisión.
? La Figura 5 muestra el proceso de cambio de peso de los dos métodos durante el proceso de entrenamiento. El proceso de cambio de fusión rápida normalizada es muy similar al método softmax. Además, podemos ver que los pesos cambian muy rápidamente, lo que demuestra que diferentes características contribuyen de manera diferente.
? Este artículo compara el método de escala mixta con otros métodos. Aunque al principio es similar, a medida que aumenta el número de modelos, el efecto de la precisión mixta se vuelve cada vez más evidente.
? Este artículo propone una FPN ligera de escala cruzada y una versión de detección del método de escalado híbrido personalizado BiFPN. Sobre la base de estas optimizaciones, se introduce una serie de algoritmos Det eficientes, que mantienen tanto una alta precisión como un alto rendimiento, y la eficiencia alcanza SOTA. En términos generales, la idea del artículo se basa en el EfficientNet anterior, y la innovación puede no ser tan sorprendente como antes, pero desde un punto de vista experimental, el nuevo marco de detección introducido en el artículo es muy práctico. y espero con ansias que el autor lo abra.
?
?
?