La Red de Conocimientos Pedagógicos - Currículum vitae - GWD: Detección de objetos giratorios basada en la distancia gaussiana de Wasserstein ICML 2021 |

GWD: Detección de objetos giratorios basada en la distancia gaussiana de Wasserstein ICML 2021 |

Artículo: ¿Repensar la detección de objetos giratorios con pérdida de distancia gaussiana de Wasserstein

? Los objetos con orientaciones arbitrarias son omnipresentes en los conjuntos de datos de detección. En comparación con la detección de objetivos horizontales, la detección de objetivos giratorios aún está en su infancia. En la actualidad, la mayor parte de la investigación de SOTA se centra en el ángulo de rotación del objetivo de regresión, pero resolver el ángulo de rotación trae nuevos problemas: I) El indicador es inconsistente con la pérdida. ii) El intervalo de regresión del ángulo de rotación es discontinuo. 3) Problema de cuadrados. De hecho, no existe una buena solución al problema anterior, lo que afectará en gran medida el rendimiento del modelo, especialmente cuando el ángulo está en el límite del rango.

? Para resolver los problemas anteriores, este artículo propone el método GWD. Primero, se usa una distribución gaussiana bidimensional para modelar el objetivo giratorio, y luego se usa la distancia gaussiana de Wasserstein (GWD) para reemplazar el IoU giratorio no diferenciable, y el valor de pérdida se calcula en función de la GWD, alineando así el Entrenamiento del modelo con el estándar de medición.

? Las principales aportaciones de este artículo son las siguientes:

? La Figura 2 muestra dos definiciones de bbox giratorio: forma OpenCV y forma de lado largo, donde el ángulo de la primera es el ángulo con la abscisa y el ángulo del segundo es el ángulo con el lado largo y la abscisa. Estas dos definiciones se pueden convertir entre sí (independientemente del punto central):

? La principal diferencia entre estas dos representaciones es el orden y el ángulo de los bordes. El mismo bbox se expresa de diferentes maneras y es posible que sea necesario intercambiar el orden o el ángulo de los lados en 90 °. En muchos estudios, el diseño del modelo se combina con la definición de bbox para evitar problemas específicos: por ejemplo, se puede evitar el problema de cuadratura, se puede evitar el problema de intercambio de bordes.

? IoU es un índice de evaluación importante en el campo de la detección, pero la función de pérdida de regresión (como -norm) utilizada en el entrenamiento real a menudo es inconsistente con el índice de evaluación, es decir, valores de pérdida más pequeños no significan un mayor rendimiento. En la actualidad, han aparecido algunas medidas para abordar el problema de la inconsistencia en el campo de la detección de objetivos horizontales, como Oudi y Geo. En el campo de la detección de objetivos giratorios, debido a la adición de regresión de ángulos, el problema de inconsistencia es más prominente, pero todavía no existe una buena solución. Este artículo también enumera algunos ejemplos para comparar la pérdida de IoU y la pérdida suave de L1:

? Del análisis anterior se puede ver que en el campo de la detección de objetivos giratorios, la pérdida de IoU puede llenar mejor la diferencia entre los estándares de evaluación y la pérdida de regresión. Desafortunadamente, en el campo de la detección de objetos rotados, el cálculo de IoU entre dos bboxes rotados no es diferenciable y no se puede utilizar para entrenamiento. Por lo tanto, este artículo propone una pérdida diferenciable para reemplazar la pérdida de IoU basada en la distancia de Wasserstein, que también puede resolver el problema de discontinuidad y el problema del cuadrado del intervalo de regresión del ángulo de rotación.

? El caso 1-2 en la figura anterior resume la discontinuidad del intervalo de regresión del ángulo de rotación. Tomando el caso 2 en formato OpenCV como ejemplo, existen dos métodos de regresión para anclaje y GT:

? El problema anterior generalmente ocurre cuando el ángulo entre el ancla y GT está en el límite del rango de ángulo, y cuando el ángulo entre el ancla y GT no está en el límite, way1 no producirá un valor de pérdida enorme. Por lo tanto, para Smooth-L1, el procesamiento óptimo de los ángulos límite y no límite será demasiado consistente, lo que también obstaculizará el entrenamiento del modelo.

? El problema del cuadrado ocurre principalmente en métodos de detección que utilizan formas de lados largos. Debido a que un objeto cuadrado no tiene un lado largo absoluto, la forma del lado largo no es exclusiva del objeto cuadrado en sí. Tomando el Caso3 como ejemplo, hay un ancla y GT Way1 puede girar un pequeño ángulo en el sentido de las agujas del reloj para que su posición sea consistente con GT. Sin embargo, debido a la gran diferencia de ángulo, la vía 1 producirá una mayor pérdida de regresión. Por lo tanto, es necesario girarlo en sentido antihorario en un ángulo grande, como en way2. La causa principal del problema del cuadrado no son los PoA y EoE mencionados anteriormente, sino la inconsistencia en las métricas y los cálculos de pérdidas.

? Después del análisis anterior, este artículo espera que la función de pérdida de regresión del nuevo método de detección de objetivos giratorios satisfaga los siguientes puntos:

? Actualmente, la mayoría de las pérdidas de IoU pueden verse en función de la distancia.

Con base en esto, este artículo propone una nueva función de pérdida de regresión basada en la distancia de Wasserstein. Primero, el bbox rotado se convierte en una distribución gaussiana bidimensional:

? es el vector diagonal de la matriz de rotación y los valores propios. Para la suma de cualquiera de las dos medidas de probabilidad anteriores, la distancia de Wasserstein se puede expresar como:

? La Fórmula 2 calcula todas las combinaciones de vectores aleatorios, las sustituye en una distribución gaussiana y las convierte a:

? Preste especial atención a:

? Considerando el caso conmutativo (detección de objetivos horizontales), la Ecuación 3 se puede transformar en:

? Para la norma de Frobenius, donde el bbox es horizontal, la ecuación 5 es similar a la pérdida de la norma, lo que indica que la distancia de Wasserstein es consistente con la pérdida comúnmente utilizada en tareas de detección horizontal y puede usarse para pérdidas de regresión. El cálculo de la fórmula aquí es relativamente complicado. Si está interesado, puede leer la referencia.

? Este artículo utiliza una función de transformación no lineal para asignar GWD y obtiene una función similar a la pérdida de IoU:

? La figura anterior también describe las curvas de la función de pérdida bajo diferentes funciones no lineales. Se puede ver que la Ecuación 6 está muy cerca de la curva de pérdida de IoU y también puede medir cajas b no cruzadas. Por lo tanto, la Fórmula 6 obviamente puede satisfacer el Requisito 1 y el Requisito 2. Empezamos a analizar el Requisito 3, dando primero las características de la fórmula 1:

? Según la característica 1, la función de pérdida de GWD es igual a la forma OpenCV y a la forma de borde largo, es decir, no es necesario entrenar el modelo con una expresión bbox específica. Tomando como ejemplo la Vía 1 del Caso 2, GT y el pronóstico tienen la misma media y varianza, y la función de pérdida GWD no generará un valor de pérdida mayor. De acuerdo con las características 2 y 3, la vía 1 de los casos 2 y 3 no producirá un valor de pérdida grande, por lo que la función de pérdida GWD también cumple con el requisito 3.

? En general, las ventajas de GWD en la detección de objetivos giratorios son las siguientes:

? Este artículo utiliza RetinaNet como detector básico, bbox está representado por OpenCV y el objetivo de regresión se define como:

? La distribución de variables, representa GT, ancla y resultados de predicción. La función de pérdida multitarea final es:

? es el número de ancla, indicador de primer plano o fondo, bbox previsto, GT, etiqueta de GT, etiqueta de predicción, hiperparámetros, pérdida focal.

? Comparar otras soluciones a problemas específicos.

? Compare varios modelos en el conjunto de datos de DOTA. Si está interesado, puede consultar muchos otros experimentos.

? Este artículo detalla los principales problemas de la detección de objetivos giratorios, define el objetivo de regresión giratorio como una distribución gaussiana y utiliza la distancia de Wasserstein para medir la distancia entre distribuciones gaussianas para el entrenamiento. Actualmente, en la detección de objetivos convencional, existen muchos métodos para convertir la regresión en funciones de distribución de probabilidad. Este artículo tiene enfoques similares pero vale la pena leerlo.

?