La Red de Conocimientos Pedagógicos - Currículum vitae - ¿Cuál es la diferencia entre combinación y ambigüedad en MS?

¿Cuál es la diferencia entre combinación y ambigüedad en MS?

Escrito antes

BlendMask es un método de segmentación de instancias densas de una etapa que combina las ideas de métodos de arriba hacia abajo y de abajo hacia arriba. Basado en el modelo de detección sin anclajes FCOS, agrega módulos de bajo nivel para extraer características detalladas de bajo nivel y predecir la atención a nivel de instancia. El autor se refiere al método de fusión de FCIS y Yolak y propone un módulo Blender para mejorar; Combinando estas dos características. En última instancia, la precisión de BlendMask (41,3 AP) y la velocidad (25 fps en 1080 Ti) en COCO son mejores que las de Mask R-CNN.

Aunque este artículo es muy preciso y rápido, su innovación no es sobresaliente. Afortunadamente, los experimentos son suficientes y también vale la pena aprender de la idea de optimizar el modelo. Finalmente, lo comparé específicamente con Mask R-CNN y fue bien recibido ~

Introducción a los antecedentes

Este artículo analiza principalmente la segmentación de instancias densas. También hay segmentación de arriba hacia abajo y de abajo. Métodos de preparación para segmentación de instancias densas.

Métodos de arriba hacia abajo

DeepMask es el creador de la segmentación de instancias densas de arriba hacia abajo, que predice una propuesta de máscara en cada región espacial a través de una ventana deslizante. Este método tiene las siguientes tres desventajas:

Se pierde la conexión (consistencia local) entre la máscara y la característica, como el uso de una red completamente conectada para extraer la máscara en DeepMask.

La representación de extracción de características es redundante; por ejemplo, Deepmask extraerá la máscara una vez para cada característica de primer plano.

Pérdida de información de posición debido a la reducción de resolución (convolución con zancada mayor que 1)

Enfoque ascendente

Segmentación de casos densos de abajo hacia arriba La rutina general de el método consiste en generar características integradas para cada píxel y luego utilizar métodos de posprocesamiento como la agrupación y la teoría de grafos para la clasificación de grupos. Aunque este método conserva mejores características de bajo nivel (información detallada e información de ubicación), también tiene las siguientes deficiencias:

La calidad de la segmentación densa es muy alta, lo que puede conducir a una segmentación no óptima

Poca capacidad de generalización y no puede hacer frente a escenarios complejos con muchas categorías.

Los métodos de posprocesamiento son engorrosos.

Método híbrido

Este artículo quiere combinar estas dos ideas y utilizar la información de alta dimensión a nivel de instancia generada por métodos de arriba hacia abajo (como bbox) para fusionar la información generada. mediante métodos ascendentes. Para ello se propone un algoritmo de red simple BlendMask basado en FCOS. Basado en las ideas de FCIS (recorte) y YOLACT, se propone un módulo de Blender, que puede integrar mejor la información global, incluidas las características de nivel de instancia y de bajo nivel que brindan información detallada y de posición.

Idea general

La arquitectura general de BlendMask se muestra en la siguiente figura, incluido el módulo detector y el módulo BlendMask. Los módulos FCOS y BlendMask utilizados directamente por el módulo detector en este artículo se componen de tres partes: el módulo inferior se usa para procesar las características inferiores y el mapa de puntuación generado se llama Base, la capa superior está conectada en serie a la caja; cabeza del detector para generar atención de nivel superior; y finalmente usar blender para integrar cardinalidad y atención.

Máscara de fusión en todo el marco

Haz clic para ingresar la descripción de la imagen.

Módulo inferior

La estructura de esta parte es similar a FCIS y Yorak. ¿La entrada es? Las funciones de bajo nivel las genera la red troncal o FPN. A través de una serie de decodificaciones (muestreo ascendente y convolución), se genera un mapa de puntuación, que se denomina básico (B). Este artículo utiliza el decodificador DEPLABV 3 y también se aplican otros decodificadores de subred.

En la fórmula anterior, n es el tamaño del lote, k es el número de bases, hyw son los tamaños de las imágenes de entrada y s es el tamaño del paso de salida de la base.

Marco de red Deeplab V3

Haga clic para ingresar la descripción de la imagen.

Capa superior

Después de cada capa de la pirámide de detección, se agrega una capa de convolución para predecir la atención superior (A).

Similar a YOLACT, pero diferente:

En YOLACT, ¿cuál es el resultado? , es decir, el peso de la máscara N × K, llamado coeficiente de máscara en el texto original;

¿Cuál es la dimensión de salida en este artículo? ,¿aquí? La resolución de atención, es decir, el peso de cada píxel de la base correspondiente, abarca una granularidad más fina.

Debido a que la atención de nivel superior es tridimensional, puede aprender cierta información a nivel de instancia, como la forma aproximada y la pose. ¿La implementación específica es el canal de salida? de convolución.

Blender

El módulo blender es la parte innovadora del artículo. El proceso de mezcla en esta parte se explica a continuación:

Primero, defina la entrada de. el módulo Blender, es decir:

p>

La sugerencia de Bbox (P) generada por la torre detectora tiene un tamaño de (k×h'×w'; además, se utiliza directamente el bbox GT); para P durante el entrenamiento, y los resultados de detección del detector se utilizan durante la inferencia.

La atención de nivel superior (A) generada por la capa superior tiene dimensiones (K×M×M).

La base (B) generada por el módulo subyacente es la máscara k de todo el tamaño del gráfico, con la dimensión (K×H×W).

Para B, use RoIPooler en la máscara R-CNN (es decir, RoIAlign con una proporción de muestreo de 1, 4 en la máscara R-CNN), recorte la máscara del área correspondiente de P en B y ajustar El tamaño del mapa de características es un tamaño fijo R×R, y la dimensión final es (k×R×R);

Haga clic para ingresar la descripción de la imagen.

Haga clic para ingresar una descripción de la imagen.

Para A: este paso es en realidad una operación de posprocesamiento de nivel superior, hablemos de ello aquí. De acuerdo con el método de posprocesamiento de FCOS, el autor selecciona los primeros cuadros de detección D y el A correspondiente, y ajusta la dimensión de A de (k * m * m, h', w') a (K×M×M ), registrado como A;

Para A: dado que M es generalmente más pequeño que R, se realiza una interpolación para insertar A desde M×M hasta el tamaño de R×R. ¿Qué obtienes? La dimensión es (K×R×R)

Haga clic para ingresar la descripción de la imagen.

Luego aplique softmax en k dimensiones para obtener una serie de mapas de puntuación. La dimensión también es (K×R×R)

Haga clic para ingresar la descripción de la imagen.

Fusión: ¿En este momento? Entonces qué. Sus tamaños son todos (K × R × R), que se pueden convertir directamente en productos por elementos: multiplique K máscaras del tamaño de bbox por la atención correspondiente y luego superpóngalas según el canal para obtener la máscara final.

Proceso de fusión

Haga clic para ingresar la descripción de la imagen.

Resultados experimentales

Configuración de parámetros

Los hiperparámetros de BlendMask * * * tienen el siguiente contenido:

Este artículo utilizará R, el RoI subyacente La resolución se establece en 56.

m, la resolución de la predicción superior (A) es generalmente mucho menor que r, y la configuración en este artículo es 7.

Este artículo establece k y el número de bases en 4.

Las funciones de entrada del módulo subyacente provienen de la red troncal (C3, C5) o FPN (P3, P5). Este artículo utiliza P3 y P5.

El método de muestreo de la base es el método de mezcla del vecino más cercano o el método de mezcla bilineal. Este artículo utiliza el método de mezcla bilineal.

Método de interpolación de atención superior, método de interpolación del vecino más cercano o método de interpolación bilineal. Este artículo utiliza el método de interpolación bilineal.

Estos hiperparámetros se eliminarán más adelante. Para hacer una comparación razonable con otros modelos, las configuraciones de BlendMask utilizadas en el experimento de ablación son las siguientes: R_K_M son 28, 4 y 4 respectivamente; las características de entrada del módulo inferior provienen de la red troncal C3 y C5; la atención de nivel superior utiliza el método de interpolación del vecino más cercano, que es consistente con FCIS Consistent; la capa inferior usa agrupación bilineal, que es consistente con RoIAlign.

Resultados experimentales

Veamos primero los resultados experimentales generales.

En el conjunto de datos COCO, la precisión y velocidad de BlendMask superan a otros modelos de instancia de una sola etapa, básicamente superando a Mask R-CNN (excepto R-50 y NOAUG).

Haga clic para ingresar una descripción de la imagen.

Mixed Mask-RT

Al mismo tiempo, el autor también creó una versión rápida de BlendMask-RT para comparar velocidades. Los cambios en la versión rápida son los siguientes:

El número de convoluciones en el cabezal de predicción se reduce a 3.

Proto-FPN en YOLACT sirve como módulo inferior, y la torre de caja y la torre de clasificación se combinan en una (aquí hay dudas).