Predicción densa con agrupación de características interesantes en la segmentación de imágenes
El artículo que saqué accidentalmente de arxiv puede verse como una extensión del trabajo anterior, es decir, atención jerárquica de múltiples escalas para la segmentación semántica.
Agregar información de entidades en diferentes capas es una operación fundamental de los modelos predictivos densos.
A pesar de su poder expresivo limitado, la concatenación de características domina la elección de las operaciones de agregación.
En este artículo, presentamos Attentional Feature Aggregation (AFA) para fusionar diferentes capas de red con operaciones no lineales más expresivas. AFA utiliza atención espacial y de canal para calcular un promedio ponderado de activaciones de capas.
Inspirándonos en la representación del volumen neuronal, ampliamos AFA utilizando la representación del espacio de escala (SSR) para realizar una fusión de última etapa de predicciones de múltiples escalas.
AFA es aplicable a una amplia gama de diseños de redes existentes.
Nuestros experimentos muestran mejoras consistentes y significativas en puntos de referencia de segmentación semántica desafiantes, incluidos Cityscapes, BDD100K y Mapillary Vistas, con una sobrecarga computacional y de parámetros insignificante. En particular, en paisajes urbanos, AFA mejora el rendimiento de los modelos de agregación profunda (DLA) en casi 6. Nuestro análisis experimental muestra que AFA aprende a refinar progresivamente los mapas de segmentación y mejorar los detalles de los límites, lo que genera resultados de última generación en los puntos de referencia de detección de límites en BSDS500 y NYUDv2.
Aquí se diseñan dos formas integrales, una es adecuada para entradas duales y la otra es adecuada para integrales asintóticas de múltiples entradas. El núcleo se basa en la atención espacial y la atención del canal. Tenga en cuenta que el cálculo aquí se realiza en forma de integrales por pares, por lo que después de calcular un grado de atención, se usa sigmoide para construir el peso relativo.
Para la forma de entrada dual, la atención espacial se calcula a través de características superficiales porque contiene información espacial rica, mientras que la atención del canal se calcula a través de características profundas porque contiene características de canal más complejas. Para el formulario de entrada múltiple (en la figura solo se muestran tres capas, pero de hecho se pueden introducir más capas de entrada), el canal y la atención espacial se calculan completamente a través de la entrada de la capa actual. la atención se calculará utilizando para ponderar las salidas actuales y anteriores. Además, el orden de integración se describe en el documento original como "las funciones con mayor prioridad se someterán a un mayor número de agregaciones". Tengo entendido que debería ser un proceso de lo profundo a lo superficial.
El módulo de integración propuesto se puede utilizar en muchas estructuras, como DLA, la Red de Comercio Electrónico de las Naciones Unidas, la Red de Recursos Humanos y FCN.
El SSR propuesto aquí es una estrategia más similar al conjunto de modelos.
Integra el razonamiento multiescala calculando el peso relativo de los resultados previstos en diferentes escalas. Por lo tanto, aquí están involucradas dos cuestiones:
Para expresar la integración de predicciones de múltiples escalas, los autores primero se centran en un solo píxel y asumen que el modelo proporciona predicciones para el píxel objetivo en diferentes escalas.
La predicción de la escala se puede expresar como. Por lo tanto, la representación de características del píxel objetivo en el espacio de escala se puede definir como. Además, se supone que la escala de representación cartográfica es más basta que la escala.
Entonces el píxel objetivo se puede imaginar como luz que se mueve en el espacio de escala, de escala en escala.
Con base en esta idea, se rediseña la atención jerárquica original en el mecanismo de fusión de funciones múltiples propuesto y se simula la ecuación de representación de volumen, donde el volumen está dado implícitamente por el espacio de escala.
Por lo tanto, además de la representación de características a esta escala, se supone que el modelo también predecirá el escalar del píxel objetivo. En el caso de la renderización de volumen, la probabilidad de que una partícula cruce la escala se puede expresar como .
Por tanto, la atención de escala se puede expresar como la probabilidad de que una partícula llegue a la escala y se quede aquí (cada vez que satisface la distribución de Bernoulli, debe quedarse o salir, ambas van hacia adelante, por lo que se queda en la hora actual):
Un parámetro escalar que representa la predicción del píxel objetivo para cada escala.
Finalmente, de acuerdo con la ecuación de representación de volumen, la predicción final obtenida mediante la fusión de predicción de múltiples escalas del píxel objetivo se obtiene mediante la suma ponderada de los parámetros de atención de diferentes escalas, que también refleja los resultados obtenidos para el píxel objetivo. Las características finales se obtienen impulsando la fusión de expresiones de características en todas las escalas.
Basado en un análisis contextual exhaustivo, el diseño aquí debería, en última instancia, integrar todas las escalas en 1.
La SSR propuesta puede considerarse como una forma generalizada de atención jerárquica multiescala (HMA).
Esta última forma se puede obtener configurando y fijando. En este punto, hay:
Mirando el formulario aquí, hay dos cosas desconcertantes aquí:
La entrada se escala nuevamente antes de enviarse al modelo. El tamaño de salida final aquí es equivalente a 1,0 veces el tamaño de entrada original. Por lo tanto, se supone que las características se integran de acuerdo con el número de escala de K a 1, y el resultado se genera en la capa 1.
Debido a que la atención construida en este artículo se basa en la probabilidad de no seleccionar la capa actual (pasar la capa actual), la forma general es la siguiente:
Se puede ver que el peso de atención de la primera capa es el resultado de salida del sigmoide directo, y para la salida de la k-ésima capa, se obtiene tomando el producto complementario y similar de la salida sigmoidea de cada capa.
En el experimento se utilizó la función de valor absoluto:. Esto se inspiró en el análisis de cómo preservar mejor el flujo de gradiente a través de mecanismos de atención, ya que los autores descubrieron que los mecanismos de atención existentes pueden sufrir el problema del gradiente que desaparece.
Preste atención a la forma en que se organizan los coeficientes al frente:
Considere las derivadas de los coeficientes de primer nivel con respecto a los parámetros aprendibles
Al considerar dos escalas, es decir:
La esquina superior izquierda calcula la derivada del coeficiente de atención de la capa 1 con respecto a los parámetros de la capa 1, y la esquina superior derecha calcula la derivada de la capa 1 con respecto a la segunda capa. Se puede ver que no importa cuánto, el gradiente desaparece.
Entonces, para evitar el problema de la desaparición del gradiente, aún debes configurarlo con cuidado. Al elegir una función de valor absoluto, la matriz jacobiana no desaparece en el caso de y .
Teniendo en cuenta la situación de HMA, según la tabla proporcionada por el remitente, se tiene:
La sucursal 2 no participa en el cálculo de la atención. cuando el gradiente desaparece.
Según mi tabla anterior, hay:
También faltarán problemas.