La Red de Conocimientos Pedagógicos - Currículum vitae - Aaai papel

Aaai papel

Artículo: Agrupación de atención consciente del contexto (cap) para una clasificación visual detallada.

? Este artículo cree que los métodos más excelentes de reconocimiento de imágenes de grano fino ayudan a la identificación explorando las características locales del objetivo, pero no etiquetan información local, sino que utilizan supervisión débil o métodos no supervisados ​​para localizar la ubicación de las características locales. Además, la mayoría de los métodos utilizan detectores previamente entrenados que no pueden capturar bien la relación entre los objetos y las características locales. Para describir mejor el contenido de la imagen, es necesario considerar la información desde los píxeles hasta los objetivos y las escenas con más detalle, no solo para localizar características/objetivos locales, sino también para describir sus características ricas y complementarias desde múltiples dimensiones, de modo que para obtener una imagen completa/contenido objetivo.

? Teniendo en cuenta cómo describir el objetivo desde la perspectiva de una red convolucional, se propone un módulo de agrupación de atención consciente del contexto (CAP), que puede codificar de manera efectiva la información de ubicación y la información de apariencia de las características locales. Este módulo toma las características de salida de la red convolucional como entrada y aprende la importancia de las diferentes regiones al ajustar las características, obteniendo así características de apariencia rica y características espaciales de las regiones locales, y luego realiza clasificaciones precisas.

? Las principales aportaciones de este artículo son las siguientes:

? El proceso general de este algoritmo se muestra en la figura anterior. Introduce imágenes y genera categorías subordinadas específicas, incluidos tres componentes (tres conjuntos de parámetros):

[Error en la carga de la imagen...(image-bc43b-1644805770766)]

? Las características generadas por la red convolucional se definen como módulos CAP que consideran de manera integral la información contextual de características a nivel de píxel, características de área pequeña, características de área grande y características a nivel de imagen para su clasificación.

[Error en la carga de la imagen...(Picture-818dc 8-1644805770766)]

? La información contextual de las características a nivel de píxel aprende principalmente el grado de correlación entre píxeles. Al calcular la salida de la posición, todas las demás características de píxeles se sintetizan de acuerdo con el grado de correlación, se implementan directamente mediante la autoatención y la transformación de características utiliza convolución. Este paso opera directamente las características de la salida de la red troncal, pero no se refleja en el diagrama de flujo general.

? Para aprender información contextual de manera más efectiva, las regiones básicas con diferentes niveles de granularidad se definen en el mapa de características, y el nivel de granularidad está determinado por el tamaño de la región. Tomando como ejemplo el área más pequeña en la posición, se puede derivar una serie de áreas ampliando el ancho y el alto. Se generan conjuntos de regiones similares en diferentes ubicaciones para obtener el conjunto de regiones final. Cubrir todas las áreas con diferentes relaciones de aspecto proporciona información contextual completa y ayuda a proporcionar características sutiles en diferentes niveles de la imagen.

? Según el paso anterior, obtenemos 20 regiones de menor a mayor en el mapa de características. El objetivo de este artículo es representar regiones de diferentes tamaños como características de tamaño fijo, utilizando principalmente interpolación bilineal. Se define como la función de conversión de coordenadas, que es la coordenada regional y el valor de característica correspondiente, entonces el valor en la coordenada de la imagen convertida es:

? Para la función de muestreo y la función del núcleo, aquí se utiliza el método más primitivo: mapear las coordenadas del objetivo a la imagen original, tomar los cuatro puntos más cercanos, generarlos por distancia y finalmente fusionarlos para obtener características fijas.

? Aquí, el artículo utiliza un nuevo mecanismo de atención para obtener información contextual y generarla en función de la similitud con otras características, de modo que el modelo pueda centrarse selectivamente en áreas más relevantes para generar información contextual más completa. Genere un vector de contexto con términos de consulta y un conjunto de términos de palabras clave;

? La matriz de parámetros y los términos clave utilizados para convertir características de entrada en términos de consulta son combinaciones no lineales y la suma es el término de compensación. El total de parámetros que se pueden aprender es 0 y el término de atención representa la similitud entre dos características. De esta forma, el vector de contexto puede representar la información de contexto contenida en el área, que se obtiene en función de su correlación con otras áreas. La idea general de cálculo es básicamente similar a la autoatención.

? Los vectores de contexto describen la criticidad y las características de una región. Para aumentar aún más la información estructural relacionada con la disposición espacial, este documento convierte el vector de contexto de una región en una secuencia de región (de arriba a abajo, de izquierda a derecha), lo ingresa en la red neuronal recurrente y utiliza el elemento oculto. Unidad de la red neuronal recurrente para representar características estructurales.

? Las características intermedias de esta área se pueden representar como LSTM, que contiene los parámetros relevantes de LSTM. Para aumentar la capacidad de generalización y reducir la cantidad de cálculo, las características de contexto se obtienen mediante la agrupación promedio global y, finalmente, la secuencia de estado oculto correspondiente a la secuencia de características de contexto se genera para su uso posterior por parte del módulo de clasificación.

[Error en la carga de la imagen...(Imagen-AAB 286-1644805770766)]

? Para guiar aún más el modelo para distinguir cambios sutiles, este artículo propone una operación de agrupación que se puede aprender para integrar información de características mediante la combinación de capas ocultas con respuestas similares. Basado en la idea de NetVLAD, este artículo utiliza el método de agrupamiento derivado para transformar el valor de respuesta de la capa oculta. Primero, se calcula la correlación entre la respuesta de la capa oculta y el clúster, y luego se pondera en la codificación VLAD del clúster:

[Error en la carga de la imagen...(Picture-2d95b2-1644805770766)]

? Cada grupo tiene su suma de parámetros que se pueden aprender. Toda la idea se basa en softmax, y los valores de respuesta de la capa oculta se asignan a diferentes grupos de acuerdo con el peso de softmax. Después de obtener los vectores de codificación de todos los grupos, los normalizamos utilizando pesos que se pueden aprender y softmax. Por lo tanto, los parámetros que se pueden aprender del módulo de clasificación son.

[Error en la carga de la imagen...(image-d9e 014-1644805770766)]

? Se compararon diferentes métodos en diferentes conjuntos de datos.

? Comparación de precisión en diferentes redes troncales.

? Visualización de características de salida de diferentes módulos. La Figura B muestra las características de salida de la red troncal después de agregar CAP.

? Este artículo propone una solución de clasificación detallada CAP, que ayuda al modelo a descubrir cambios sutiles en las características del objetivo a través de un mecanismo de atención consciente del contexto. Además del mecanismo de atención a nivel de píxeles, también existen mecanismos de atención regional y métodos de codificación de características locales, que son muy diferentes de las soluciones visuales anteriores y merecen una mirada.

?

?

?

?