La Red de Conocimientos Pedagógicos - Currículum vitae - Papel cvpr de China

Papel cvpr de China

Comparta un artículo de CVPR 2021, Action-Net: Exclusión de rutas múltiples para el reconocimiento de acciones. Autor: Laboratorio de Inteligencia Artificial ByteDance, Trinity University Dublin.

Este artículo propone un módulo de acción plug-and-play con un mecanismo de atención híbrido para el reconocimiento de acciones secuenciales (como gestos). Este módulo incluye atención espaciotemporal, atención de canal y atención de movimiento.

Los detalles son los siguientes:?

01 ?

Atención espacio-temporal (STE): al realizar una agrupación promedio global en todos los canales, se puede obtener un mapa de atención espacio-temporal de un solo canal a través de 3D 3x3x3. convolución, lo que hace que sea muy posible obtener mapas de atención espaciotemporales con una pequeña cantidad de cálculo. Este mapa de atención se multiplica por las características de entrada para obtener las características correspondientes inspiradas en la información espaciotemporal.

Channel Concern (CE): Este bloque está basado en el bloque Arthur de SE-Net. Sin embargo, debido a que las acciones de video contienen información temporal, se inserta convolución 1D entre canales comprimidos y sin comprimir en el dominio del tiempo para mejorar la interdependencia de los canales en el dominio del tiempo. Al igual que SE, podemos obtener un mapa de atención basado en canales. Al igual que STE, las características de excitación del canal de las características de entrada se multiplican para obtener los puntos del mapa de atención.

Nota de acción (ME): ME se ha utilizado en trabajos anteriores como STM y TEA. Describe principalmente el movimiento de acción entre cada dos cuadros adyacentes, muy similar al flujo óptico. Tome la estructura ME del trabajo anterior como una rama y conéctela con los dos bloques mencionados anteriormente para obtener el módulo de acción.

02 ?

El módulo de acción está compuesto por los tres módulos de atención anteriores en paralelo. Este módulo es igual que el TSM anterior, plug and play. En comparación con los métodos más modernos, la red troncal utiliza el mismo ResNet-50 que antes. Al mismo tiempo, TSN y TSM se utilizan como líneas de base para probar el rendimiento de ACTION en diferentes redes troncales (RESNET-50, mobilenetv2, BN-Inception).

03 ?

En los experimentos, se utilizan tres conjuntos de datos de vídeo, V2, payaso y pose propia, para probar el módulo de acción propuesto.

3.1 Comparación con la tecnología de última generación

Como se puede ver en la siguiente tabla, el rendimiento de las acciones en Jester y EgoGesture sigue siendo muy superior, y ambos han logrado los efectos más avanzados. En comparación con STM y TEA en el conjunto de datos V2, los resultados son muy similares.

Sin embargo, vale la pena señalar que STM y TEA están diseñados para ResNet y Res2Net respectivamente. ACTION es un módulo plug-and-play y no estará restringido por el tipo de red troncal. Se informa que el autor mostrará el efecto en MobileNet V2 y BN-Inception más adelante.

3.2 Estudio de autorización

Se define un coeficiente de eficiencia para cuantificar el cálculo adicional requerido por cada mejora del 1% en la precisión superior del módulo de acción en relación con TSM. Menos significa mayor eficiencia. La siguiente figura muestra la eficiencia de las operaciones en tres conjuntos de datos diferentes para tres redes troncales. Se puede ver que la eficiencia de la acción es más obvia en MobileNet V2. De manera similar, la eficiencia de V2 también es mayor que la de los otros dos conjuntos de datos.