La Red de Conocimientos Pedagógicos - Currículum vitae - ResNet: Aplicación en seguimiento visual

ResNet: Aplicación en seguimiento visual

El método de seguimiento SiamFC ha logrado un gran éxito y también ha promovido el desarrollo del aprendizaje profundo en el campo del seguimiento. Sabemos que la red troncal utilizada por SiamFC es AlexNet, que se utiliza para extraer características de la imagen. AlexNet se propuso por primera vez en tareas de reconocimiento de imágenes, lo que demostró por primera vez la efectividad de las redes convolucionales en el campo CV y ​​ganó el primer lugar en la competencia ImageNet de 2012. Desde entonces, se han propuesto muchas redes convolucionales profundas, como VVG, Google Net y Lacey Net. Se puede ver que desde AlexNet hasta ResNet, el número de capas de red está aumentando, es decir, la profundidad de la red es cada vez más profunda, lo que también hace que el rendimiento de la red sea más potente y los resultados sean cada vez mejores. A partir de esto, naturalmente podemos preguntarnos si el uso de una red troncal más potente también puede mejorar el rendimiento del método de seguimiento siamés. Este artículo analiza principalmente la red troncal ResNet en SiamRPN ++.

Se puede ver que el bloque residual contiene dos mapeos, uno es el mapeo de identidad, que se refiere a la curva en la figura anterior, y el otro es el mapeo residual, que se refiere al exterior del parte de la curva, por lo que el resultado final es y = f (x) + X. Como sugiere el nombre, el mapeo de identidad se refiere a sí mismo, que es X en la fórmula, y el mapeo residual se refiere a la "diferencia", que es. ¿Y? x, por lo que el residual se refiere a la parte F(x). Por lo tanto, la F (x) que la red necesita aprender es la diferencia entre la entrada y el objetivo, por lo que se denomina red residual.

El ResNet original se utilizaba principalmente para tareas de reconocimiento y clasificación de imágenes y no era sensible a la información espacial. En las tareas de seguimiento, la información espacial es muy importante para el posicionamiento preciso de los objetivos, por lo que es necesario mejorarla antes de poder utilizarla en las tareas de seguimiento.

La imagen de arriba es el diagrama de estructura de red de SiamRPN++, y su columna vertebral es el ResNet-50 modificado. El ResNet-50 original tiene una zancada de 32, que no es adecuada para seguimiento. Los autores modificaron la zancada de los dos últimos bloques, reduciendo la zancada total a 8 y aumentando el campo receptivo mediante convolución del agujero. Como se puede ver en la figura anterior, se utilizan las características de diferentes capas convolucionales de profundidad de ResNet y se agrega una capa convolucional adicional de 1 × 1 a cada salida de bloque, lo que reduce el número de canales de características a 256. Este elemento conserva todas las capas de relleno.