ResNet: Aplicación en seguimiento visual
Se puede ver que el bloque residual contiene dos mapeos, uno es el mapeo de identidad, que se refiere a la curva en la figura anterior, y el otro es el mapeo residual, que se refiere al exterior del parte de la curva, por lo que el resultado final es y = f (x) + X. Como sugiere el nombre, el mapeo de identidad se refiere a sí mismo, que es X en la fórmula, y el mapeo residual se refiere a la "diferencia", que es. ¿Y? x, por lo que el residual se refiere a la parte F(x). Por lo tanto, la F (x) que la red necesita aprender es la diferencia entre la entrada y el objetivo, por lo que se denomina red residual.
El ResNet original se utilizaba principalmente para tareas de reconocimiento y clasificación de imágenes y no era sensible a la información espacial. En las tareas de seguimiento, la información espacial es muy importante para el posicionamiento preciso de los objetivos, por lo que es necesario mejorarla antes de poder utilizarla en las tareas de seguimiento.
La imagen de arriba es el diagrama de estructura de red de SiamRPN++, y su columna vertebral es el ResNet-50 modificado. El ResNet-50 original tiene una zancada de 32, que no es adecuada para seguimiento. Los autores modificaron la zancada de los dos últimos bloques, reduciendo la zancada total a 8 y aumentando el campo receptivo mediante convolución del agujero. Como se puede ver en la figura anterior, se utilizan las características de diferentes capas convolucionales de profundidad de ResNet y se agrega una capa convolucional adicional de 1 × 1 a cada salida de bloque, lo que reduce el número de canales de características a 256. Este elemento conserva todas las capas de relleno.