La Red de Conocimientos Pedagógicos - Currículum vitae - Comparación ViT transformador oscilante2021-05-18

Comparación ViT transformador oscilante2021-05-18

Una imagen vale 16X16 palabras:

Transformadores para el reconocimiento de imágenes a gran escala

https://arxiv.org/pdf/2010.11929.pdf

Este trabajo "Visual Transformer" se basa en el modelo de transformador que brilla en el campo de la PNL y maneja tareas en el campo visual. El autor convierte los datos de la imagen 2D de una manera simple en una forma similar a la secuencia de oraciones procesada en Transformer, y luego usa el codificador Transformer para extraer características.

El papel de Transformer se llama Atención es todo lo que necesitas. Ahora, cuando se trata de atención en el campo del aprendizaje profundo, podemos pensar en el mecanismo de autoatención de Transformer. De hecho, el mecanismo de atención se aplicó originalmente a redes neuronales recurrentes y la autoatención puede considerarse una versión más general. La atención es inicialmente una función de estados ocultos intermedios en un marco codificador-decodificador. La atención propia, por otro lado, no se preocupa por los estados ocultos, sino que solo se centra en las dependencias entre vectores en la secuencia de entrada. Transformer da una fórmula muy concisa.

Cuando ves softmax, sabes que estás buscando probabilidad. v representa un valor numérico y QK representa una operación de búsqueda en el diccionario. Pero sigue siendo muy abstracto. Si quieres entenderlo, debes descomponer la matriz en vectores. Este es un blog sobre transformadores visuales. https://jalammar.github.io/illustrated-transformer/

Tengo entendido que el vector original se codifica tres veces y luego, al calcular los resultados de atención, uno de los códigos solo está relacionado consigo mismo. , que representa las características del token, y los otros dos códigos se utilizan para hacer coincidir los códigos de otros vectores en la secuencia para obtener el grado de correlación entre el vector actual y otros vectores.

La razón principal por la que la convolución es visualmente dominante es el campo receptivo local, y la forma de convolución es muy adecuada para el procesamiento de datos de imágenes. El campo receptivo de convolución es limitado y solo se puede obtener un campo receptivo grande a través de múltiples capas de abstracción. Sostengo que la autoatención puede entenderse como una ponderación selectiva en los insumos globales. Este proceso se repite muchas veces, que es el mecanismo de autoatención del toro.

El código final es el siguiente:

Correspondiente:

Ahora la entrada de la imagen se ha convertido en la forma de secuencia de palabras de procesamiento de transformador a través de lo anterior. procesamiento y el resultado final son las características relacionadas con cada parche en la imagen que se obtienen directamente a través de múltiples procesos a través del mecanismo de atención de múltiples cabezales. Equivale a reemplazar la capa convolucional para completar la extracción de características y obtener Z_L.

Sin operaciones de convolución, la capacitación requiere muchos menos recursos informáticos.

ViT puede ser muy eficaz si se entrena previamente con un gran conjunto de datos.

El rendimiento del modelo ViT es mejor que la última tecnología de la misma magnitud.

https://arxiv.org/pdf/2103.14030.pdf

A diferencia de agregar códigos de posición absoluta a la secuencia de entrada en ViT, swinTransformer utiliza desplazamientos de posición relativa, a los que se agregan cambios. operaciones de consulta dentro de la atención. El artículo realizó experimentos y descubrió que si se utilizan ambos métodos al mismo tiempo, el rendimiento disminuirá.