La Red de Conocimientos Pedagógicos - Conocimientos universitarios - 2022-02-18

2022-02-18

[Contenido]

En el artículo "La atención es todo lo que necesita", el método de codificación posicional se menciona básicamente en una oración, sin una explicación detallada de por qué se debe agregar la codificación posicional a la autoatención y en -Codificación de artículos Beneficios del método.

El método de codificación de este artículo es el descrito en la fórmula anterior, donde el primer componente del vector de codificación es la dimensión del vector.

Aún no hay buenas respuestas a preguntas básicas como "¿Cómo apareció" y "¿Tiene que ser así?"

Para el modelo de autoenfoque, Sí = = Simetría = =. Suponiendo que el modelo es, ¿qué es un modelo simétrico, es decir, para cualquier entrada m y n?

Esta es la llamada simetría y también es la razón por la que el transformador no puede reconocer la posición. información - = =Simetría = =. En pocas palabras, las funciones satisfacen naturalmente las identidades.

Lo que debemos hacer ahora es romper esta simetría y tener en cuenta la información de posición, por ejemplo, agregar un vector de desplazamiento diferente para cada posición:

Siempre que se mantenga la codificación de cada una. posición Si el vector es diferente, esta simetría se rompe y se puede usar en su lugar para procesar la entrada ordenada (que combina la información de posición de cada token).

Actualmente, sólo los códigos de posición de M y N se consideran términos de perturbación, expansión de Taylor (segundo orden):

Según la expansión de Taylor, podemos ver que el primer término tiene nada que ver con la información de posición. Los elementos segundo a quinto se basan en una única información de posición (= =información de posición absoluta==). El sexto elemento contiene información sobre M y N y es el término de interacción entre ellos. Espero que pueda representar cierta == información de posición relativa ==.

Según la fórmula (3), se puede ver que el último dígito de la expansión es = = el término de interacción de las dos posiciones, lo que implica la información de posición relativa de las dos posiciones, entonces, ¿por qué puede ¿Expresar la información de posición relativa? ¿Paño de lana?

Asumiendo la matriz de identidad, esta vez es == el producto interno de dos códigos ==, esperamos que este término represente la información de posición relativa de las dos posiciones, es decir, == tiene una función == tal que.

En la arquitectura del transformador, la codificación posicional proporciona información de supervisión para modelar la dependencia de elementos en diferentes posiciones de la secuencia. Este artículo estudia varios métodos de codificación posicional en modelos de lenguaje basados ​​​​en transformadores y propone un nuevo método de codificación: el método de incrustación de posición rotada. Este enfoque utiliza una matriz de rotación para codificar información de posición absoluta y, naturalmente, incorpora la dependencia de la posición relativa en la formulación de autoatención.

RoPE tiene algunas características valiosas, como poder extenderse de manera flexible a secuencias de cualquier longitud, la dependencia entre tokens disminuirá gradualmente a medida que aumenta la distancia relativa y puede equiparse con información de posición relativa para Autoatención lineal.

Por lo tanto, los experimentos en este artículo muestran que el transformador mejorado con matriz de posición de rotación (RoFormer para abreviar) logra un mejor rendimiento en varias tareas de modelo de lenguaje.

El orden de las palabras de una secuencia juega un papel importante en el lenguaje natural. Los RNN recorre los pasos de tiempo para calcular la información del orden de las palabras del código de estado oculto. Las CNN generalmente no consideran la información del orden de las palabras, pero investigaciones recientes han demostrado que la información de posición se puede aprender implícitamente mediante operaciones de relleno generales.

En los últimos años, se ha demostrado que los modelos basados ​​​​en transformadores son efectivos en varias tareas de PNL, proporcionando mejores capacidades de paralelización que los RNN, y el modelo puede procesar mejor que los CNN Relaciones entre tokens largos.

Teniendo en cuenta que RNN y CNN no se utilizaron en "Transformers" y se demostró que la estructura de autoatención no tiene información de posición, se han propuesto muchos métodos diferentes para insertar información de posición en el modelo.

En el trabajo de este artículo.

Este artículo= =Envío= =: