[Modelo] ¿Qué es el modelo Burt?
El modelo bidireccional se utiliza en el campo del procesamiento del lenguaje natural desde hace mucho tiempo. Estos modelos implican dos órdenes de visualización de texto: de izquierda a derecha y de derecha a izquierda. ¿La innovación de BERT es aprender la representación bidireccional con la ayuda de Transformer, que es un componente de aprendizaje profundo, diferente de la red neuronal recurrente? (RNN) depende de la secuencia y puede procesar la secuencia completa en paralelo. Como resultado, se pueden analizar conjuntos de datos más grandes y se puede acelerar el entrenamiento de modelos. Transformer puede aprovechar los mecanismos de atención para recopilar información sobre el contexto de las palabras y codificarla con vectores ricos que representan el contexto, procesando así todas las palabras relacionadas con otras palabras en una oración simultáneamente (en lugar de por separado). El modelo puede aprender cómo cada dos palabras de un párrafo de cláusula derivan el significado de una palabra determinada.
Las técnicas de incrustación de palabras anteriores, como GloVe y Word2vec, funcionan sin contexto, generando una representación de cada palabra en una secuencia. Por ejemplo, la palabra "murciélago" se expresa de la misma manera ya sea que se refiera a equipos deportivos o a animales nocturnos. ¿ELMo a través del modelo de memoria bidireccional a corto y largo plazo? (LSTM), que introduce una representación contextual profunda de cada palabra en una oración basada en otras palabras de la oración. Pero a diferencia de BERT, ELMo considera los caminos de izquierda a derecha y de derecha a izquierda por separado, en lugar de tratarlos como una visión unificada de toda la situación.
Debido a que la mayoría de los parámetros de BERT están dedicados a crear incrustaciones de palabras contextuales de alta calidad, el marco es muy adecuado para el aprendizaje por transferencia. Al entrenar a BERT con tareas de autocontrol, como el modelado del lenguaje (tareas que no requieren anotaciones humanas), podemos utilizar grandes conjuntos de datos sin etiquetar, como WikiText y BookCorpus, que contienen más de 3.300 millones de palabras. Para aprender otras tareas (como responder preguntas), la última capa se puede reemplazar y ajustar con algo adecuado para la tarea correspondiente.
Las flechas en la figura siguiente representan el flujo de información de una capa a la siguiente en tres modelos de PNL diferentes.
El modelo BERT puede comprender los matices de la expresión con mayor precisión. Por ejemplo, al procesar la secuencia "Bob necesita algún medicamento. Tiene malestar estomacal. ¿Puedes traerle algunos antiácidos?". Bert puede comprender mejor que "Bob", "su" y "su" se refieren a la misma persona. . Anteriormente, al consultar "cómo surtir la receta de Bob", es posible que el modelo no entienda que la persona a la que se hace referencia en la segunda oración era Bob. Después de aplicar el modelo BERT, el modelo puede comprender la relación entre todos estos puntos relacionados.
El entrenamiento bidireccional es difícil de lograr porque, de forma predeterminada, cada palabra se ajusta para incluir las palabras predichas en el modelo multicapa en función de la palabra anterior y la siguiente. Los desarrolladores de BERT resolvieron este problema enmascarando palabras predichas y otras palabras aleatorias en el corpus. BERT también utiliza una técnica de entrenamiento simple para intentar predecir, dadas dos oraciones A y B: si B y A son secuenciales o aleatorios.