La Red de Conocimientos Pedagógicos - Currículum vitae - Descripción detallada del modelo UniLM

Descripción detallada del modelo UniLM

¿Uni? Entrenamiento previo del modelo de lenguaje educativo para la comprensión y generación del lenguaje natural

El marco del modelo se muestra en la figura anterior. En la etapa de preentrenamiento, el modelo UniLM aprende una red transformadora a través de tres modelos de lenguaje con diferentes funciones objetivas (incluido el modelo de lenguaje bidireccional, el modelo de lenguaje unidireccional y el modelo de lenguaje secuencia a secuencia). Para controlar el contexto visual de los tokens a predecir, se implementa mediante diferentes máscaras de autoatención. Es decir, se logran diferentes representaciones del modelo controlando el número de palabras de contexto visibles de las palabras predichas a través de diferentes máscaras, y el entrenamiento previo se lleva a cabo mediante las siguientes cuatro tareas:

Ingrese el texto en el Transformador red y calcule la salida correspondiente del vector, y luego use el clasificador softmax para predecir a qué token pertenece la máscara en el diccionario. Los parámetros del modelo UniLM se optimizan minimizando la entropía cruzada de los tokens predichos y los tokens estándar. Se pueden completar tres tipos de tareas cloze con diferentes modelos de lenguaje, entrenados con el mismo programa.

La secuencia de texto de entrada del modelo está marcada con [SOS] al principio y [EOS] al final. [EOS] Por un lado, se puede utilizar como marcador de límites en la tarea NLU y, por otro lado, puede permitir que el modelo aprenda cuándo finalizar el proceso de decodificación en la tarea NLG. Su representación de entrada es la misma que la de Bert, incluida la incrustación de tokens, la incrustación de posiciones y la incrustación de segmentos. Al mismo tiempo, la incrustación de fragmentos también se puede utilizar como indicador del método de entrenamiento utilizado por el modelo (unidireccional, bidireccional, secuencia a secuencia).

La red troncal consta de 24 capas de transformadores, y los vectores de entrada primero se transforman y luego se codifican de manera abstracta en diferentes niveles de representaciones de contexto mediante el uso de transformadores de capa L. En cada bloque, se utilizan múltiples cabezales de atención automática para agregar los vectores de salida de las capas anteriores. Para la primera capa, la salida del cabezal de autoatención se calcula de la siguiente manera:

Entre ellos, la salida de la capa anterior se proyecta linealmente en triples Consulta, Clave y Valor utilizando la matriz de parámetros. y un par de comandos se juzgan de acuerdo con la matriz de máscara si las tarjetas pueden atenderse entre sí.

Producir resúmenes concisos y fluidos que transmitan información clave en el texto de entrada es una tarea generativa en la que el resumen no se limita a reutilizar frases u oraciones del texto de entrada. Ajuste y evalúe el modelo utilizando versiones no anónimas del conjunto de datos de CNN/DailyMail y Gigaword. UniLM se afina como modelo de secuencia a secuencia al concatenar documentos (primer párrafo) y resúmenes (segundo párrafo) como entrada y truncarlos de acuerdo con una longitud máxima predefinida.

Hay dos formas de especificar párrafos para responder preguntas: la primera se llama control de calidad abstracto, suponiendo que la respuesta es un párrafo del artículo, la otra se llama control de calidad generativo y la respuesta debe generarse dinámicamente; .

Especifique el párrafo de entrada y el párrafo de respuesta. El objetivo es generar una pregunta que requiere una respuesta. Esta es una tarea NLG, probada utilizando el conjunto de datos SQuAD 1.1.

Dadas múltiples rondas de historial de diálogo y documentos web como fuentes de conocimiento, el sistema necesita generar respuestas en lenguaje natural que sean consistentes con el diálogo y reflejen el contenido de los documentos web. Esta es una tarea NLG y los experimentos se realizan en el conjunto de datos DSTC7.

UniLM se evalúa en GLUE Benchmark, una colección de nueve tareas de comprensión del lenguaje, que incluyen respuesta a preguntas, aceptabilidad del lenguaje, análisis de sentimientos, similitud de texto, detección de explicaciones e inferencia del lenguaje natural (NLI).

Se propone un modelo unificado de preentrenamiento UniLM, que optimiza conjuntamente los parámetros compartidos para múltiples objetivos LM. La unificación de LM bidireccionales, unidireccionales y de secuencia a secuencia permite a UniLM ajustar directamente el entrenamiento previo para tareas NLU y NLG. Los resultados experimentales muestran que UniLM supera a BERT en el punto de referencia GLUE y en dos conjuntos de datos de preguntas y respuestas. Además, UniLM supera a los modelos de última generación en cinco conjuntos de datos NLG: resumen de texto CNN/DailyMail y Gigaword, generación de preguntas SQuAD, generación de respuestas a preguntas CoQA y generación basada en conversaciones DSTC7. Sus ventajas se resumen a continuación:

/c/b14d4cb58c3b Nombre de la columna: Procesamiento del lenguaje natural ¡Bienvenido a enviar! ! !