La Red de Conocimientos Pedagógicos - Currículum vitae - Nuevo paradigma de PNL inmediata

Nuevo paradigma de PNL inmediata

Cuatro paradigmas en el desarrollo de la tecnología de procesamiento del lenguaje natural:

El origen de las indicaciones se remonta a algunas investigaciones, como GPT-2, T5, GPT-3, etc. Se descubrió que agregar un prefijo relacionado con la tarea antes de la muestra de entrada puede indicarle al modelo qué generar a continuación. Por ejemplo, en la etapa de predicción de GPT-3, solo necesita agregar la traducción del inglés al francés antes de ingresar la muestra, y puede solicitar al modelo que realice la tarea de traducción a continuación, es decir, depende completamente del conocimiento. aprendido por el modelo en la etapa previa al entrenamiento para la predicción Utilice el modelo directamente en la tarea sin depender de datos de supervisión específicos de la tarea. Por un lado, reduce los costos de computación y almacenamiento de los modelos de ajuste fino y, por otro lado, trae buenas noticias al campo de tiro cero/menos donde el tamaño de la muestra es extremadamente escaso.

Este método de confiar en indicaciones para estimular el potencial inherente del modelo y extraer el conocimiento aprendido por el modelo en la etapa de preentrenamiento a gran escala ha liderado el cuarto paradigma en el campo de la PNL. Poco a poco, la gente está comenzando a pensar en cómo utilizar de manera más eficiente una gran cantidad de parámetros de modelos de lenguaje previamente entrenados y en cómo unificar varias tareas posteriores en un marco común para que el modelo pueda realizar diferentes tareas en función de diferentes indicaciones de información, de modo que que no es necesario proporcionar cada uno en sentido descendente. La tarea es entrenar un modelo separado.

Este artículo presentará brevemente las innovaciones principales de algunos artículos importantes en el rápido desarrollo de Prompt y no describirá demasiados detalles del modelo en detalle (si desea conocer la imagen completa, se recomienda leer el artículo original directamente).

Tesis: Clasificación de textos a pequeña escala e influencia del lenguaje natural mediante preguntas cerradas (2020).

Este artículo estandariza la investigación sobre patrones de indicaciones y propone el concepto de descriptores de patrones:

Por ejemplo, para una tarea de clasificación de 5 clases, dada una muestra de entrada A, la plantilla correspondiente función P y etiqueta La función de mapeo V puede ser:

Tenga en cuenta que varias funciones de plantilla de mensajes y funciones de mapeo de respuestas se diseñan manualmente.

Luego, utilice P (x) y v (l) recién construidos para ajustar el modelo previamente entrenado, y otros detalles no se ampliarán. Los resultados experimentales muestran que este método funciona bien en tareas de muestra pequeñas.

Artículo: No es sólo el tamaño lo que importa: los modelos de lenguaje pequeños también preocupan a los estudiantes (equipo original favorito)

Después de la llegada de GPT-3, se demostró que con muy pocas muestras Tiene una capacidad de aprendizaje asombrosa, pero sus enormes parámetros también son prohibitivos. El autor de este artículo propuso que "los modelos pequeños también pueden tener un rendimiento sobresaliente en el aprendizaje de muestras pequeñas", apuntando directamente al gigante GPT-3, estableciendo así el dominio del paradigma propuesto por PET en la arena y atrayendo la atención de las principales artes marciales. cifras.

Este artículo demuestra la eficacia del paradigma propuesto por el PET. Al mismo tiempo, el autor también descubrió que el diseño de diferentes plantillas de indicaciones y verbalizadores de funciones de mapeo de etiquetas tuvo un gran impacto en el rendimiento del modelo, lo que provocó una afluencia de personas para mejorar la construcción de plantillas de indicaciones y verbalizadores de mapeo de etiquetas.

Tesis: Cómo hacer que los modelos de lenguaje previamente entrenados sean mejores para los estudiantes únicos

En lugar de construir manualmente plantillas de mensajes y funciones de mapeo de etiquetas en PET, busque automáticamente plantillas y mapeo de etiquetas. Al mismo tiempo, en referencia al aprendizaje situacional en el Protocolo GPT-3, se agregan demostraciones como situaciones para ayudar al modelo a comprender mejor qué hacer.

Los experimentos muestran que este tipo de ajuste fino basado en sugerencias es significativamente mejor que el ajuste fino estándar en una pequeña cantidad de muestras, y agregar instancias a las muestras puede traer beneficios.

No es necesario crear sugerencias discretas en forma de tokens que un humano pueda entender, pero también es posible crear sugerencias continuas en forma de vectores que el modelo pueda aceptar.

4.1 Artículo: Ajuste de prefijo: optimización de los mensajes continuos generados

Este artículo propone un método de mensaje continuo para la tarea NLG. Agregue una matriz de prefijos a cada capa del modelo previamente entrenado, corrija los parámetros del modelo previamente entrenado y entrene solo los parámetros de la matriz de prefijos. En configuraciones bajas, el rendimiento supera el ajuste fino estándar.

Los resultados experimentales muestran que el ajuste fino basado en indicaciones puede lograr un efecto de ajuste fino bastante estándar; cuando hay pocas muestras, puede exceder el ajuste fino estándar.

4.2 Documento: GPT también comprende (P-tuning)

Para las tareas de NLU, este documento también propone crear indicaciones continuas. A diferencia del ajuste de prefijo, la sugerencia aquí solo debe agregarse a la capa de entrada, no a todas las capas de la red, por lo que funciona bien.

Utilice biLSTM para codificar las señales, luego introduzca las incrustaciones de señales codificadas y las muestras x en un modelo de lenguaje previamente entrenado (PLM) y luego ajuste las incrustaciones de señales y el modelo previamente entrenado simultáneamente.

Considerando que existen dos problemas al optimizar los vectores de referencia continuos:

Por lo tanto, el autor propone utilizar biLSTM como codificador de referencia para codificar los vectores de referencia.

El diseño de la plantilla de mensajes específicos es el siguiente:

Los resultados experimentales muestran que el ajuste fino basado en mensajes puede lograr o incluso superar el efecto del ajuste fino estándar.

Artículo: El poder de la escala para un ajuste rápido eficiente en los parámetros

En este artículo, proponemos diseñar sus propias sugerencias para cada tarea posterior, unirlas en las muestras de entrada y luego congele completamente los pesos del modelo y entrene solo los parámetros de peso correspondientes a las indicaciones. Se descubre que a medida que aumenta el volumen del modelo, el efecto del ajuste fino rápido alcanza gradualmente el efecto del ajuste fino estándar.

Aquí el ajuste del modelo se refiere al ajuste fino estándar, es decir, la actualización de los parámetros del modelo previamente entrenado en tareas posteriores.

Finalmente se resumen las reglas generales de los resultados experimentales de cada artículo. Las estrategias de ajuste utilizadas en cada artículo incluyen principalmente los siguientes tres tipos: