La Red de Conocimientos Pedagógicos - Conocimientos educativos - Número 33 de la semana de capacitación previa: Adaptación jerárquica eficiente de modelos de lenguaje previamente entrenados

Número 33 de la semana de capacitación previa: Adaptación jerárquica eficiente de modelos de lenguaje previamente entrenados

Acerca de la revista semanal

Este número selecciona 9 artículos relacionados con la capacitación previa, que cubren la transferencia de vocabulario, preguntas y respuestas de sentido común, capacitación multimodal, capacitación jerárquica, aprendizaje comparativo, segmentación de imágenes, modelos gráficos y proteína Exploración de su papel y expresión de características inmunes. Además, en términos de tendencias de investigación, hemos seleccionado dos piezas de información de capacitación temprana y presentaremos el contenido más reciente de algunas competencias de modelos a gran escala y revisiones anuales de algoritmos visuales. Finalmente, en términos de recomendación de recursos, seleccionamos 1 recurso de capacitación previa, que presentará algunos de los contenidos más recientes de resúmenes en varios idiomas.

Colaboradores de este número: Shen Dezhou, Zhai Ke, Wu Xingang

Artículos recomendados

Tema: Yandex ruso, Facebook, etc. | Ajuste de transformadores | : Transferencia de voz humana (Ajuste de transformadores: transferencia léxica)

Introducción: este artículo analiza una de las exploraciones del aprendizaje por transferencia desencadenada por el ajuste de enormes modelos previamente entrenados para tareas posteriores: la transferencia léxica. Transformer se ha convertido en la corriente principal absoluta en el último desarrollo del procesamiento del lenguaje natural. La mayoría de las aplicaciones prácticas de procesamiento del lenguaje natural de estos modelos generalmente se implementan mediante aprendizaje por transferencia. Este artículo investiga si las anotaciones específicas del corpus mejoran el rendimiento final del modelo. A través de una serie de experimentos de transferencia y optimización de vocabulario, los autores demuestran que esta estrategia de transferencia y optimización de vocabulario puede mejorar el rendimiento de lo que los autores llaman el modelo: esta dirección de transferencia de vocabulario ha sido pionera en el campo del aprendizaje por transferencia.

Dirección del artículo: "Enlace"

Título: Universidad de California | Preguntas y respuestas de sentido común con voto cero sobre traducción cloze y optimización de la coherencia.

Introducción: este artículo toma la respuesta a preguntas con sentido común (CQA) como dirección para estudiar la extracción de conocimiento en modelos de lenguaje previamente entrenados. Los autores se centran en utilizar mejor el conocimiento almacenado en modelos de lenguaje previamente entrenados. Si bien los investigadores descubrieron que es posible extraer el conocimiento incorporado en modelos de lenguaje previamente entrenados llenando los vacíos con claves de clasificación de texto y extracción de relaciones cuidadosamente diseñadas, no está claro si los autores pueden adoptar este paradigma en CQA con entradas y controles más flexibles. formularios de salida. Por lo tanto, los autores estudiaron cuatro métodos de traducción que pueden traducir preguntas naturales en oraciones cerradas para obtener mejor conocimiento común de los modelos de lenguaje, incluidos modelos basados ​​​​en sintaxis, modelos neuronales no supervisados ​​​​y dos modelos neuronales supervisados. Además, para combinar diferentes métodos de traducción, los autores sugieren fomentar el uso de datos sin etiquetar para predecir la coherencia de diferentes problemas de traducción. Los experimentos con tres conjuntos de datos CQA demuestran la eficacia de este método.

Dirección del artículo: "Enlace"

Título: Universidad de Wisconsin, Microsoft, etc. | Recorte de región: entrenamiento previo de imágenes de lenguaje basado en regiones.

Introducción: este artículo estudia un modelo de preentrenamiento de imágenes de lenguaje basado en el reconocimiento de áreas de imágenes. El preentrenamiento de imágenes (CLIP) es un lenguaje comparativo de "pares de imagen y texto" que ha logrado resultados impresionantes en la clasificación de imágenes de disparo cero y el aprendizaje por transferencia. Sin embargo, los autores muestran que la aplicación directa del modelo para identificar regiones de la imagen para la detección de objetos dará como resultado un rendimiento deficiente debido al cambio de dominio: CLIP está entrenado para hacer coincidir la imagen en su conjunto con una descripción textual sin capturar la imagen en su totalidad. -Alineación detallada entre regiones y tramos de texto. Para aliviar este problema, los autores proponen un nuevo método llamado RegionCLIP, que extiende significativamente CLIP para aprender representaciones visuales regionales para lograr una alineación detallada entre regiones de imágenes y conceptos de texto. Nuestro enfoque utiliza un modelo CLIP para hacer coincidir las regiones de la imagen con los títulos de la plantilla y luego entrena previamente nuestro modelo para alinear estos pares de región-texto en el espacio de características. Cuando nuestro modelo previamente entrenado se transfiere a la tarea de detección de objetos de vocabulario abierto, nuestro método supera significativamente al estado del arte en 3.8 AP50 y 2.2 AP en los conjuntos de datos COCO y LVIS, respectivamente.

Dirección del papel: "Enlace"

Dirección del código: