Modelo de lenguaje previamente entrenado para extracción y generación de eventos
Dirección original: https://www.aclweb.org/anthology/P19-1522.pdf.
El objetivo de la extracción de eventos es identificar los desencadenantes y los parámetros del evento. La siguiente imagen muestra una oración que contiene un evento de tipo "Reunión" cuyo desencadenante del evento es "reunión" y sus dos parámetros son "Presidente Bush" y "Varios líderes árabes".
Hay dos problemas principales que deben resolverse en la extracción de eventos:
La estructura del modelo propuesta en este artículo se muestra en la siguiente figura:
El El objetivo del extractor de palabras desencadenantes es predecir si una palabra puede desencadenar un evento. Por lo tanto, este artículo trata la extracción de palabras desencadenantes como una tarea de clasificación a nivel de palabras y solo utiliza BERT para construir un clasificador como extractor de palabras desencadenantes. La entrada del modelo es solo una oración, y [CLS] y [SEP] se agregan al principio y al final de la oración respectivamente.
En muchos casos, la palabra desencadenante de un evento es una frase, por lo que este artículo trata varias palabras consecutivas con la misma etiqueta de predicción como una palabra desencadenante. Este artículo utiliza la entropía cruzada como función de pérdida para ajustar el modelo.
El objetivo del extractor de argumentos es extraer argumentos relevantes en función de los desencadenantes de eventos y todas las funciones que desempeñan los argumentos. En comparación con la extracción de palabras desencadenantes, la extracción de argumentos es más complicada por tres razones principales.
Para resolver los dos últimos problemas, este artículo agrega varios conjuntos de clasificadores binarios basados en BERT. Cada clasificador se utiliza para determinar el alcance de un rol, es decir, qué parámetros reales pertenecen a este rol.
Este artículo utiliza un clasificador binario para determinar si una palabra es el principio o el final de un argumento, y la palabra determinada está representada por la incrustación BERT.
Este artículo primero calcula los valores iniciales de la función de pérdida de entropía cruzada L_s de los dos clasificadores que identifican el comienzo del argumento y la función de pérdida de entropía cruzada L_e de los dos clasificadores que identifican el final del argumento y luego los toma. El valor promedio de se utiliza como valor inicial de la pérdida del extractor de argumentos.
Teniendo en cuenta que diferentes tipos de roles argumentales tienen diferentes frecuencias, calcule la frecuencia del rol RF y la frecuencia inversa del evento IEF, y calcule la importancia del rol en el evento en función de estos dos valores. Y aplique esta importancia al cálculo de L s y l e.
El diagrama de flujo de generación de datos se muestra en la siguiente figura.
Este artículo utiliza el conjunto de datos ACE2005 como datos experimentales. Los resultados experimentales se muestran en la siguiente figura: