La Red de Conocimientos Pedagógicos - Conocimientos educativos - [Ronda]Calificación asociada

[Ronda]Calificación asociada

Texto original:/enlace? URL = 9KX _ z-NR 7 nhyo 9 Rb 18v 8 JL 3 rjbl 3 TPU vs 3 NW gzxab 7-4 ult 4-seln 0i-juk 7 uu bdj _ lucsnlxtl 0 r 0 da 3 csaq & wd = & ampeqid = c 38628d 80000913b 000000055 F5 c 827 a

El algoritmo BM25 es una fórmula comúnmente utilizada para calificar la correlación y la idea es relativamente simple. Calcula principalmente la relevancia de todos los $ términos y documentos en una consulta y luego acumula las puntuaciones. La puntuación de relevancia de cada palabra se ve afectada principalmente por tf/idf. La fórmula es la siguiente:

Donde: es el valor de correlación entre cada palabra y el documento; representa $término en la consulta representa el documento relacionado es el componente del texto;

Se puede configurar externamente, el valor predeterminado es valor. La idea básica de la fórmula idf es que la importancia de una palabra es inversamente proporcional a su frecuencia de aparición en toda la colección de documentos. La fórmula es la siguiente:

Donde: es el número total de documentos; el número de documentos que contienen la palabra; 0,5 es el coeficiente de ajuste para evitar 0. El propósito de tomar el logaritmo es suavizar el valor del idf bajo la influencia de n y n.

Se puede ver en esta fórmula que cuanto mayor es el valor, menor es el valor.

La siguiente es la fórmula de La longitud promedio del valor es demasiado grande.

El factor izquierdo del producto representa la relación de frecuencia de las palabras en el documento y el factor derecho del producto representa la relación de frecuencia de las palabras en la declaración de consulta. En la mayoría de los casos, la palabra de consulta aparece una vez en la declaración de consulta, por lo que puede considerarse como 1. Como es 1, el factor correcto en realidad es igual a 1, por lo que la fórmula se puede simplificar como:

Después de simplificar la fórmula, se puede obtener:

Los factores que afectan la fórmula BM25 son

1: Cuanto mayor sea la puntuación, mayor será la puntuación.

2. Cuanto mayor sea la puntuación, mayor será la puntuación.

3: Si la longitud del documento en el nivel del documento es mayor, la puntuación será menor.

4 es el factor de ajuste de la puntuación.

Por lo general, un artículo se divide en varias partes, como título, contenido, descripción, ancla, etc. En la fórmula BM25F, estas partes se denominan campos. Hay dos artículos. La puntuación de correlación entre la parte del título de un artículo y el BM25 de la consulta es A, y la puntuación de correlación entre la parte del contenido de otro artículo y el BM25 de la consulta también es A. Suponga que otras partes de los dos artículos no son relacionado con la consulta, como regla general, la primera publicación generalmente debería ser más relevante que la primera publicación. BM25F presenta la información de cada dominio en la Parte D. Maneja la correlación de cada $término en cada dominio en la Parte D. La fórmula es la siguiente:

BM25 también se llama okapi BM25 y okatp es el suma de BM25 y fórmula de cálculo de correlación de fusión de proximidad de término $.

El peso del primer término $ en la consulta se define como:

Las definiciones que se pueden encontrar se parecen más al producto de la parte de la consulta en BM25 e IDF. La diferencia radica en el establecimiento de parámetros constantes. en el periódico.

La proximidad del término $ se define de la siguiente manera

Es la distancia en palabras entre el término de búsqueda y.

La siguiente fórmula refleja la fusión de BM25 y $term proximidad, y tf en BM25 se reemplaza por

La definición es la misma que BM25.

OkaTP se define en última instancia como

donde s es el conjunto de todas las combinaciones de pares de $term en la consulta.

El algoritmo es muy similar a OkaTP.

Entre ellos, TP es $term proximidad, y la información de proximidad se introduce en el algoritmo para optimizar el efecto de cálculo de correlación.

Supongamos que una consulta q contiene n $términos, que representan un artículo. La distancia entre dos posiciones diferentes de $términos en el artículo se expresa como .

Estos dos $terms

Nota: El primer $term de la consulta puede aparecer varias veces en el documento y se utiliza para cada aparición.

Consulte $TERM Proximity Scoring, recuperación ad hoc de colecciones de texto muy grandes de artículos originales.

Puede combinarlo con el artículo "Selective $TERM Proximity Scoring via BP-ANN" para Comprenda las dos fórmulas anteriores.

Este artículo cree que OkaTP tiene dos problemas: 1. La segunda mitad de la fórmula. OkaTP (puede verse como la banda sonora de la frase) se superpone con la parte anterior de BM25, es decir, aparecerá un término $ en ambas partes al mismo tiempo. 2. La combinación lineal de las puntuaciones de palabras individuales y las puntuaciones de; Las frases sueltas pueden romper la no linealidad de la característica de frecuencia de las palabras.

En base a estos dos puntos se propone el algoritmo newTP. El concepto de tramo se introduce en newTP. Span divide toda la lista de resultados en varios fragmentos según la posición de la palabra de consulta en el documento, y cada fragmento se denomina intervalo extendido. Las reglas para determinar el lapso son las siguientes.

Donde se considera establecido MAX_DIS.

Determine la contribución de $term a la relevancia en función de la densidad y la cantidad de términos de consulta en el intervalo. Reemplazando así las piezas tpi y tf en OkaTP.

La contribución de un $term t a la relevancia se expresa como:

Esto incluye:

La contribución de una prueba $term a la relevancia del El documento completo es:

Se puede ver que rc contiene información de proximidad y tf.

Utilice rc directamente para reemplazar tf en BM25 para obtener una nueva fórmula de cálculo relevante:

Entre ellos, TOP es el término $ proximidad secuencial. Este algoritmo está optimizado en base a BM25TP. Este algoritmo introduce información de orden de $term. Si dos $terms aparecen en la consulta en el orden opuesto del documento, serán penalizados, si están en el mismo orden, serán recompensados.

Se utiliza en el algoritmo BM25TP para calcular la proximidad, pero esta fórmula no es sensible al orden de $term. Se podría pensar que John es más rápido que Mary y Mary es más rápida que John.

Para explicar el algoritmo BM25TOP, se introducen las dos definiciones siguientes.

:Posición en consulta Q

:Posición en documento d

La nueva fórmula se utiliza para reemplazar en BM25TOP. Esta fórmula debe satisfacer las siguientes tres condiciones.

Los dos primeros elementos también pueden satisfacerse mediante la función dist en el algoritmo BM25TP, y el tercer elemento es aumentar la consideración del orden $term.

Hay muchas fórmulas que cumplen las tres condiciones anteriores. Este artículo selecciona la siguiente fórmula. El tamaño de

in

representa la distancia relativa entre y en el documento d. El signo indica si los dos $términos están en el mismo orden en la consulta y el documento, el signo más (+) indica el mismo orden y el signo (-) indica que los dos $términos están en el orden opuesto en el consulta y el documento.

La imagen cambia con la función de la siguiente manera:

[La imagen se está cargando...(Image-8d 6891-1599898211594-0)]

Nota: Proximidad El recíproco de sí, cuanto mayor es el valor, menor es la proximidad.

Como se puede ver en la figura anterior, cuanto mayor es la distancia entre dos $términos, mayor es la proximidad y menor es la proximidad;

Cuando dos pares de $términos son iguales en tamaño pero Un par de términos $ con un signo negativo (-) serán menos cercanos cuando los signos sean opuestos.

Las siguientes son las disposiciones razonables para el cálculo de BM25TOP:

Estos incluyen: