01 Modelo de tema-Esquema
En términos generales, si recibimos un artículo, es un artículo sin marcar. Se espera que los resultados de clasificación de los artículos se puedan obtener mediante algoritmos relacionados con el aprendizaje automático. Esta es nuestra intención original.
Como se mencionó anteriormente, en los algoritmos de agrupamiento tradicionales, cuando nuestros datos son lo suficientemente grandes y tienen muchas características, nuestra fórmula de medición de distancia pierde algo de significado. Es decir, los datos de alta dimensión enfrentarán el problema de la explosión dimensional, y la distancia entre los datos en las esquinas del espacio de alta dimensión no tiene sentido. Si la medida de distancia falla, los resultados del algoritmo de agrupamiento serán deficientes.
Por lo tanto, los algoritmos tradicionales no supervisados no pueden desempeñar un buen papel en el procesamiento de la clasificación de texto. Porque usaremos el método de bolsa de palabras y TF-IDF en el procesamiento de características de clasificación de texto. Estos métodos se basan en nuestro corpus para generar un vector de palabras del artículo actual, es decir, en función de la frecuencia / frecuencia de la palabra. que aparece en el artículo. El tamaño de cada elemento en la palabra vector.
Por el contrario, los vectores de palabras generados son escasos porque es imposible que un artículo contenga todas las frases del corpus. ¿Qué debo hacer en esta situación? Introducimos modelos temáticos para resolver el problema del fallo de alcance. Relativamente hablando, este resultado puede ser ligeramente mejor.
Sin embargo, el modelo temático es actualmente controvertido en la industria. Mucha gente también piensa que el modo temático no es muy eficaz. O se puede entender que no importa cuán bueno sea el modelo, no es tan bueno como el corpus. Es decir, un corpus de alta calidad ayudará a mejorar el efecto de la clasificación de artículos, sin importar el modelo que utilice.
A partir del modelo LSA, se deriva un modelo PLSA basado en probabilidad, que es esencialmente un modelo generativo.
Cuando hablábamos de estadística antes, pensábamos que había dos escuelas de estadística:
1. La escuela frecuentista de la estadística tradicional
2. Escuela de pensamiento de Sri Lanka.
De hecho, en la estadística tradicional creemos que la escuela frecuentista carece de condiciones a priori.
Bayes cree que todo en el mundo está determinado por algo anterior.
Así que el bayesiano tiene que considerar muchas condiciones previas. Es decir, P (A | B) = P (A) × P (B | A) / P (B) debe considerar primero la condición posterior B y luego considerar la probabilidad del evento A; p> El modelo LDA es un modelo temático que se obtiene agregando algunas condiciones previas basadas en el modelo PLSA.
La forma tradicional de juzgar la similitud de dos documentos es observar la cantidad de palabras que aparecen en los dos documentos, como TF-IDF. Este método no tiene en cuenta las asociaciones semánticas detrás de las palabras. Puede que haya pocas o ninguna palabra que aparezca junta en dos documentos, pero los dos documentos son similares.
Por ejemplo, existen las siguientes dos frases:
"Los trabajos nos dejaron".
"¿Bajará el precio de Apple?
De hecho, cualquiera con sentido común sabe que cuando el fundador de una empresa muere, significa que el precio de las acciones definitivamente caerá. Por lo tanto, las dos oraciones anteriores se refieren esencialmente a Apple, pero ninguna de las dos oraciones es la misma si se usa de la manera tradicional. Usando el método de bolsa de palabras, encontraremos que la similitud entre los dos artículos es 0. En este caso, debemos considerar el modelo de tema
El modelo de tema se utiliza para descubrir resúmenes. Temas en una serie de documentos. Modelo estadístico. Intuitivamente, si un artículo tiene una idea central, entonces debe haber algunas palabras específicas que aparezcan con más frecuencia. Por ejemplo, si un artículo es sobre Apple, entonces palabras como "Empleos" y. "IPhone" aparecerá con más frecuencia. La frecuencia de aparición será mayor si un artículo describe el Microsoft actual, las dos palabras "Windows" y "Microsoft" aparecerán con más frecuencia, pero en realidad, un artículo generalmente contiene una variedad de palabras. de temas, la proporción de cada tema es diferente. Por ejemplo, si el 10% de un artículo está relacionado con Apple y el 90% está relacionado con Microsoft, la cantidad de palabras clave relacionadas con Microsoft debe ser 9 veces mayor que la de Apple
El modelo de tema es un método que analiza automáticamente cada documento, cuenta las palabras del documento y determina qué temas contiene el documento actual y la proporción de cada tema en función de la información estadística.
El modelo de tema es un método de análisis del texto. Método de modelado de temas ocultos, cada tema es en realidad una distribución de probabilidad de palabras en el vocabulario.
El modelo de tema es un modelo generativo.
Cada palabra del artículo se obtiene mediante un proceso de "seleccionar un tema con una cierta probabilidad y luego seleccionar una palabra de este tema con una cierta probabilidad".
Simule las ideas de escritura de un escritor independiente;
1. El autor ha concebido muchos temas para escribir un artículo → hay un 72% de probabilidad de que elija "Apple" como tema. tema para escribir Un artículo → Hay un 0,23% de probabilidad de que haya escrito este artículo comenzando con la palabra "baloncesto". →El segundo párrafo comienza con la palabra "Iphone" con un 87% de probabilidad.
2. El autor ha concebido muchos temas para escribir artículos → elige "baloncesto" como tema para escribir un artículo con un 5% de probabilidad → escribe un artículo usando la palabra "cierta estrella" con un 90 % de probabilidad. →El segundo párrafo comienza con la palabra "Iphone" con una probabilidad del 0,035%.
Basándonos en nuestra comprensión de la sociedad, sabemos que la probabilidad de que la palabra "Iphone" aparezca en artículos escritos sobre el tema de Apple es mucho mayor que la de los artículos escritos sobre el tema del baloncesto. Por el contrario, al escribir artículos sobre baloncesto, es posible que la palabra iPhone no aparezca en absoluto.
Cuando queramos generar un tema para el artículo actual, lo buscaremos en la biblioteca de artículos. Por ejemplo, ahora es la temporada baja de la NBA y creemos que las noticias de la NBA aparecen relativamente raramente en la biblioteca de artículos de comunicados de prensa. Cuando Apple celebra un nuevo evento, imaginamos que habrá más artículos con temas de Apple en la biblioteca de artículos de noticias.
Esencialmente, las ideas de escritura de los dos autónomos que acabamos de construir son una red bayesiana.
Combinando estos conceptos básicos, veamos la siguiente fórmula:
Fórmula analítica:
Primero, cómo encontrar P (frase, tema, artículo) = ¿La probabilidad conjunta de P(w, t, d)?
El modelo de temas supera las deficiencias de los métodos tradicionales de cálculo de similitud de documentos en la recuperación de información y puede descubrir temas semánticos entre palabras en datos masivos. Los modelos de temas juegan un papel importante en el lenguaje natural y en la búsqueda de texto determinado.
¿Cómo genero un tema? ¿Cómo analizar el tema de un artículo? Este es el problema que los modelos temáticos quieren resolver.
02 Modelo de tema: descomposición matricial de descomposición de valores singulares, modelo LSA