Conocimientos básicos y resumen de PNL
Un modelo que asigna probabilidades a secuencias de palabras se llama modelo de lenguaje.
En términos generales, un modelo de lenguaje es un modelo que puede calcular la probabilidad de que cualquier secuencia de palabras sea una oración. O un modelo de lenguaje puede predecir cuál será la siguiente palabra en una secuencia de palabras.
** Modelo de lenguaje de n-gramas**
El modelo de N-grama es un modelo de lenguaje estadístico típico y un modelo discriminante basado en probabilidad. Los modelos estadísticos de lenguaje tratan un idioma (una secuencia de palabras) como un evento aleatorio y dan las probabilidades correspondientes para describir la posibilidad de que pertenezca a un determinado conjunto de idiomas. Dado un conjunto de vocabulario v, para una secuencia de palabras en v, S =? w1,,peso? ∈ Vn, el modelo estadístico del lenguaje le da a esta secuencia una probabilidad P(S) para medir la confianza de que S se ajusta a las reglas gramaticales y semánticas del lenguaje natural. En pocas palabras, un modelo de lenguaje estadístico es un modelo que calcula la probabilidad de una oración.
El modelo N-gram puede aliviar el problema causado por la secuencia de palabras que no aparece en el conjunto de entrenamiento, es decir, el problema de la escasez de datos.
Problema del modelo de n-gramas
Las dos páginas de ppt comprenden claramente el problema del modelo de n-gramas.
El modelo N-gram se basa en el supuesto de que la aparición de la palabra actual solo está relacionada con las N-1 palabras anteriores y no tiene nada que ver con ninguna otra palabra. La probabilidad de la oración completa. es la probabilidad de aparición de cada palabra. Estas probabilidades se pueden obtener contando el número de co-ocurrencias de n palabras directamente del corpus. Normalmente se utilizan bigramas (N=2) y trigramas (n=3). El bigrama satisface la hipótesis de Markov.
Los modelos N-arios utilizados habitualmente incluyen modelos binarios y modelos ternarios. Se expresan de la siguiente manera:
Bigrama: P(T)= P(w 1 | comenzar)P(w2 | w 1)P(w3 | w2)* * * P(wn | wn-1 )
Triple: P(T)=p(w1|comienzo1, comienzo2) p(w2|w1, comienzo 1)P(w3 | w 2w 1)* * * P(wn | wn -1 , wn-2)
Tenga en cuenta el método de cálculo de la probabilidad anterior: P(w1|begin)=aparecen todas las oraciones que comienzan con w1/número total de oraciones P (w2 | w1) = w1, w2; al mismo tiempo Aparece el número de veces/w 1. Etcétera.
Para estos cálculos, dé un ejemplo:
Como se puede ver en lo anterior, el comienzo de la fórmula de cálculo de dos letras generalmente debe agregarse con una N p>
Problemas en metasintaxis:
Dé algunos ejemplos para ilustrar: Supongamos que tenemos un corpus (observe el corpus), como sigue:
Las tasas son realmente molestas. Las ratas son feas. Tú amas a tu esposa, yo odio las ratas.
Me gustaría predecir la siguiente palabra de la frase "Me encanta envejecer". Utilizamos modelos binarios y modelos ternarios para la predicción, respectivamente.
1) A través de bigram, es necesario calcular P (w | Lao). Según las estadísticas, "rata" aparece tres veces y "esposa" aparece una vez. Mediante estimación de máxima verosimilitud, P(rata|vieja)=0,75 y P(anciana|vieja)=0,25.
2) Calcular P(w|爱老) mediante el modelo ternario. Según las estadísticas, "Mi esposa" apareció sola una vez. Mediante estimación de máxima verosimilitud, P (mujer | amo a los ancianos) = 1, por lo que la oración completa que predecimos mediante el modelo ternario es: Amo a mi esposa. Obviamente, estos resultados de predicción son más razonables.
Pregunta 1: A medida que N aumenta, tenemos más información previa y podemos predecir la siguiente palabra con mayor precisión. Pero esto también crea un problema. Cuando N es demasiado grande, es fácil que algunos N-gramas nunca hayan aparecido, lo que da como resultado que muchos resultados de probabilidad predichos sean 0. Este es un problema de escasez. En el uso real, a menudo solo se utilizan modelos binarios o ternarios. (Este problema se puede aliviar suavizando. Referencia: /s/nvwb9h71 juifyl _ or _ ENA)
Problema 2: al mismo tiempo, debido al problema de escasez final, N-gram no puede obtener el largo -término dependencias del contexto.
Problema 3: n-gram genera estadísticas basadas en la frecuencia y su capacidad de generalización es insuficiente.
Resumen de N-gram: el modelo de lenguaje estadístico calcula el valor de probabilidad de una oración. La probabilidad de toda la oración es el producto de la probabilidad de aparición de cada palabra. Cuanto mayor sea el valor de probabilidad, más razonable será la oración. N-gram es un modelo de lenguaje estadístico típico. Supone que la aparición de la palabra actual solo está relacionada con las primeras N-1 palabras y no tiene nada que ver con ninguna otra palabra. La probabilidad de que ocurra toda la oración. probabilidad de cada palabra. Hay muchos problemas aquí. Al calcular la probabilidad de cada palabra, a medida que n aumenta, hay más información previa disponible, lo que puede hacer que la predicción de la palabra actual sea más precisa. Pero si n es demasiado grande, se producirá escasez, lo que hará que el valor de probabilidad de muchas palabras sea 0. Para resolver este problema se suelen utilizar modelos binarios o ternarios, lo que conduce a una dependencia a largo plazo de los modelos N-arios. Por otro lado, N-gram se basa únicamente en estadísticas de frecuencia y no tiene suficiente capacidad de generalización.
Modelo de lenguaje de red neuronal
Bengio propuso en 2003 que la idea del modelo de lenguaje de red neuronal (NNLM) es proponer el concepto de vector de palabras y reemplazar ngram con variables discretas ( alta dimensión). El uso de variables continuas (vectores reales con una determinada dimensión) para representar palabras de manera distribuida resuelve el problema de la explosión de dimensionalidad. Al mismo tiempo, la similitud entre palabras se puede obtener a través de vectores de palabras.
Como se puede ver en la figura siguiente, la tarea del modelo de lenguaje que establece es predecir la siguiente palabra en función del tamaño de la ventana según lo anterior, por lo que desde otra perspectiva, es una red neuronal. modelo de n-grama codificado.
Es la red neuronal más simple, que consta de solo cuatro capas: capa de entrada, capa de incrustación, capa oculta y capa de salida. (Para verlo desde otra perspectiva, es un modelo n-ario codificado mediante una red neuronal).
La entrada es una secuencia de índices de una secuencia de palabras. Por ejemplo, el índice de la palabra "esto" en el diccionario (de tamaño ∣V∣) es 10, el índice de la palabra "sí" es 23 y el índice de "prueba" es 65, por lo que la oración "esto" es una prueba" pasa el tamaño de la ventana "esto es una prueba" dentro de predice "intentar". La capa de incrustación es una matriz de tamaño ∣V∣×K (nota: el tamaño de k lo establece usted mismo. Esta matriz es equivalente a un vector de palabras inicializado aleatoriamente y se actualizará en pb. Esta parte es posterior a la neuronal Se completa el entrenamiento de la red. vector de palabras), saque 10, 23 y 65 vectores de fila para formar una matriz de 3 × K. La capa oculta acepta la salida de la capa de incrustación concatenada como entrada, usa tanh como función de activación y finalmente se envía a la capa de salida usando softmax. Las probabilidades de salida se optimizan para maximizar el valor softmax correspondiente de la palabra que se va a predecir.
Desventajas: dado que el modelo de lenguaje utiliza entrenamiento de red neuronal feedforward, la desventaja obvia es que hay demasiados parámetros y la cantidad de cálculo de softmax es demasiado grande. Por otro lado, NNLM es un modelo n-ario codificado intuitivamente por redes neuronales y no puede resolver el problema de la dependencia a largo plazo.
RNNLM
Entrena un modelo de lenguaje a través de RNN y su red variante, y su tarea es predecir la siguiente palabra a través de la anterior. En comparación con NNLM, tiene la ventaja de utilizar RNN, que tiene ventajas naturales en el procesamiento de datos de secuencia. La red RNN rompe la limitación de la ventana de contexto y utiliza el estado de la capa oculta para resumir toda la información del contexto histórico. En comparación con NNLM, puede capturar dependencias más largas y lograr mejores resultados en los experimentos. RNNLM tiene menos hiperparámetros y es más versátil; sin embargo, debido al problema de dispersión de gradiente de RNN, es difícil capturar información de dependencia a larga distancia;
CBOW y skip-gram en Word2vec, donde CBOW predice la palabra central a través del contexto dentro del tamaño de la ventana, mientras que skip-gram hace lo contrario y predice el contexto dentro del tamaño de la ventana a través de la palabra central de entrada.
Glove es un modelo de lenguaje estadístico que entrena vectores de palabras a través del conocimiento estadístico.
ELMO utiliza un LSTM bidireccional multicapa (generalmente dos capas) para entrenar un modelo de lenguaje. Su tarea es utilizar el contexto para predecir la palabra actual. La información anterior se obtiene mediante LSTM directo y la siguiente información se obtiene mediante LSTM inverso. Esta bidireccionalidad es una bidireccionalidad débil, por lo que no se obtiene información contextual real.
GPT entrena el modelo de lenguaje a través de Transformer. El modelo de lenguaje que entrena es unidireccional, por lo que puede predecir la siguiente palabra a través de la anterior.
Burt entrenó MLM a través de Transformers, un verdadero modelo de lenguaje bidireccional. El modelo de lenguaje que entrena es predecir la palabra actual según el contexto.
La introducción detallada de las partes anteriores se menciona en el artículo de capacitación temprana de PNL
Indicadores de evaluación de modelos de lenguaje
Consulte el método de posición, SVD) para encontrar una aproximación de matrices de orden bajo.
Modelo de análisis semántico latente probabilístico (PLSA)
El modelo de análisis semántico latente probabilístico (PLSA) en realidad se propone para superar algunas deficiencias del modelo de análisis semántico latente (LSA). Un problema fundamental con LSA es que aunque podemos tratar cada columna de U k y V k como una pregunta, dado que los valores en cada columna pueden verse como valores reales casi infinitos, no podemos explicar con más detalle qué significan estos valores. , y este modelo no puede entenderse desde una perspectiva probabilística.
El modelo PLSA da a LSA una explicación probabilística a través del modelo generativo. Este modelo supone que cada documento contiene una serie de posibles temas potenciales. Cada palabra del documento no se genera de la nada, sino que se genera con una cierta probabilidad bajo la guía de estos temas potenciales.
En el modelo PLSA, un tema es en realidad una distribución de probabilidad sobre una palabra. Cada tema representa una distribución de probabilidad sobre una palabra diferente, y cada documento puede considerarse como una distribución de probabilidad sobre un tema. Cada documento se genera mediante una distribución de probabilidad de dos niveles, que es la idea central del modelo generativo propuesto por PLSA.
PLSA simula la distribución conjunta de d y w mediante la siguiente fórmula:
El número *z* en este modelo es un hiperparámetro que debe proporcionarse con anticipación. Cabe señalar que en la fórmula anterior se dan dos expresiones de P (w, d). En la primera fórmula, *d* y w se generan mediante probabilidad condicional bajo el *z* dado. Sus métodos de generación son similares, por lo que son "simétricos" en la última fórmula, d se da primero y luego de acuerdo con; P (z | d) genera un posible tema Z y luego genera una posible palabra W basada en P (w | z). Debido a que la generación de palabras y documentos en esta fórmula no es similar, es "asimétrica".
La figura superior muestra la representación del símbolo de la placa asimétrica en el modelo PLSA. donde d representa el documento, z representa el tema generado por el documento y w representa la palabra generada por el tema. En este modelo, D y W son variables observadas y Z es una variable desconocida (que representa temas potenciales).
Podemos encontrar fácilmente que para un documento nuevo, no podemos saber cuál es su P (d) correspondiente, por lo que aunque el modelo PLSA es un modelo generativo sobre un documento determinado, no puede generar un nuevo documento desconocido. . Otro problema con este modelo es que a medida que aumenta el número de documentos, los parámetros de P (z | d) aumentarán linealmente, lo que conduce al problema de sobreajuste del modelo sin importar cuántos datos de entrenamiento haya. Estos dos puntos se han convertido en dos defectos importantes que limitan la aplicación más amplia del modelo PLSA.
Modelo de análisis de Dirichlet latente
Para resolver el problema de sobreajuste en el modelo PLSA, Blei et al propusieron el modelo de distribución de Dirichlet latente (LDA), que también se ha convertido en. El modelo temático es el modelo más utilizado en el campo de la investigación. LDA es un marco bayesiano basado en PLSA, es decir, LDA es la versión bayesiana de PLSA (solo porque LDA es bayesiano, debe considerar el conocimiento histórico previo y agregar dos parámetros previos).
Podemos ver en la sección anterior que en el modelo PLSA, para un nuevo documento desconocido D, no sabemos nada sobre P (d), que en realidad es inconsistente con la experiencia humana. Es decir, no utiliza la información que podría haberse utilizado. Esta parte de la información es la denominada información previa en LDA.
Específicamente, en LDA, primero, cada documento se considera más o menos relevante para cada uno de un número limitado de temas determinados, y esta relevancia se describe mediante distribuciones de probabilidad sobre los temas, lo que en realidad es consistente con PLSA.
Sin embargo, en el modelo LDA, la distribución de probabilidad de cada documento sobre el tema recibe una distribución previa, que generalmente está representada por una distribución Dirichlet dispersa.
Esta forma escasa de Dirichlet prior puede verse como una especie de conocimiento previo que codifica a los humanos: en términos generales, el tema de un artículo se concentra más en unos pocos temas y rara vez se dice que se tratan muchos temas simultáneamente en un artículo sin un enfoque claro. .
Además, el modelo LDA también proporciona una escasa aproximación de Dirichlet sobre la distribución de probabilidad de un tema sobre todas las palabras, y su explicación intuitiva es similar: en un solo tema, en la mayoría de los casos, un pequeño número de Las palabras (muy relevantes para este tema) aparecerán con mucha frecuencia, mientras que otras palabras aparecerán con mucha menos frecuencia. Estos dos antecedentes permiten que el modelo LDA describa la relación entre documentos, temas y palabras mejor que el modelo PLSA.
De hecho, a juzgar por los resultados de PLSA, en realidad equivale a convertir la distribución previa en el modelo LDA en una distribución uniforme y luego obtener la estimación posterior máxima de los parámetros requeridos (cuando la distribución anterior es uniforme Bajo la premisa de distribución, esto también equivale a obtener la estimación de máxima verosimilitud de los parámetros), lo que también refleja que un a priori más razonable es muy importante para el modelado.
La segmentación de palabras es el proceso de recombinar secuencias continuas de palabras en secuencias de palabras de acuerdo con ciertas especificaciones.
Los algoritmos de segmentación de palabras existentes se pueden dividir en tres categorías: segmentación de palabras basada en la coincidencia de cadenas, segmentación de palabras basada en la comprensión y segmentación de palabras basada en estadísticas.
Según se combine con el proceso de etiquetado de partes del discurso, se puede dividir en un método simple de segmentación de palabras y un método integral que combina la segmentación de palabras y el etiquetado.
La segmentación de palabras chinas se divide principalmente en las siguientes dos categorías según los principios y características de implementación:
Algoritmo de segmentación de palabras basado en diccionario (1)
También conocido como algoritmo de segmentación de palabras que coinciden con cadenas. El algoritmo hace coincidir la cadena que debe coincidir en el diccionario "suficientemente grande" establecido de acuerdo con una determinada estrategia. Si se encuentra una entrada, significa que la coincidencia fue exitosa y se reconoció la palabra. Los algoritmos comunes de segmentación de palabras basados en diccionarios se dividen en las siguientes categorías: método de coincidencia máxima directa, método de coincidencia máxima inversa y método de segmentación de palabras de coincidencia bidireccional.
El algoritmo de segmentación de palabras basado en diccionario es el más utilizado y el más rápido. Los investigadores llevan mucho tiempo optimizando métodos basados en la coincidencia de cadenas, como establecer la longitud máxima, almacenar y buscar cadenas y organizar diccionarios de sinónimos, como el uso de árboles de índice TRIE e índices hash.
(2) Algoritmos de aprendizaje automático basados en estadísticas
Actualmente, los algoritmos más utilizados incluyen HMM, CRF (campo aleatorio condicional), SVM, aprendizaje profundo, etc. Por ejemplo, las herramientas de segmentación de palabras de Stanford y Hanlp se basan en el algoritmo CRF. Tomando CRF como ejemplo, la idea básica es anotar caracteres chinos, teniendo en cuenta tanto la frecuencia de las palabras como el contexto. Tiene una buena capacidad de aprendizaje, por lo que reconoce mejor las palabras ambiguas y las palabras no registradas.
Los segmentadores de palabras comunes utilizan diccionarios y algoritmos de aprendizaje automático, que pueden mejorar la precisión de la segmentación de palabras, por un lado, y mejorar la adaptabilidad del dominio, por otro.
Con el auge del aprendizaje profundo, también han surgido clasificadores de palabras basados en redes neuronales. Por ejemplo, algunas personas intentan usar LSTM+CRF bidireccional para implementar un clasificador de palabras, que es esencialmente anotación de secuencia, por lo que este modelo se puede usar universalmente para el reconocimiento de entidades con nombre, etc. Se informa que la tasa de precisión del clasificador de palabras puede alcanzar el 97,5%. La idea de este marco de algoritmo es similar al artículo "Arquitectura neuronal para el reconocimiento de entidades nombradas". Este marco se puede utilizar para lograr la segmentación de palabras chinas, como se muestra en la siguiente figura:
Primero, incrustar. caracteres en el corpus e ingrese las características obtenidas en Bidireccional LSTM y luego agregue campos aleatorios condicionales para obtener los resultados del etiquetado.
Actualmente, existen tres dificultades principales en la segmentación de palabras chinas:
1. Estándares de segmentación de palabras: por ejemplo, el nombre y el apellido están separados en los estándares del Instituto de Harbin. Tecnología, pero se combinan en Hanlp. Esto requiere formular diferentes estándares de segmentación de palabras según las diferentes necesidades.
2. Ambigüedad: la misma cadena a segmentar tiene múltiples resultados de segmentación.
La ambigüedad se puede dividir en tres tipos: ambigüedad de combinación, ambigüedad de intersección y ambigüedad verdadera.
Normalmente, en los motores de búsqueda se utilizan diferentes algoritmos de segmentación de palabras al crear índices y consultas. Una solución común es utilizar una segmentación detallada de palabras durante la indexación para garantizar la recuperación y utilizar una segmentación detallada de palabras durante la consulta para garantizar la precisión.
3. Palabras nuevas: también llamadas palabras no incluidas en el diccionario. La solución a este problema depende de que la gente comprenda mejor la tecnología de segmentación de palabras y la estructura del idioma chino.
El proceso típico de clasificación de texto se puede dividir en tres pasos:
1. Representación del texto
El propósito de este proceso es expresar el texto en una forma. que el clasificador pueda procesar el formulario. El método más utilizado es el modelo de espacio vectorial, que representa el conjunto de texto como una matriz de documento de texto, y cada elemento de la matriz representa el peso de una palabra en el documento correspondiente. El proceso de elegir qué palabras representar el texto se llama selección de características. Los métodos de selección de características comunes incluyen la frecuencia de los documentos, la ganancia de información, la información mutua, la entropía cruzada esperada, etc. Para reducir la cantidad de cálculos en el proceso de clasificación, generalmente se requiere un procesamiento de reducción de dimensionalidad, como LSI.
2. Construcción del clasificador.
El propósito de este paso es elegir o diseñar un método para construir un clasificador. Los diferentes métodos tienen sus propias ventajas, desventajas y condiciones aplicables, y el clasificador debe seleccionarse de acuerdo con las características del problema. Los métodos más utilizados se analizarán en detalle más adelante. Después de seleccionar un método, cree un clasificador para cada categoría en el conjunto de entrenamiento y luego aplique el clasificador al conjunto de prueba para obtener los resultados de la clasificación.
3. Evaluación del efecto (evaluación del clasificador)
Una vez completado el proceso de clasificación, es necesario evaluar el efecto de clasificación. El proceso de evaluación se aplica a los resultados de clasificación de texto en el conjunto de prueba (no al conjunto de entrenamiento). Los criterios de evaluación comúnmente utilizados se heredan del campo IR, incluida la recuperación, la precisión, el valor F1, etc.
1. Método de Rocchio
Determina un centroide para cada categoría, calcula la distancia entre el documento a clasificar y varios elementos representativos, y utiliza esto como base para determinar si pertenece. a los estándares de la categoría. El método Rocchio se caracteriza por una implementación sencilla y una alta eficiencia. La desventaja es que se ve afectado por la distribución del conjunto de texto. Por ejemplo, el punto central calculado puede quedar fuera de la categoría correspondiente.
2. Naive Bayes (método Na? Bayes)
Aplicar el modelo de teoría de probabilidad a la clasificación automática de documentos es un método de clasificación simple y efectivo. La fórmula de Bayes es La probabilidad posterior de un documento. a una determinada categoría se estima a través de la probabilidad previa y la probabilidad condicional de la categoría, para determinar la categoría a la que pertenece el documento
Método 3.k-Vecino más cercano (KNN) /p>.
Encuentre los K vecinos (documentos) más cercanos del conjunto de entrenamiento que estén más cerca del documento a clasificar y determine la categoría del documento a clasificar en función de las categorías de estos K vecinos. La ventaja del método KNN. es que no requiere selección ni entrenamiento de características, y es fácil de manejar una gran cantidad de categorías. Una de sus desventajas es que el clasificador obtenido por el método KNN es un clasificador no lineal. Método de máquina (SVM)
Para una determinada categoría, busque una superficie de clasificación de modo que los ejemplos positivos y negativos de la categoría caigan en ambos lados de la superficie de clasificación, y la superficie de clasificación cumpla con los siguientes requisitos: la distancia al ejemplo positivo más cercano y al ejemplo negativo es igual a la superficie de clasificación con la mayor distancia del ejemplo positivo (o ejemplo negativo) entre todas las superficies de clasificación. La ventaja del método SVM es que utiliza un conjunto de entrenamiento pequeño y tiene. una pequeña cantidad de cálculo; la desventaja es que depende demasiado de la posición de los ejemplos positivos y negativos cerca de la superficie de clasificación.
El proceso de agrupación de texto se puede dividir en tres pasos:
1. Representación de texto
Represente documentos en un formato que pueda ser procesado por el algoritmo de agrupación. Consulte la sección de clasificación de texto para obtener más información. 2. Selección o diseño del algoritmo de agrupamiento.
La elección del algoritmo suele ir acompañada de la elección del método de cálculo de similitud. El método de cálculo del grado es la similitud coseno. Hay muchos algoritmos de agrupamiento, pero ninguno puede resolver todos los agrupamientos. Por lo tanto, es necesario estudiar detenidamente las características del problema a resolver para elegir el algoritmo adecuado. Introducción a los algoritmos de agrupamiento
3. agrupación, seleccione el conjunto de documentos que se ha clasificado o marcado manualmente como conjunto de prueba. Se comparan algunos resultados de clasificación manual que incluyen la tasa de recuperación, la tasa de precisión y el valor F1. método
El agrupamiento jerárquico se puede dividir en tres categorías. Hay dos tipos: agrupamiento jerárquico de agregación y agrupamiento jerárquico de partición. El método cohesivo toma cada texto como un grupo inicial y, después de un proceso de fusión continuo, finalmente. se convierte en un clúster. El proceso del método de partición es exactamente el opuesto. El resultado es un clúster jerárquico, pero la complejidad computacional es alta y no puede manejar una gran cantidad de documentos
2. El algoritmo p>K-means es el método de partición más utilizado.
Dados k grupos, k textos se seleccionan como k grupos iniciales, se agregan otros textos al grupo más cercano, se actualiza el punto central del grupo y luego el texto se vuelve a dividir en función del nuevo punto central cuando no hay agrupación; cambios más largos o después de un cierto número de iteraciones, el algoritmo se detiene. El algoritmo K-means tiene baja complejidad y es fácil de implementar, pero es sensible a anomalías y texto ruidoso. Otro problema es que no existe una buena manera de determinar el valor de k.
3. Método basado en la densidad
Para encontrar resultados de agrupamiento de formas arbitrarias, se propone un método basado en la densidad. Este enfoque trata los clústeres como regiones de alta densidad en el espacio de datos separadas por regiones de baja densidad. Los métodos comunes basados en densidad incluyen DBSCAN, OPTICS, DENCLUE, etc.
4. Método de red neuronal
El método de red neuronal describe cada grupo como una muestra, y la muestra sirve como el "prototipo" del grupo y no necesariamente corresponde a un grupo específico. datos. Los nuevos objetos se asignan a sus grupos más similares en función de alguna medida de distancia. Los algoritmos de agrupamiento de redes neuronales más famosos incluyen: aprendizaje competitivo y mapeo autoorganizado [Kohonen, 1990]. Los métodos de agrupación de redes neuronales requieren un tiempo de procesamiento prolongado y una complejidad de datos compleja, y no son adecuados para agrupar grandes datos.