¿Qué es el algoritmo de segmentación de palabras?
El algoritmo de segmentación de palabras es la base de la minería de texto y, por lo general, desempeña un papel decisivo en el efecto de todo el modelo. Hay dos modos de funcionamiento comúnmente utilizados del algoritmo de segmentación de palabras:
1. Búsqueda y coincidencia de usuarios.
Por ejemplo: si buscamos la palabra "reciclaje de teléfonos móviles" en Baidu, Baidu primero dividirá la palabra en dos palabras: teléfono móvil y reciclaje. En este momento, Baidu primero buscará. palabra teléfono móvil en la biblioteca y luego Realizar la primera ronda de evaluación.
Elimine las páginas web que no tengan la palabra teléfono móvil y solo conserve los resultados con la palabra teléfono móvil. Luego filtre las páginas con la palabra reciclaje de las páginas web filtradas y luego agregue los resultados. Los resultados clasifican a los usuarios según las calificaciones de la página.
2. Cálculo del tema de la página web
Como se mencionó anteriormente en el Blog de Enlightenment, Baidu Spider es solo una máquina y no puede pensar como un ser humano al procesar artículos, Baidu Spider El artículo. También se dividirá en palabras. Si la palabra teléfono móvil aparece con más frecuencia en el artículo, que es la llamada densidad de palabras clave, esta página también se caracterizará como un artículo sobre teléfonos móviles.
Los motores de búsqueda calculan las páginas web mediante algoritmos de segmentación de palabras. Si podemos utilizar razonablemente algoritmos de segmentación de palabras para diseñar páginas web, las páginas web tendrán una buena puntuación.
Los algoritmos de segmentación de palabras chinos se dividen aproximadamente en tres categorías:
La primera categoría se basa en la coincidencia de cadenas, es decir, escanear la cadena, si una subcadena de la cadena y una palabra en el diccionario se encuentran Si son iguales, se considerarán una coincidencia, como el método mecánico de segmentación de palabras. Este tipo de segmentación de palabras generalmente agrega algunas reglas heurísticas, como "coincidencia máxima directa/inversa", "prioridad de palabras largas", etc.
La segunda categoría son los métodos de segmentación de palabras basados en estadísticas y aprendizaje automático. Modelan el chino basándose en partes del discurso anotadas manualmente y características estadísticas, es decir, en función de los datos observados (corpus anotado). Se entrenan y, en la etapa de segmentación de palabras, el modelo se utiliza para calcular la probabilidad de varias segmentaciones de palabras y el resultado de segmentación de palabras con la mayor probabilidad se utiliza como resultado final.
Los modelos de anotación de secuencia comunes incluyen HMM y CRF. Este tipo de algoritmo de segmentación de palabras puede manejar muy bien la ambigüedad y los problemas de palabras no registrados, y el efecto es mejor que el tipo anterior, pero requiere una gran cantidad de datos de anotaciones manuales y una velocidad de segmentación de palabras lenta.
La tercera categoría es lograr el efecto de reconocimiento de palabras al permitir que las computadoras simulen la comprensión humana de las oraciones. Debido a la complejidad de la semántica china, es difícil organizar la información de varios idiomas en una forma que pueda ser. Reconocido por las máquinas Actualmente, este sistema de segmentación de palabras aún se encuentra en la etapa experimental.