¿Qué es una plataforma de recopilación de big data?
Sin embargo, todavía existen diferencias entre ambos. En primer lugar, los dos conceptos no están claramente definidos (al igual que "minería de datos" y "ciencia de datos") y se cruzan entre sí en diversos grados, dependiendo de con quién se esté hablando. Creo que es más fácil diferenciar por nivel de iluminación. Si el texto original son datos, entonces la minería de texto es información y la PNL es conocimiento, es decir, la relación entre sintaxis y semántica.
Aunque la PNL y la minería de texto no son lo mismo, ambas siguen estando estrechamente relacionadas: tratan con los mismos tipos de datos primitivos y su uso se superpone mucho.
Nuestra intención no es una definición absoluta o relativa de los dos, pero es importante darnos cuenta de que el preprocesamiento de datos en estas dos tareas es el mismo.
Intentar eliminar la ambigüedad es un aspecto importante del preprocesamiento de texto. Queríamos mantener el significado original y al mismo tiempo eliminar el ruido.
Los siguientes son los pasos principales para procesar tareas de texto:
1 Recopilación de datos
Obtener o crear un corpus, la fuente pueden ser correos electrónicos, Wikipedia en inglés. artículos o informes financieros de la empresa, o incluso las obras de Shakespeare, etc.
2. Preprocesamiento de datos
Preprocesar el corpus de texto original para prepararlo para tareas de minería de texto o procesamiento de lenguaje natural.
El preprocesamiento de datos se divide en varios pasos, algunos de los cuales pueden ser apropiados o no para una tarea determinada. Pero suele ser una especie de marcado, normalización y reemplazo.
3. Minería y visualización de datos
No importa qué tipo de datos tengamos, la minería y la visualización son pasos importantes para explorar patrones.
Las tareas comunes pueden incluir visualizar el recuento y la distribución de palabras, generar nubes de palabras y medir distancias.
4. Estructura del modelo
Esta es la parte principal de las tareas de minería de texto y PNL, incluida la capacitación y las pruebas.
La selección de características y la ingeniería se llevarán a cabo a su debido tiempo.
Modelo de lenguaje: máquina de estados finitos, modelo de Markov, modelado en espacio vectorial del significado de palabras
Clasificador de aprendizaje automático: Naive Bayes, regresión logística, árbol de decisión, máquina de vectores de soporte, red neuronal.
Modelos de secuencia: modelos ocultos de Markov, redes neuronales recurrentes (RNN), redes neuronales de memoria a corto plazo (LSTM).
5. Evaluación del modelo
¿Cumple el modelo las expectativas?
Las métricas variarán dependiendo del tipo de tarea de minería de texto o PNL.
Las opiniones anteriores son solo como referencia. Existen pocas tecnologías efectivas en el preprocesamiento de textos en lenguaje natural en China, como la tecnología de análisis inteligente semántico de big data NLPIR del Dr. Zhang Huaping del Instituto de Tecnología de Beijing. La plataforma de análisis inteligente semántico de big data NLPIR es una plataforma de desarrollo * * * basada en las necesidades integrales de la minería de datos china. Integra resultados de investigación como recopilación de redes precisa, comprensión del lenguaje natural, minería de texto y búsqueda semántica. toda la cadena tecnológica del procesamiento de contenidos de Internet. Si estás interesado.