La Red de Conocimientos Pedagógicos - Conocimientos históricos - ¿Por qué la minería de datos?

¿Por qué la minería de datos?

Pregunta 1: ¿Por qué necesitamos realizar minería de datos y recopilar información del cliente? Aplicaciones típicas de la tecnología de minería de datos en la gestión de relaciones con los clientes.

Adquisición de clientes

La forma tradicional de adquirir clientes es atraer nuevos clientes a través de una gran cantidad de anuncios en los medios y folletos. Este método implica demasiados aspectos, no está muy específico y requiere demasiada inversión por parte de la empresa. La tecnología de minería de datos puede construir modelos de minería de datos a partir de datos útiles recopilados de actividades de marketing pasadas (principalmente en referencia a la clasificación de posibles patrones de respuesta de los clientes). Por lo tanto, las empresas pueden comprender la clasificación característica de los clientes potenciales reales para poder orientar sus actividades de marketing futuras en lugar de las tradicionales conjeturas empíricas.

Segmentación de clientes

La segmentación se refiere al acto de dividir un gran grupo de consumidores en segmentos de mercado. Los consumidores que pertenecen a un mismo segmento son similares entre sí, mientras que los consumidores que pertenecen a diferentes segmentos son vistos como diferentes. Por ejemplo, el simple hecho de organizar y almacenar datos en una base de datos según diferentes edades es segmentación. La segmentación permite a los usuarios observar los datos en la base de datos desde un nivel superior, y la segmentación permite a las personas tratar a los clientes de diferentes segmentos de diferentes maneras. La clasificación, la agrupación y otras tecnologías de minería de datos permiten a los usuarios segmentar los datos de la base de datos en función de atributos de interés para la empresa, como categoría, edad, ocupación, dirección, preferencias, etc. La segmentación de clientes es la base para que las empresas determinen productos y servicios, y también es la base para establecer marketing uno a uno para los clientes.

Análisis de rentabilidad del cliente

En lo que respecta a los clientes de una empresa, la mayor parte de los beneficios de la empresa provienen de un pequeño número de clientes. Es difícil para la empresa determinar cuáles son. rentabilidades altas y qué clientes tienen rentabilidades bajas o incluso rentabilidades negativas. La tecnología de minería de datos puede ayudar a las empresas a distinguir a los clientes con diferentes retornos de ganancias. Por lo tanto, se pueden asignar más recursos a clientes con altos retornos de ganancias para generar mayores ganancias, mientras que se pueden reducir las inversiones en clientes con retornos de ganancias bajos o negativos. Por lo tanto, antes de realizar la extracción de datos, las empresas deben establecer un conjunto de métodos de optimización para calcular el rendimiento de las ganancias. Puede ser un cálculo simple, como los ingresos generados por un cliente menos todos los gastos correspondientes, o puede ser una fórmula más compleja. Luego utilice herramientas de minería de datos para extraer el conocimiento correspondiente de los registros de transacciones.

Retención de clientes

Con la competencia cada vez más feroz en la industria, generalmente se reconoce que el costo de adquirir un nuevo cliente es mucho mayor que el costo de retener a un cliente antiguo. Por lo tanto, cómo retener a los antiguos clientes y evitar que los pierdan se ha convertido en un tema importante en CRM. En aplicaciones prácticas, las herramientas de minería de datos se utilizan para construir modelos para clientes que ya han perdido, y luego estos modelos se usan para predecir clientes que pueden perderse en el futuro, lo que permite a las empresas estudiar las necesidades de estos clientes y tomar las medidas correspondientes para evitar que pierdan, logrando así el propósito de mantener a los clientes.

Pregunta 2: ¿Por qué la minería de datos necesita clasificar los datos? No entiendo muy bien a qué te refieres con clasificación. ¿Está en la etapa de preprocesamiento de datos o con fines de minería?

Si estamos en la etapa de preprocesamiento de datos, es posible que solo estemos extrayendo datos en un campo determinado para sacar conclusiones más confiables.

Si es el propósito de la extracción, también puede serlo; be Es el resultado del modelo, que es más fácil de entender.

Pregunta 3: ¿Qué hace exactamente la minería de datos? La minería de datos es un aspecto importante. Ya sabes java, bien. Puede aprender de la herramienta weka, que es un conjunto de herramientas escrito en java. Para un problema específico, como cómo obtener datos de prueba y cómo preprocesar los datos, estos weka tienen interfaces directas.

En cuanto al modelaje que mencionaste, no se puede explicar claramente en una sola frase. En primer lugar, debe investigar qué métodos son mejores en este campo y luego elegir al menos algunos de ellos. Estos métodos deben implementarse de acuerdo con su conjunto de datos, para recopilar estadísticas, resumir y seleccionar. Por supuesto, tus datos * * * deben ser representativos, y esto es reconocido internacionalmente. En cuanto a cómo castigar estos datos, normalmente se citan en artículos más famosos, por lo que no hay problema. Por supuesto, se utilizan muchas herramientas. No puede limitarse a un método o una herramienta. Utilice diferentes herramientas en diferentes situaciones y elija según las necesidades reales. Por ejemplo, si desea realizar agrupaciones y elige Weka como neurona, es posible que prefiera Matlab. La situación real determina la herramienta que elija.

Proceso: recopilación de datos-preprocesamiento de datos-completar tareas programadas. Este es un proceso difícil. Esta colección se puede implementar usando weka.

Para la minería de datos, son 80% datos + 20% algoritmo. Los datos son muy importantes y el algoritmo es en realidad solo un conjunto de datos de prueba. Esta es mi opinión, espero que te ayude.

Pregunta 4: ¿Por qué se deben preprocesar los datos sin procesar antes de extraerlos? Los datos contienen muchos datos de ruido y es necesario eliminar los datos irrelevantes, como los campos que no son relevantes para el análisis.

Comprenda la calidad de los datos. Algunos datos no tienen la calidad suficiente para su uso directo, por ejemplo, contienen demasiados valores faltantes y deben procesarse.

Los campos de datos no se pueden utilizar directamente y es necesario derivar nuevos campos para una mayor extracción de datos.

Los datos están dispersos y es necesario integrarlos, como agregar tablas (agregar filas) o fusionar tablas (agregar columnas).

A través del preprocesamiento de datos, puede tener una comprensión preliminar de los datos.

Para el preprocesamiento de datos, recomiendo un software de minería de datos: la versión de escritorio SmartMining. El funcionamiento del panel es el mismo que el del modelador SPSS y sus capacidades de preprocesamiento y computación son muy buenas.

Pregunta 5: ¿Por qué datos de muestra? Como campo en rápido crecimiento, el propósito de la minería de datos es extraer patrones efectivos o reglas útiles de los datos. Las tareas de minería de datos generalmente se dividen en reglas de asociación, clasificación y agrupación. Estas tareas a menudo implican grandes conjuntos de datos en los que se esconde conocimiento útil. Decimos que un conjunto de datos es grande cuando tiene una gran cantidad de registros, una gran cantidad de atributos o ambos. Tener una gran cantidad de registros hará que la coincidencia del modelo lleve más tiempo y tener una gran cantidad de atributos hará que el modelo ocupe más espacio. Los grandes conjuntos de datos son un obstáculo importante para los algoritmos de minería de datos. En el proceso de búsqueda de patrones y comparación de modelos, a menudo es necesario recorrer el conjunto de datos varias veces y es muy difícil cargar todos los conjuntos de datos en la memoria física. A medida que los conjuntos de datos crecen cada vez más, el campo de la minería de datos se enfrenta al desarrollo de algoritmos adecuados para grandes conjuntos de datos. Por lo tanto, una forma sencilla y eficaz es reducir el tamaño de los datos mediante muestreo (es decir, tomando un subconjunto de un conjunto de datos grande). En la aplicación de minería de datos, existen dos métodos de muestreo: uno es que algunos algoritmos de minería de datos no utilizan todos los datos del conjunto de datos durante la ejecución del algoritmo y el otro es que los resultados de ejecutar el algoritmo se utilizan en algunos; los datos son consistentes con Los mismos resultados se obtienen en todo el conjunto de datos. Esto coincide con los dos métodos de muestreo básicos utilizados en la minería de datos. Un método consiste en incorporar el muestreo en el algoritmo de minería de datos; el otro método es ejecutar los algoritmos de muestreo y de minería de datos por separado. Pero el uso del muestreo puede causar un problema: en el caso de una probabilidad pequeña, los resultados son inexactos, pero en el caso de una probabilidad alta, la similitud de los resultados es muy buena. La razón es que operar en un subconjunto de todo el conjunto de datos puede destruir la correlación intrínseca entre atributos, que es muy compleja y difícil de entender en problemas de datos de alta dimensión.

Pregunta 6: ¿Por qué deberíamos usar Java o Python para la minería de datos? Principalmente por conveniencia. Python tiene una gran cantidad de módulos de terceros, su sintaxis es muy concisa y su grado de libertad es muy alto. Los módulos numpy, scipy y matplotlib de Python pueden completar todas las funciones de spss. Puede limpiar y reducir los datos según sus propias necesidades. Si es necesario, también puede conectarse a SQL y realizar aprendizaje automático. En muchos casos, los datos se recopilan de Internet a través de rastreadores web. Python tiene un módulo urllib que puede hacer esto fácilmente. A veces, cuando los rastreadores recopilan datos, necesitan procesar códigos de verificación de algunos sitios web. Python tiene un módulo PIL que es fácil de identificar. Si se requieren redes neuronales y algoritmos genéticos, scipy también puede hacer el trabajo. También hay árboles de decisión que utilizan códigos si-entonces y otros. La agrupación no se puede limitar a ciertos tipos de agrupación y se puede ajustar de acuerdo con la situación real, como la agrupación de k-medias y la agrupación DBSCAN. A veces puede ser necesario combinar dos métodos de agrupación para realizar análisis de agrupaciones en datos a gran escala. Estos requieren completar la codificación usted mismo. Además, hay muchas expresiones de distancia para elegir. Por ejemplo, la distancia euclidiana, la distancia coseno, la distancia de Minkowski y la distancia de cuadra de la ciudad no son complicadas, pero programar en Python es muy conveniente. Método de clasificación basado en contenido, Python tiene un potente módulo de procesamiento de lenguaje natural nltk para segmentar, recopilar, clasificar y contar frases del idioma.

En resumen, es muy, muy conveniente. Siempre que conozca Python lo suficientemente bien, descubrirá que puede realizar rápidamente todas sus ideas utilizando esta herramienta.

Pregunta 7: ¿Por qué es importante el aprendizaje profundo del análisis y la minería de datos? 1. Big data:

Se refiere a datos que no pueden capturarse, gestionarse y procesarse mediante herramientas convencionales en un plazo de tiempo asequible* * *. Es un activo de información enorme, de alto crecimiento y diversificado que requiere nuevos modelos de procesamiento para tener capacidades más sólidas de toma de decisiones, conocimiento y optimización de procesos;

¿En Victor? ¿Meyer Schoenberg y Kenneth? Big data en la "Era de Big Data" escrita por Cukier significa que todos los datos se utilizan para análisis y procesamiento, y no hay atajos para el análisis aleatorio (encuesta de muestreo). Las características 5V de big data (propuestas por IBM): volumen (masa), velocidad (alta velocidad), diversidad (diversidad) y valor (autenticidad).

2. Análisis de datos:

Se refiere al uso de métodos de análisis estadístico apropiados para analizar una gran cantidad de datos recopilados, extraer información útil y formar conclusiones, y realizar una investigación detallada y un resumen de los mismos. el proceso. Este proceso es también un proceso de soporte del sistema de gestión de calidad. En la práctica, el análisis de datos puede ayudar a las personas a emitir juicios para poder tomar las medidas adecuadas.

La base matemática del análisis de datos se estableció a principios del siglo XX, pero no fue hasta la llegada de las computadoras que las operaciones prácticas se hicieron posibles y el análisis de datos se hizo popular. El análisis de datos es una combinación de matemáticas e informática.

3. Minería de datos (inglés: data mining):

También traducido como minería de datos y minería de datos. Este es el paso del descubrimiento de conocimiento en bases de datos (KDD). La minería de datos generalmente se refiere al proceso de encontrar información oculta a partir de grandes cantidades de datos mediante algoritmos. La minería de datos suele estar relacionada con la informática y logra los objetivos anteriores mediante estadísticas, procesamiento analítico en línea, recuperación de información, aprendizaje automático, sistemas expertos (que se basan en reglas empíricas pasadas), reconocimiento de patrones y otros métodos para lograr los objetivos anteriores.

Pregunta 8: ¿Cuál es la diferencia entre análisis de datos y minería de datos? ¿Cómo hacer bien la minería de datos? La diferencia entre big data, análisis de datos y minería de datos es que big data es una minería masiva de datos en Internet, mientras que la minería de datos se trata más bien de minería de datos para grupos especializados dentro de la empresa. El análisis de datos consiste en realizar análisis y diagnósticos específicos. Big data necesita analizar tendencias y desarrollos. La minería de datos se trata principalmente de encontrar problemas y diagnosticar:

1. Big data:

Se refiere a herramientas de software tradicionales en un marco de tiempo asequible. que no se pueden capturar, gestionar y procesar * * *Datos. Es un activo de información enorme, de alto crecimiento y diversificado que requiere nuevos modelos de procesamiento para tener un mayor poder de toma de decisiones, capacidades de descubrimiento de conocimientos y capacidades de optimización de procesos;

¿En Victor? ¿Meyer Schoenberg y Kenneth? Big data en "La era de Big Data" escrita por Cukier significa que todos los datos se utilizan para análisis y procesamiento, y no hay atajos para el análisis aleatorio (encuesta de muestreo). Las características 5V de big data (propuestas por IBM): volumen (masa), velocidad (alta velocidad), diversidad (diversidad) y valor (autenticidad).

2. Análisis de datos:

Se refiere al uso de métodos de análisis estadístico apropiados para analizar una gran cantidad de datos recopilados, extraer información útil y formar conclusiones, y realizar una investigación detallada y un resumen de los mismos. el proceso. Este proceso es también un proceso de soporte del sistema de gestión de calidad. En la práctica, el análisis de datos puede ayudar a las personas a emitir juicios para poder tomar las medidas adecuadas.

La base matemática del análisis de datos se estableció a principios del siglo XX, pero no fue hasta la llegada de las computadoras que las operaciones prácticas se hicieron posibles y el análisis de datos se hizo popular. El análisis de datos es una combinación de matemáticas e informática.

3. Minería de datos (inglés: data mining):

También traducido como minería de datos y minería de datos. Este es el paso del descubrimiento de conocimiento en bases de datos (KDD). La minería de datos generalmente se refiere al proceso de encontrar información oculta a partir de grandes cantidades de datos mediante algoritmos. La minería de datos suele estar relacionada con la informática y logra los objetivos anteriores mediante estadísticas, procesamiento analítico en línea, recuperación de información, aprendizaje automático, sistemas expertos (que se basan en reglas empíricas pasadas), reconocimiento de patrones y otros métodos para lograr los objetivos anteriores.

Pregunta 9: ¿Por qué deberíamos realizar minería de datos, minería y análisis de big data en el proceso de CRM, para desempeñar el papel de CRM y hacer un buen trabajo en la gestión de relaciones con los clientes?