Escrito como una introducción a los conceptos básicos de la minería de datos para principiantes
Escrito para presentar los conocimientos básicos de minería de datos a los recién llegados
Para las empresas, montañas de datos equivalen a un enorme tesoro. Pero, ¿cómo se puede aprovechar una nueva generación de tecnologías y herramientas informáticas para extraer los tesoros escondidos en las bases de datos?
En un entorno donde están presentes tanto la demanda del mercado como la base técnica, surgió el concepto y la tecnología de la tecnología de minería de datos.
Concepto básico La Minería de Datos tiene como objetivo extraer información oculta de grandes cantidades de datos incompletos, ruidosos, borrosos y aleatorios que las personas no conocen de antemano pero sí información y conocimientos potencialmente útiles.
Existen muchos términos similares a este término, como descubrimiento de conocimiento a partir de bases de datos (KDD), análisis de datos, fusión de datos (Data Fusion) y soporte de decisiones.
Tareas básicas Las tareas de la minería de datos son principalmente análisis de correlación, análisis de conglomerados, clasificación, predicción, análisis de patrones y desviaciones de series temporales, etc.
1. Análisis de asociación La minería de reglas de asociación fue propuesta por primera vez por Rakesh Apwal y otros. La regularidad entre los valores de dos o más variables se llama asociación. La asociación de datos es un tipo importante de conocimiento detectable que existe en la base de datos. Las asociaciones se dividen en asociaciones simples, asociaciones temporales y asociaciones causales. El propósito del análisis de correlación es encontrar la red de correlación oculta en la base de datos. Generalmente, se utilizan dos umbrales, apoyo y credibilidad, para medir la relevancia de las reglas de asociación. También se introducen continuamente parámetros como el interés y la relevancia para que las reglas extraídas se ajusten más a las necesidades.
2. Análisis de agrupación La agrupación consiste en clasificar datos en varias categorías en función de la similitud. Los datos de la misma categoría son similares entre sí y los datos de diferentes categorías son diferentes. El análisis de conglomerados puede establecer conceptos macro, descubrir patrones de distribución de datos y posibles relaciones entre atributos de datos.
3. La clasificación de clasificación consiste en encontrar la descripción conceptual de una categoría, que representa la información general de este tipo de datos, es decir, la descripción connotada de la categoría, y utiliza esta descripción para construir un modelo. , generalmente utilizando reglas o representación de árbol de decisión. La clasificación consiste en utilizar el conjunto de datos de entrenamiento para obtener las reglas de clasificación a través de un determinado algoritmo. La clasificación se puede utilizar para la descripción y predicción de reglas.
4. Predicción La predicción consiste en utilizar datos históricos para descubrir los patrones de cambio, establecer un modelo y utilizar el modelo para predecir los tipos y características de datos futuros. Los pronósticos se ocupan de la precisión y la incertidumbre, generalmente medidas por la varianza del pronóstico.
5. Patrón de series temporales El patrón de series temporales se refiere a un patrón con una alta probabilidad de recurrencia que se busca a través de series temporales. Al igual que la regresión, también utiliza datos conocidos para predecir valores futuros, pero la diferencia entre estos datos es el momento en el que se ubican las variables.
6. Análisis de desviación La desviación incluye muchos conocimientos útiles. Hay muchas anomalías en los datos de la base de datos. El método básico de prueba de sesgo es encontrar la diferencia entre los resultados observados y la referencia.
Tecnología básica 1. Estadística Aunque la estadística es una disciplina "antigua", sigue siendo la tecnología de extracción de datos más básica, especialmente el análisis estadístico multivariado, como el análisis discriminante, el análisis de componentes principales, el análisis factorial y el análisis de correlación. , análisis de regresión múltiple, etc.
2. Análisis de conglomerados y reconocimiento de patrones El análisis de conglomerados agrupa o clasifica principalmente cosas según sus características, lo que son los llamados pájaros del mismo plumaje, para descubrir reglas y patrones típicos. Este tipo de tecnología es una de las tecnologías más importantes en la minería de datos. Además de los métodos de agrupamiento tradicionales basados en análisis estadístico multivariante, los métodos de agrupamiento difuso y de agrupamiento de redes neuronales también han logrado grandes avances en los últimos años.
3. Tecnología de clasificación de árboles de decisión La clasificación de árboles de decisiones utiliza una estructura de árbol para representar clasificaciones o conjuntos de decisiones basados en diferentes características importantes, generando así reglas y descubriendo patrones.
4. Red neuronal artificial y algoritmo genético La red neuronal artificial es un campo de investigación fronterizo en rápido desarrollo, que ha tenido un impacto importante y de gran alcance en la informática, la inteligencia artificial, la ciencia cognitiva y la tecnología de la información. También juega un papel muy importante en la minería de datos. Las redes neuronales artificiales pueden aprender a través de ejemplos a formar funciones no lineales que describen sistemas no lineales complejos. Esta es en realidad una descripción cuantitativa de leyes objetivas. Con esta base, el problema de la predicción se resolverá fácilmente. Actualmente, las dos redes neuronales más utilizadas en la minería de datos son la red BP y la red RBF. Sin embargo, debido a que las redes neuronales artificiales todavía son un tema emergente, aún no se han resuelto algunas cuestiones teóricas importantes.
5. Inducción de reglas La inducción de reglas es una tecnología relativamente única de minería de datos. Se refiere a la búsqueda y extracción de reglas y patrones previamente desconocidos en grandes bases de datos o almacenes de datos, que incluyen aproximadamente las siguientes formas: SI… ENTONCES…
6. ser ignorado. La minería de datos generalmente implica métodos matemáticos y tecnología de la información más complejos. Para facilitar a los usuarios la comprensión y el uso de dichas tecnologías, se deben utilizar gráficos, imágenes, animaciones y otros medios para guiar visualmente las operaciones, guiar la minería y expresar los resultados; difícil de promover Popularizar la tecnología de minería de datos.
Pasos de implementación
El proceso de minería de datos se puede dividir en 6 pasos: 1) Comprender el negocio: comprender los objetivos y requisitos del proyecto desde una perspectiva empresarial y convertirlos en datos. Método de minería Defina el problema y diseñe un plan preliminar para lograr el objetivo. 2) Comprender los datos: recopile datos preliminares y realice diversas actividades para familiarizarse con los datos. Incluyendo descripción de datos, exploración de datos y verificación de la calidad de los datos, etc. 3) Preparar datos: construir los datos brutos iniciales en un conjunto de datos final adecuado para su procesamiento mediante herramientas de modelado. Incluyendo selección de tablas, registros y atributos, conversión y limpieza de datos, etc. 4) Modelado: Seleccionar y aplicar diversas técnicas de modelado y optimizar sus parámetros. 5) Evaluación del modelo: realice una evaluación más exhaustiva del modelo y verifique cada paso de su construcción para confirmar si realmente logra el propósito comercial previsto. 6) Implementación del modelo: la creación de un modelo no significa el final del proyecto. Incluso si el propósito del modelo es mejorar la comprensión de los datos, el conocimiento adquirido debe organizarse y representarse de una manera que los usuarios puedan utilizar. Los modelos de actividad suelen aplicarse al proceso de toma de decisiones. Esta etapa puede ser tan simple como generar un informe o tan compleja como implementar un proceso de extracción de datos repetible en toda la empresa. El control es universalmente reconocido.
Estado de la aplicación Los científicos en el campo de la investigación de inteligencia artificial generalmente creen que uno de los próximos temas importantes en las aplicaciones de inteligencia artificial será el descubrimiento de conocimiento de bases de datos a gran escala utilizando algoritmos de aprendizaje automático como herramienta principal. Aunque la minería de datos es todavía un tema de investigación muy nuevo, su potencial inherente para crear enormes beneficios económicos para las empresas ha dado lugar rápidamente a muchas aplicaciones exitosas. Los campos de aplicación representativos incluyen la previsión de mercado, la inversión y la industria manufacturera, la banca, las comunicaciones, etc.
La British Broadcasting Corporation (BBC) también utiliza tecnología de extracción de datos para predecir los ratings de televisión con el fin de organizar razonablemente los horarios de los programas de televisión. La empresa de tarjetas de crédito Alllelicall KxTress ha experimentado un aumento del 10% al 15% en el uso de tarjetas de crédito desde que adoptó la tecnología de minería de datos. La empresa AT&T utiliza tecnología de minería de datos para detectar fraudes telefónicos internacionales y puede descubrir anomalías en el uso de llamadas internacionales lo antes posible.
La minería de datos es una disciplina de vanguardia emergente que reúne resultados de diversas disciplinas como el aprendizaje automático, el reconocimiento de patrones, las bases de datos, las estadísticas, la inteligencia artificial y los sistemas de información de gestión. La integración mutua y la promoción mutua de múltiples disciplinas han permitido que esta nueva disciplina florezca y haya comenzado a tomar forma.
Lo anterior es el contenido relevante que el editor ha compartido con usted sobre la introducción al conocimiento básico de la minería de datos para los recién llegados. Para obtener más información, puede seguir a Global Ivy para compartir más información detallada.