Artículo sobre el algoritmo knn
La Conferencia Internacional IEEE sobre Minería de Datos (ICDM), una organización académica internacional autorizada, seleccionó los diez mejores algoritmos clásicos en el campo de la minería de datos: C4.5, K-means, SVM, Apriori, EM , PageRank, AdaBoost, KNN , Naive Bayes, Carro.
No solo los diez algoritmos principales, sino también los 18 algoritmos que participan en la selección. De hecho, cualquiera de ellos puede considerarse un algoritmo clásico, lo que ha tenido un profundo impacto en el campo de la minería de datos. . Hoy comparto principalmente 10 algoritmos clásicos. El contenido es bastante informativo. Se recomienda guardarlo y estudiarlo más tarde.
1.C4.5
El algoritmo C4.5 es un algoritmo de árbol de decisión de clasificación en algoritmos de aprendizaje automático, y su algoritmo central es el algoritmo ID3. El algoritmo C4.5 hereda las ventajas del algoritmo ID3 y mejora el algoritmo ID3 en los siguientes aspectos:
1) Utilice la tasa de ganancia de información para seleccionar atributos, lo que supera el problema de utilizar la ganancia de información para seleccionar atributos. Desventajas de más atributos.
2) Poda durante el proceso de construcción del árbol;
3) Puede completar la discretización de atributos continuos
4) Puede manejar datos incompletos;
El algoritmo C4.5 tiene las siguientes ventajas: las reglas de clasificación generadas son fáciles de entender y tienen una alta precisión. Su desventaja es que en el proceso de construcción del árbol, el conjunto de datos debe escanearse y ordenarse varias veces, lo que da como resultado una baja eficiencia del algoritmo (el algoritmo CART solo necesita escanear el conjunto de datos dos veces, las siguientes son solo las ventajas y desventajas del árbol de decisión).
El algoritmo 2.k-means es el algoritmo K-Means.
El algoritmo K-means es un algoritmo de agrupación que divide N objetos en K particiones según sus atributos, K
3 Máquina de vectores de soporte
Vector de soporte. Máquina, en inglés, es Support Vector Machine, denominada máquina SV (generalmente denominada SVM en este artículo). Es un método de aprendizaje supervisado ampliamente utilizado en clasificación estadística y análisis de regresión. Las máquinas de vectores de soporte asignan vectores a un espacio de dimensiones superiores y establecen un hiperplano con el intervalo más grande en este espacio. Hay dos hiperplanos paralelos a cada lado del hiperplano que separa los datos. Un hiperplano de separación maximiza la distancia entre dos hiperplanos paralelos. Se supone que cuanto mayor sea la distancia o espacio entre hiperplanos paralelos, menor será el error general del clasificador. Una guía excelente es "Una guía para máquinas de vectores de soporte para el reconocimiento de patrones" de C. J.C Burges. Vandervoort y Barnard compararon máquinas de vectores de soporte con otros clasificadores.
4. Algoritmo a priori
El algoritmo Apriori es el algoritmo más influyente para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. Su núcleo es un algoritmo recursivo basado en la idea de conjuntos de frecuencias de dos etapas. Esta regla de asociación se clasifica como regla de asociación booleana unidimensional y de un solo nivel. Aquí, todos los conjuntos de elementos cuyo soporte es mayor que el soporte mínimo se denominan conjuntos de elementos frecuentes o, para abreviar, conjuntos de frecuencia.
5. Algoritmo de expectativa máxima
En computación estadística, el algoritmo de expectativa máxima (EM) es un algoritmo para encontrar la estimación de máxima verosimilitud de los parámetros en un modelo de probabilidad, donde el modelo de probabilidad se basa en variables latentes no observables (variable latente bl). La expectativa máxima se utiliza a menudo en el campo de la agrupación de datos en el aprendizaje automático y la visión por computadora.
6.PageRank
PageRank es una parte importante del algoritmo de Google. En septiembre de 2001, el cofundador de Google, Larry Page, le concedió una patente estadounidense. Por lo tanto, la página en pageRank no se refiere a la página web, sino a la página, es decir, este método de clasificación lleva el nombre de la página.
PageRank mide el valor de un sitio web en función de la cantidad y calidad de sus enlaces externos e internos.
El concepto detrás de PageRank es que cada enlace a una página es un voto para esa página, y cuantos más enlaces obtenga, más votos obtendrá de otros sitios. Esto se llama "popularidad de enlaces", una medida de cuántas personas están dispuestas a vincular su sitio web al suyo. El concepto de PageRank proviene de la frecuencia de citación de un artículo en la comunidad académica; es decir, cuantas más veces es citado por otros, mayor es la autoridad que generalmente se juzga sobre el artículo.
Algoritmo 7.adaboost
Adaboost es un algoritmo iterativo. Su idea central es entrenar diferentes clasificadores (clasificadores débiles) para el mismo conjunto de entrenamiento y luego usar estos clasificadores débiles para hacerlo. ensamblado para formar un clasificador final más fuerte (clasificador fuerte). El algoritmo en sí se implementa cambiando la distribución de datos. Determina el peso de cada muestra en función de si cada muestra en cada conjunto de entrenamiento se clasificó correctamente y de la precisión de la última clasificación general. El nuevo conjunto de datos con pesos modificados se envía al clasificador de nivel inferior para su entrenamiento y, finalmente, los clasificadores obtenidos de cada entrenamiento finalmente se fusionan en el clasificador de toma de decisiones final.
8.kNN: clasificación de k vecinos más cercanos
El algoritmo de clasificación de k vecinos más cercanos (KNN) es un método relativamente maduro en teoría y uno de los algoritmos de aprendizaje automático más simples. La idea de este método es: si la mayoría de las k muestras más similares (es decir, más cercanas) en un espacio de características pertenecen a una determinada categoría, entonces esta muestra también pertenece a esta categoría.
9. Naive Bayes
Entre los muchos modelos de clasificación, los dos modelos de clasificación más utilizados son el modelo de árbol de decisión y el modelo Naive Bayes (NBC). El modelo Naive Bayes se deriva de la teoría matemática clásica y tiene una base matemática sólida y una eficiencia de clasificación estable.
Al mismo tiempo, el modelo NBC requiere que se estimen pocos parámetros, no es sensible a los datos faltantes y tiene un algoritmo relativamente simple. En teoría, el modelo NBC tiene la tasa de error más pequeña en comparación con otros métodos de clasificación. Pero este no es siempre el caso, porque el modelo NBC supone que los atributos son independientes entre sí, y esta suposición a menudo es insostenible en aplicaciones prácticas, lo que tiene un cierto impacto en la clasificación correcta del modelo NBC. Cuando el número de atributos es grande o la correlación entre atributos es grande, la eficiencia de clasificación del modelo NBC no es tan buena como la del modelo de árbol de decisión. Los modelos NBC funcionan mejor cuando las correlaciones de atributos son pequeñas.
10.CART: Árboles de clasificación y regresión
CART, Árboles de clasificación y regresión Hay dos ideas clave bajo el árbol de clasificación. La primera es la idea de dividir recursivamente el espacio de la variable independiente (método de partición binaria) y la segunda idea es utilizar datos de verificación para la poda (prepoda, pospoda). Puede resultar más difícil construir un árbol modelo basado en árboles de regresión, pero al mismo tiempo también mejora su efecto de clasificación.
Libro de referencia: Aprendizaje automático en la práctica