La Red de Conocimientos Pedagógicos - Conocimientos universitarios - 5.2.2 Algoritmo de agrupamiento de K-medias

5.2.2 Algoritmo de agrupamiento de K-medias

El algoritmo K-Means es un típico algoritmo de agrupamiento no jerárquico basado en la distancia. Sobre la base de minimizar la función de error, los datos se dividen en un número predeterminado de clases K y la distancia se utiliza como índice de evaluación de similitud, es decir, cuanto más cercana es la distancia entre dos objetos, mayor es la similitud.

Proceso algorítmico

Atributos continuos

Antes de calcular la distancia, cada valor de atributo debe normalizarse a su media cero. En el algoritmo de agrupamiento K-Means, generalmente es necesario medir la distancia entre muestras, entre muestras y grupos, y entre grupos.

Normalización de media cero

También conocida como estandarización de desviación estándar, la media de los datos procesados ​​es 0 y la desviación estándar es 1.

Fórmula de conversión: actualmente el método de estandarización de datos más utilizado

En la práctica, para obtener mejores resultados, normalmente elegimos diferentes centros de agrupamiento iniciales y los ejecutamos varias veces K-Means algoritmo.

Después de asignar valores a todos los objetos, cuando se recalculan los centros de K conglomerados, para datos continuos, el centro del conglomerado toma el valor promedio del conglomerado. Sin embargo, cuando algunos atributos de la muestra son variables categóricas, el promedio Es posible que el valor no esté definido, por lo que se puede utilizar el método del modo K.

El aplanamiento de errores y el SSE (suma de errores al cuadrado) se utilizan como funciones objetivas para medir la calidad del agrupamiento. Para dos resultados de agrupación diferentes, elija el resultado de clasificación con la suma menor de errores al cuadrado.

Resumen

Características del grupo 1: el intervalo R es relativamente grande, concentrado principalmente en 30 a 80 días; el número de consumo se concentra en 0 a 15 veces; : 0 ~ 2000;

Características del grupo 2: el intervalo R es relativamente pequeño, concentrado principalmente en 0-30 días, la cantidad de consumo se concentra entre 0 y 10 veces; ~ 1800;

Características del grupo 3: el intervalo R es relativamente pequeño, se concentra principalmente en 0-30 días; los tiempos de consumo se concentran en 10 a 25 veces; la cantidad de consumo es: 500 ~ 2000; >

Análisis comparativo

El tercer grupo Es un grupo de alto consumo y alto valor con intervalos de tiempo cortos, alta frecuencia de consumo y grandes cantidades de consumo.

El grupo 2 tiene intervalos de tiempo, tiempos de consumo y cantidades de consumo medianos, lo que representa clientes de valor general.

Un grupo de clientes con largos intervalos de tiempo, pequeña frecuencia de consumo, cantidad de consumo no particularmente alta y bajo valor.