La historia de la invención del algoritmo K-means
El algoritmo de Lloyd y el promedio K suelen estar estrechamente relacionados, pero en aplicaciones prácticas, el algoritmo de Lloyd es una regla heurística para resolver problemas de promedio K. Para ciertas combinaciones de puntos de partida y centros de gravedad, el algoritmo de Lloyd puede converger a resultados incorrectos. (Hay diferentes soluciones óptimas en la función anterior)
A pesar de los cambios, el algoritmo de Lloyd sigue siendo popular porque converge muy rápidamente en la práctica. De hecho, se observa que el número de iteraciones es mucho menor que el número de puntos. Pero recientemente David Arthur y Sergei Vassilvitskii propusieron que la existencia de conjuntos de puntos específicos hace que el algoritmo de promedio K requiera un tiempo superpolinomial para lograr la convergencia.
El algoritmo K-means aproximado está diseñado para calcular el subconjunto de datos original.
A partir del rendimiento del algoritmo, no se garantiza la obtención de la solución óptima global. La calidad de la solución final depende en gran medida de la agrupación de inicialización. Dado que este algoritmo es muy rápido, un método común es ejecutar el algoritmo de promedio K varias veces para seleccionar la solución óptima.
Una desventaja del algoritmo K-promedio es que el número de paquetes K es un parámetro de entrada y un K inapropiado puede arrojar malos resultados. Además, el algoritmo supone que el error cuadrático medio es el parámetro óptimo para calcular la dispersión del grupo.