La Red de Conocimientos Pedagógicos - Currículum vitae - Algoritmo de llenado de datos KNN

Algoritmo de llenado de datos KNN

KNN utiliza la correlación de datos en diferentes dimensiones para completar y corregir valores faltantes o anormales en los datos.

El conjunto de datos analizados en este artículo proviene de los cambios en los valores de concentración de contaminantes del aire medidos en varias estaciones en un lugar determinado a lo largo del tiempo. Faltan datos en algunos lugares o en ciertos momentos. Sabemos que en este lote de datos, los valores de concentración de los puntos de medición están correlacionados en distancia y tiempo, es decir, cuanto más cercana es la distancia espacial, más relevantes son los valores medidos por los puntos de medición más cercanos en el tiempo. son. Por lo tanto, el algoritmo KNN se puede utilizar para procesar datos de las tres dimensiones de longitud, latitud y tiempo.

En la imagen de arriba, no obtenemos el valor de medición del punto objetivo en un momento determinado, pero podemos obtener algunos valores de medición a su alrededor,...? , de modo que podamos usar los datos existentes para estimar el valor objetivo c_x:

El peso es inversamente proporcional a la distancia entre el punto adyacente y el punto objetivo, por ejemplo:

En uso real Se puede definir la relación entre peso y distancia.

Cuando usamos el algoritmo KNN para completar datos, necesitamos encontrar el vecino más cercano de cada muestra, por lo que primero debemos calcular la distancia entre diferentes muestras, lo cual se puede resolver usando NearestNeighbors en sklearn.neighbors.

nbrs = vecinos más cercanos (n_vecinos, algoritmo = 'ball_tree'). Fit (X)

Distancia, índice = nbrs.kneighbors(X)

Después de obtener la matriz de distancia, puede encontrar la distancia entre cada muestra y otras muestras, utilizando el método anterior. La fórmula calcula su valor estimado correspondiente. Cabe señalar que la distancia de la muestra se refiere a la distancia euclidiana de la muestra en la dimensión especificada. Todas las muestras en la dimensión especificada satisfacen la correlación entre la distancia y el valor de medición. Por ejemplo, podemos usar la longitud, latitud y tiempo de medición de la muestra como dimensiones para calcular la distancia de la muestra. De esta manera, cuanto más cerca esté la distancia espacial alrededor del punto objetivo y el tiempo de medición, mayor será el impacto en el valor estimado. del punto objetivo.