La Red de Conocimientos Pedagógicos - Conocimientos educativos - [Texto original] Algoritmo de muestreo para preservar los detalles de fluctuación de los datos de series temporales

[Texto original] Algoritmo de muestreo para preservar los detalles de fluctuación de los datos de series temporales

Primero, revisemos el concepto de datos de series de tiempo. Una secuencia que genera continuamente nuevos datos a medida que cambia el tiempo se denomina datos de series de tiempo. Los datos de series de tiempo a menudo aparecen en escenarios de monitoreo, como la utilización de la CPU del servidor, la utilización de la memoria, etc.

Una de las principales características de los datos de series de tiempo es que los datos a menudo saltan rápidamente con el tiempo, como se muestra en la siguiente figura:

Como se puede ver en la figura, debido a que Los puntos de datos son demasiado densos, las fluctuaciones son muy frecuentes, todos los puntos de datos se han superpuesto una vez después de estar conectados por líneas de puntos y el efecto de visualización es muy pobre, por lo que es necesario muestrear los puntos de datos originales, por ejemplo, 10,000 datos originales. Los puntos se muestrean en 200 puntos de datos.

Un algoritmo de muestreo de datos simple consiste en encontrar los valores estadísticos medio, máximo y mínimo. Por ejemplo, en el ejemplo anterior de muestreo de 10,000 puntos de datos originales en 200 puntos de datos, los puntos de datos originales se pueden dividir en 200 grupos, cada grupo contiene 50 puntos de datos originales (200 * 50 = 10000) y luego todos los datos originales. Los puntos de cada grupo se promedian. Los puntos de datos se promedian.

Este algoritmo es muy simple, pero tiene un problema, es decir, pierde muchos detalles de las fluctuaciones de los datos originales, como se muestra en la siguiente figura:

El gris La línea de la figura son los datos originales y el color es muy diferente. Las líneas oscuras son datos de muestra. Se puede ver que los datos se vuelven más fluidos después del muestreo y se pierden muchos detalles. En particular, un valor máximo muy obvio en los datos originales en el cuadro rojo se borró directamente. Este valor máximo probablemente representa una anomalía comercial.

En el artículo "Downsampling Time Series for Visual Presentation", se menciona un algoritmo de muestreo de datos LTTB (hay varios otros algoritmos similares, consulte el artículo), que puede retener los datos durante el muestreo. Las fluctuaciones de los datos originales y los principios específicos no serán elaborados. El efecto del algoritmo se muestra aquí.

Puede usarse ampliamente en el monitoreo de productos y puede resolver los dos problemas siguientes: