[Texto original] Algoritmo de muestreo para preservar los detalles de fluctuación de los datos de series temporales
Una de las principales características de los datos de series de tiempo es que los datos a menudo saltan rápidamente con el tiempo, como se muestra en la siguiente figura:
Como se puede ver en la figura, debido a que Los puntos de datos son demasiado densos, las fluctuaciones son muy frecuentes, todos los puntos de datos se han superpuesto una vez después de estar conectados por líneas de puntos y el efecto de visualización es muy pobre, por lo que es necesario muestrear los puntos de datos originales, por ejemplo, 10,000 datos originales. Los puntos se muestrean en 200 puntos de datos.
Un algoritmo de muestreo de datos simple consiste en encontrar los valores estadísticos medio, máximo y mínimo. Por ejemplo, en el ejemplo anterior de muestreo de 10,000 puntos de datos originales en 200 puntos de datos, los puntos de datos originales se pueden dividir en 200 grupos, cada grupo contiene 50 puntos de datos originales (200 * 50 = 10000) y luego todos los datos originales. Los puntos de cada grupo se promedian. Los puntos de datos se promedian.
Este algoritmo es muy simple, pero tiene un problema, es decir, pierde muchos detalles de las fluctuaciones de los datos originales, como se muestra en la siguiente figura:
El gris La línea de la figura son los datos originales y el color es muy diferente. Las líneas oscuras son datos de muestra. Se puede ver que los datos se vuelven más fluidos después del muestreo y se pierden muchos detalles. En particular, un valor máximo muy obvio en los datos originales en el cuadro rojo se borró directamente. Este valor máximo probablemente representa una anomalía comercial.
En el artículo "Downsampling Time Series for Visual Presentation", se menciona un algoritmo de muestreo de datos LTTB (hay varios otros algoritmos similares, consulte el artículo), que puede retener los datos durante el muestreo. Las fluctuaciones de los datos originales y los principios específicos no serán elaborados. El efecto del algoritmo se muestra aquí.
Puede usarse ampliamente en el monitoreo de productos y puede resolver los dos problemas siguientes: