La Red de Conocimientos Pedagógicos - Conocimientos universitarios - 19 Prueba de normalidad y estacionariedad

19 Prueba de normalidad y estacionariedad

**Distribución normal y test de normalidad**

Distribución normal (Distribución normal), también conocida como “distribución normal”, también conocida como distribución gaussiana. La distribución normal es una distribución de variables aleatorias continuas con dos parámetros μ y σ^2. El primer parámetro μ es la media de la variable aleatoria que obedece a la distribución normal y el segundo parámetro σ^2 es la varianza de esta variable aleatoria. .

La prueba de normalidad (Prueba de normalidad) es una prueba de hipótesis especial que prueba si un lote de valores de observación (o datos después de la transformación funcional de los valores de observación) o un lote de números aleatorios provienen de la normalidad. En general, si obedece a una distribución normal. Esto es cuando se realiza un análisis estadístico basado en el supuesto de normalidad, y si hay dudas sobre la normalidad de la distribución de la población, se debe realizar una prueba de normalidad. Sin embargo, cuando existe suficiente base teórica o se puede confirmar que la población se distribuye normalmente con base en información pasada, no es necesario realizar una prueba de normalidad.

Estacionariedad'

El concepto de proceso estacionario siempre ha jugado un papel importante en el análisis de series temporales. El llamado proceso de series de tiempo estacionarias es un proceso de series de tiempo en el que la distribución de probabilidad es estable entre períodos en el siguiente sentido: si se selecciona cualquier conjunto de variables de la serie de tiempo y la serie avanza h períodos, entonces su conjunto La distribución de probabilidad permanece sin cambios. Hablando de forma estándar:

Prueba de normalidad de Kolmogorov-Smirnov

En estadística, la prueba de Kolmogorov-Smirnov (también conocida como: prueba K-S) se utiliza para comprobar si los datos se ajustan a un determinado A. Prueba no paramétrica de una distribución, que determina si se cumple la hipótesis de prueba comparando una distribución de frecuencia f(x) con una distribución teórica g(x) o dos distribuciones de valores observados. La hipótesis nula H0: las dos distribuciones de datos son consistentes o los datos se ajustan a la distribución teórica.

La hipótesis nula de la función ks.test para pruebas de normalidad es H0: los datos se ajustan a la distribución normal.

D: Cuanto menor es el valor de D, más cerca está de 0, lo que significa que los datos de la muestra están más cerca de una distribución normal.

p: el valor p es menor que el nivel de significancia α (0,05), entonces se rechaza H0 y los datos no obedecen a la distribución normal.

El resultado de la prueba de ks.test es: D=0.13781, p=0.4776gt; 0.05 No podemos rechazar la hipótesis nula H0, aceptando así la hipótesis nula de que los datos obedecen a la distribución normal.

prueba normal: W=0.958, p=0.1995gt; 0.05, por lo que no se puede rechazar la hipótesis nula de distribución normal, es decir, los datos obedecen a una distribución normal. Prueba ksnormTest: D=0.1378, p=0.4776 (bilateral) gt 0.05, la hipótesis nula de distribución normal no se puede rechazar, es decir, los datos siguen la distribución normal. Diferentes enfoques conducen al mismo objetivo. Aunque diferentes métodos de prueba de normalidad producen diferentes valores estadísticos de prueba y valores P, los resultados finales de la prueba sobre si obedecen a la distribución normal son consistentes.

Nota: Dado que la prueba K-S no necesita conocer la distribución de los datos, es más efectiva en análisis estadísticos de muestras pequeñas. (Para datos de muestra grandes, use la prueba t; para datos de muestras pequeñas, use la prueba t causará desviaciones mayores)

Prueba de normalidad en el paquete nortest

normalidad de lillie. prueba, que es una modificación de la prueba de normalidad K-S y es adecuada para muestras grandes.

Valor D: Cuanto menor es D, más cerca está de 0, lo que significa que los datos de la muestra están más cerca de la distribución normal.

Valor p: Si el valor p es menor que el nivel de significancia α (0,05), entonces Rechace H0 (obedezca la distribución normal)

Según los resultados de la prueba de normalidad de Lilliefor, el valor del estadístico de prueba es D=0,20641, Plt 2,2e-16lt; ; 0,05. Es decir, el resultado de la prueba de normalidad de los datos del precio de cierre diario de CITIC Securities rechaza la hipótesis nula y acepta la hipótesis alternativa de que los datos obedecen a una distribución no normal. Por lo tanto, el dato del precio de cierre diario de CITIC Securities sí. no obedece a la distribución normal.

La prueba de Anderson-Darling es un método de prueba estadístico que se utiliza para comprobar si una muestra determinada proviene de una determinada distribución de probabilidad.

Valor A: Cuanto más pequeño es A, más cerca está de 0, lo que significa que los datos de la muestra están más cerca de una distribución normal.

valor p: Si el valor p es menor que el nivel de significancia α(0,05), rechace H0 (distribución normal).

Según los resultados de la prueba de normalidad de Anderson-Darling, el valor del estadístico de prueba es A=129.1, el valor p es lt 2.2e-16lt, y se niega a obedecer a la normalidad; distribución en el nivel de significancia de 5 Se acepta la hipótesis nula y se acepta la hipótesis nula de que los datos de la serie temporal obedecen a la distribución normal, lo que indica que los datos de la serie temporal no obedecen a la distribución normal.

La prueba de Cramer-von Mises es una prueba integral de EDF del supuesto compuesto de normalidad.

Valor W: Cuanto menor es W, más cerca está de 0, lo que significa que los datos de la muestra están más cerca de la distribución normal.

Valor p: Si el valor p es menor que el nivel de significancia α (0,05), entonces Rechace H0 (la muestra obedece a la distribución normal)

Según los resultados de la prueba, el valor del estadístico de prueba W = 21,613, valor de p = 7,37e- 10lt; 0.05, es decir, se rechaza por ser positiva al nivel de significancia de 5 La hipótesis nula de distribución normal, por lo que la serie temporal no obedece a una distribución normal.

La prueba de Pearsonchi-cuadrado se basa en frecuencias teóricas y frecuencias observadas.

valor p: cuanto más pequeño es P, más cerca está de 0, lo que significa que los datos de la muestra están más cerca de la distribución normal.

valor p: si el p- El valor es menor que el nivel de significancia α (0,05). Entonces se rechaza la hipótesis nula de distribución normal.

De acuerdo con los resultados de la prueba, el valor del estadístico de prueba es P=1850.6, p-valuelt; 2.2e-16lt; por lo tanto se rechaza la hipótesis nula de obedecer a la distribución normal; es decir, la serie temporal no obedece a la distribución normal de estados.

El estadístico de prueba para la prueba de normalidad de Shapiro-Francia es simplemente la correlación al cuadrado entre los valores muestrales ordenados y los cuantiles ordenados (aproximadamente) esperados de la distribución normal estándar.

Valor W: cuanto menor es W, más cerca está de 0, lo que significa que los datos de la muestra están más cerca de la distribución normal.

Valor P: si el valor p es menor que el nivel de significancia α (0,05), entonces Rechaza H0 (la muestra obedece a la distribución normal)

De acuerdo con los resultados de esta prueba, el valor del estadístico de prueba W = 0,74431, p-valuelt; 2.2e-16lt; lt; 0.05, rechazando así la distribución normal. La hipótesis nula es que la serie temporal no obedece a la distribución normal.

Utilizando la misma serie temporal para las pruebas de normalidad, sin importar qué método de prueba se utilice, los resultados son consistentes y los cambios en los métodos no afectarán los resultados finales.

Prueba de normalidad en el paquete fBasics

Shapiro y Wilk propusieron a Shapiro-Wilk utilizar el estadístico de orden W para probar la normalidad de la distribución.

Valor W: cuanto menor es W, más cerca está de 0, lo que significa que los datos de la muestra están más cerca de la distribución normal.

Valor P: si el valor p es menor que el nivel de significancia α (0.05), entonces Rechace H0 (la muestra obedece a la distribución normal)

Realice una prueba de normalidad en los datos que satisfacen la distribución normal y la distribución exponencial respectivamente. Los resultados de la prueba son. : Distribución normal (datos2): valor p=0,4879gt; 0,05, la hipótesis nula no se puede rechazar y se satisface la distribución normal. Distribución exponencial (datos3): valor plt; 2,2e-16lt; 0,05, rechazando la hipótesis nula de distribución normal, los datos no satisfacen la distribución normal.

Prueba de normalidad de D'Agostino

ESTADÍSTICA: Estadístico de prueba de chi-cuadrado (Omnibus), estadístico de prueba de asimetría (Skewness), estadístico de prueba de curtosis (Kurtosis).

Valor de p: valor de p para la prueba general de chi-cuadrado, valor de p para la prueba de asimetría y valor de p para la prueba de curtosis.

Dado que el valor P de la Prueba Ómnibus para distribución normal es 0.3423gt; es decir, la hipótesis nula de distribución normal no se puede rechazar, lo que indica que el experimento es razonable. El valor P de la prueba Omnibus de distribución exponencial es 2,2e-16lt;lt;0,05. Los datos de distribución del índice bursátil rechazan la hipótesis nula de distribución normal, que también es coherente con el sentido común.

La prueba de Jarque-Bera es una prueba de normalidad comúnmente utilizada para muestras grandes.

Alternativamente, puede utilizar la función jarque.bera.test() en el paquete tseries para realizar la prueba de normalidad jarque-Bera, y los resultados de la prueba serán consistentes.

, entonces se rechaza H0 (la muestra obedece a la distribución normal)

Según los resultados de la prueba, el valor P de la distribución normal es mayor que 0,05 y el valor P de la distribución exponencial es inferior a 0,05. Los resultados de la prueba son muy razonables.

Gráfico QQ normal

Para probar la normalidad de los datos, no solo puede utilizar el método de prueba matemático experimental anterior, sino también el método gráfico, es decir, dibujar un QQ normal. trama.

Si los datos siguen la distribución normal, entonces todos los puntos del gráfico caen básicamente en la diagonal de 45 grados. La imagen de arriba es el diagrama QQ de la distribución normal. Obviamente, todos los puntos caen básicamente. en la diagonal de 45 grados en línea.

La imagen de arriba es el diagrama QQ de la distribución exponencial. Obviamente, la mayoría de los puntos de la distribución exponencial no caen en la diagonal de 45 grados, lo que significa que la distribución exponencial no obedece a la distribución normal.

La prueba de estacionariedad es una operación básica para analizar series de tiempo. En términos generales, al realizar un análisis en profundidad de datos de series de tiempo, es necesario probar la estacionariedad de la serie antes de poder realizar un análisis posterior. Existen muchos métodos para las pruebas de estacionariedad. En este experimento, se utilizan los datos de existencias del Banco Agrícola de China para introducir los siguientes métodos de prueba de estacionariedad.

Método de observación gráfica

Dibujar diagramas de series temporales es el método más intuitivo para probar la estacionariedad de las series temporales, pero la desventaja es que no es lo suficientemente preciso y es muy subjetivo.

Una serie de tiempo estacionaria a menudo muestra un proceso de fluctuación continua alrededor de su media en el gráfico;

Sin embargo, una serie de tiempo no estacionaria a menudo muestra diferentes características en diferentes períodos de tiempo. Se puede ver que la serie temporal del precio de cierre diario de las acciones del Banco Agrícola de China tiene una gran volatilidad en diferentes períodos y diferentes tendencias, lo que es obviamente inestable. Para ello, se dibuja un diagrama de sincronización diferencial, que es relativamente suave, pero que no se puede determinar por completo.

La estacionariedad de una serie temporal también se puede determinar observando el gráfico ACF. La función de autocorrelación (ACF) de una serie temporal estacionaria está censurada o tiene cola. Por lo tanto, podemos juzgar si la serie temporal es estacionaria en función de esta característica.

Series de tiempo estacionarias: los coeficientes de autocorrelación de retardo de orden K de las series de tiempo estacionarias son muy pequeños, lo que muestra un fenómeno de truncamiento y el valor de ACF está básicamente dentro del intervalo de confianza.

Serie de tiempo no estacionaria: esta serie tiene una tendencia ascendente o descendente. Para todos los desfases de tiempo cortos, el coeficiente de autocorrelación es grande y positivo, y disminuye lentamente a medida que aumenta el desfase de tiempo k.

En el gráfico ACF del precio de cierre diario de las acciones del Banco Agrícola de China, podemos ver que el ACF disminuye lentamente a medida que k aumenta y el coeficiente de autocorrelación es grande y positivo, por lo que esta serie no es series de tiempo estacionarias.

Prueba de raíz unitaria

La prueba de raíz unitaria (prueba de raíz unitaria) es un método especial de prueba de estacionariedad propuesto para determinar si varias series de tiempo tienen ciertas características estadísticas. Existen muchos métodos para. Prueba de raíz unitaria, incluida la prueba DF, la prueba ADF, la prueba PP, etc.

Prueba DF

Dado que el valor del estadístico de prueba es -2,9374, es mayor que el valor crítico en el nivel de significancia de 1, 5 y 10, es decir, en La hipótesis nula de que existe una raíz unitaria no puede rechazarse en los niveles de significancia de 1, 5 y 10. Por lo tanto, la serie tiene una raíz unitaria y es una serie temporal no estacionaria.

Prueba ADF

Según el resultado de la prueba ADF, DF=-2.5294, el valor de P es 0.3542gt, es decir, en el nivel de significancia de 5, la hipótesis original de que; existe una raíz unitaria y no se puede rechazar. Supongamos, por tanto, que la serie temporal no es estacionaria.

Prueba PP

La función pp.test() utilizada en la prueba PP proviene del paquete tseries. La hipótesis nula es: la secuencia tiene una raíz unitaria. El valor del estadístico de prueba es -14,718 y el valor p es 0,2888gt;0,05, por lo que la hipótesis nula no se puede rechazar en el nivel de significancia de 5 y la serie es una serie de tiempo no estacionaria.