Análisis de componentes principales y análisis factorial e implementación de SPSS
Análisis de componentes principales y análisis factorial e implementación de SPSS
1 Análisis de componentes principales
(1) Planteamiento del problema En la investigación del problema, para no omitir. y ser preciso Para el análisis, a menudo es necesario cubrir todos los aspectos y obtener una gran cantidad de indicadores para el análisis. Por ejemplo, para estudiar los factores que influyen en una determinada enfermedad, podemos recopilar decenas de indicadores, como información demográfica de los pacientes, historial médico, signos físicos, exámenes de laboratorio, etc. Si estos indicadores se incorporan directamente al análisis estadístico multivariado, el modelo no sólo se volverá complejo e inestable, sino que también puede causar errores mayores debido a la linealidad multilineal entre variables. ¿Existe alguna forma de condensar la información, reducir el número de variables y eliminar la multilinealidad al mismo tiempo? En este momento, el análisis de componentes principales hace su gran debut. (2) Principio del análisis de componentes principales. La esencia del análisis de componentes principales es la transformación de rotación de coordenadas, que recombina linealmente las n variables originales para generar n nuevas variables que no están relacionadas entre sí y se denominan n "Elemento". Al mismo tiempo, de acuerdo con el principio de maximización de la varianza, se garantiza que la varianza del primer componente sea la mayor y luego disminuya secuencialmente. Estos n componentes están ordenados de mayor a menor en varianza, y los primeros m componentes pueden contener la mayor parte de la varianza (y la información de variación) de la variable original. Entonces estos m componentes se convierten en los "componentes principales" de la variable original y contienen la mayor parte de la información de la variable original. Tenga en cuenta que los componentes principales obtenidos no son las variables restantes después de filtrar las variables originales, sino las "variables integrales" después de que se han recombinado las variables originales. Utilizamos los datos bidimensionales más simples para explicar intuitivamente el principio del análisis de componentes principales. Supongamos que hay dos variables X1 y , como se muestra a continuación: Según el principio de cambio de coordenadas, podemos calcular: Y1 = sqrt(2)/2 * X1 sqrt(2)/2 * X2Y2 = sqrt(2)/2 * X1 – sqrt(2)/2 * X2 donde sqrt(x) es la raíz cuadrada de x. Combinando linealmente X1 y X2, se obtienen dos nuevas variables Y1 e Y2. En este momento, Y1 e Y2 ya no son relevantes y la variación (varianza) en la dirección Y1 es grande, mientras que la variación (varianza) en la dirección Y2 es pequeña. En este momento, podemos extraer Y1 como el componente principal. de X1 y X2 para participar en análisis estadísticos posteriores porque contiene la mayor parte de la información sobre las variables originales. Hasta ahora hemos resuelto dos problemas: reducción de dimensionalidad y eliminación de linealidad. Para datos con más de dos dimensiones, no se pueden representar intuitivamente mediante las figuras geométricas anteriores y solo se pueden resolver mediante transformación matricial, pero la idea esencial es la misma.
2. Análisis factorial (1) Principios y métodos: El análisis factorial es una extensión del análisis de componentes principales. En el proceso de análisis de componentes principales, la nueva variable es una combinación lineal de las variables originales, es decir, múltiples variables originales se someten a una transformación lineal (coordenada) para obtener una nueva variable. En el análisis factorial, la estructura de correlación intrínseca entre las variables originales se agrupa en un grupo, y la correlación entre grupos es débil, de esta manera, cada grupo de variables representa un elemento básico (factor común). Las variables originales se descomponen a través de relaciones complejas entre las variables originales para obtener factores comunes y factores especiales. Representar las variables originales como una combinación lineal de factores comunes. El factor común es la característica común a todas las variables originales, mientras que el factor especial es la parte única de la variable original. El análisis factorial enfatiza la interpretación del significado real de nuevas variables (factores).
Por ejemplo: En una investigación de mercado, recopilamos cinco indicadores de alimentos (x1-x5): sabor, precio, sabor, comida rápida o no y energía. Luego del análisis factorial, encontramos: x1 = 0,02 * z1 0,99 * z2 e1x2 =. 0,94 * z1 – 0,01 * z2 e2x3 = 0,13* z1 0,98 * z2 e3x4 = 0,84 * z1 0,42 * z2 e4x5 = 0,97 * z1 – 0,02 * z2 e1 (el número anterior representa el coeficiente de correlación real entre variables, cuanto mayor sea el valor cuanto mayor es la correlación, mayor es la correlación) El primer factor común z1 está relacionado principalmente con el precio, comida rápida o no, y la energía, que representa "precio y nutrición". El segundo factor común z2 está relacionado principalmente con el gusto y el sabor, que representa ". gusto" e1-5 es Los factores especiales son aquellos que no se pueden explicar entre los factores comunes y generalmente se omiten en el análisis. Al mismo tiempo, también podemos expresar los factores comunes z1 y z2 como combinaciones lineales de las variables originales para análisis posteriores. (2) Condiciones de uso: (1) El tamaño de la muestra es lo suficientemente grande. Generalmente se requiere que el tamaño de la muestra sea más de 5 veces el número de variables y mayor que 100 casos. (2) Existe una correlación entre las variables originales. Si las variables son independientes entre sí, no se puede utilizar el análisis factorial. La prueba KMO y la prueba de esfericidad de Bartlett se pueden utilizar para juzgar en SPSS. (3) Los factores comunes generados deben tener importancia práctica, que puede lograrse mediante la rotación de factores (cambio de coordenadas) si es necesario. 3. La conexión y diferencia entre el análisis de componentes principales y el análisis factorial: ambos son métodos de reducción de dimensionalidad y concentración de información. Las nuevas variables generadas representan la mayor parte de la información de las variables originales y son independientes entre sí, y pueden usarse para análisis de regresión posteriores, análisis discriminantes, análisis de conglomerados, etc. Diferencias: (1) El análisis de componentes principales genera nuevas variables según el método de maximización de la varianza. Enfatiza la proporción de varianza aportada por las nuevas variables y no le importa si las nuevas variables tienen un significado práctico claro. (2) El análisis factorial se centra en exigir que las nuevas variables tengan importancia práctica y puedan explicar la estructura interna entre las variables originales. SPSS no proporciona un método de análisis de componentes principales separado, sino que lo combina con el análisis factorial. A continuación se utiliza un ejemplo para analizar los métodos de implementación del análisis de componentes principales y el análisis factorial y cuestiones relacionadas. 1. Se plantea la cuestión. La competición de decatlón masculino incluye diez pruebas: 100 metros de carrera, salto de longitud, salto de altura, salto con pértiga, lanzamiento de peso, disco, jabalina, 400 metros de carrera, 1500 metros de carrera y 110 metros. vallas. La puntuación total es la suma de las puntuaciones de cada evento y. Para analizar qué aspectos de las capacidades del decatlón se ponen a prueba principalmente para realizar un entrenamiento específico, los investigadores recopilaron los expedientes académicos del decatlón de 134 atletas de alto nivel y lograrán el objetivo del análisis mediante el análisis factorial. 2. Analizar vista de variables de proceso: Vista de datos (parte): Selección de menú (Análisis-gt; Reducción de dimensionalidad-gt; Análisis factorial):
Abra la interfaz principal de análisis factorial y seleccione los diez resultados." Variables" (no incluye la puntuación total), de la siguiente manera: Haga clic en el botón "Descripción" para abrir el cuadro de diálogo, seleccione "Coeficientes" y "Prueba de esfericidad de KMO y Bartlett":
Explicaciones relacionadas Para la figura anterior: "Coeficiente": es una matriz de coeficientes de correlación entre variables, que puede analizar intuitivamente la correlación. "Prueba de esfericidad de KMO y Bartlett": se utiliza para probar cuantitativamente si existe una correlación entre variables. Haga clic en "Continuar" para regresar a la interfaz principal, haga clic en "Extraer" para abrir el cuadro de diálogo. "Método" => "Componentes principales", "Salida" => "Solución de factor sin rotar" y "Gráfico de trama", "Extracción" => "Basado en valores propios" y las selecciones restantes son las predeterminadas.
Explicación: ① Método de extracción de factores: simplemente seleccione el método del componente principal predeterminado. Los resultados del cálculo de otros métodos pueden ser diferentes. ②Salida: "Solución de factores no rotados" es el resultado del análisis de componentes principales. El diagrama de pedregal nos ayuda a juzgar la importancia de los factores (consulte los detalles a continuación). ③Extracción: este es un método para extraer componentes principales (factores), generalmente basado en valores propios mayores que 1, y el valor predeterminado es suficiente. Haga clic en "Continuar" para regresar a la interfaz principal, haga clic en "Aceptar" para ingresar al análisis.
Las principales tablas de resultados son las siguientes: (1) Prueba de correlación El análisis factorial requiere correlación entre variables, por lo que primero se debe realizar una prueba de correlación. El primer resultado es la matriz de coeficientes de correlación entre variables:
Puedes ver intuitivamente que existe una correlación entre variables. Pero es necesario probarlo, y el siguiente resultado es la prueba de correlación: hay dos indicadores en la imagen de arriba: el primero es el valor KMO. Generalmente, si es mayor que 0,7, no significa que exista una correlación. entre ellos. La segunda es la prueba de esfericidad de Bartlett, con un valor de P <0,001. La combinación de los dos indicadores muestra que existe una correlación entre las variables y se puede realizar un análisis factorial. De lo contrario, no se puede realizar el análisis factorial. (2) Extraiga los componentes principales y los factores comunes y luego genere los resultados de los componentes principales:
Este es el resultado del análisis de los componentes principales. La primera columna de la tabla contiene 10 componentes; "valores propios" correspondientes, representa el tamaño de la varianza explicada; la tercera columna es el porcentaje de varianza contenida en el componente correspondiente a la varianza total; la cuarta columna es el porcentaje acumulado. En términos generales, el componente con un "valor propio" mayor que 1 se selecciona como componente principal, que también es la opción predeterminada de SPSS. En este ejemplo, los componentes 1 y 2 tienen valores propios mayores que 1 y juntos explican el 71,034 de la varianza, lo cual no está nada mal. Por lo tanto, podemos extraer 1 y 2 como componentes principales para capturar la contradicción principal. Los componentes restantes contienen menos información, por lo que se descartan. A continuación, genere el gráfico de pedregal de la siguiente manera: El gráfico de pedregal proviene del concepto de geología. A menudo se encuentran muchas pequeñas rocas debajo de las laderas rocosas, que tienen poca importancia geológica. Un diagrama de pedregal tiene valores propios como eje vertical y componentes como eje horizontal. La parte empinada en el frente tiene un valor propio grande y contiene mucha información, mientras que la parte plana en la parte posterior tiene un valor propio pequeño y contiene poca información. Se puede ver intuitivamente en la figura que los componentes 1 y 2 contienen la mayor parte de la información e ingresan a la plataforma a partir del 3. A continuación, genere la matriz de componentes extraída:
Los valores en la tabla anterior son los coeficientes de correlación entre los factores comunes y las variables originales. Cuanto mayor es el valor absoluto, más cercana es la relación. El factor común 1 se correlaciona positivamente con los 9 elementos deportivos (tenga en cuenta el método de puntuación de los deportes de carrera, cuanto más corto es el tiempo, mayor es la puntuación. Parece que sólo se puede llamar un factor de "deportes integrales"). El factor común 2 está correlacionado positivamente con el lanzamiento de disco y peso, y negativamente con la carrera de 1500 metros y la carrera de 400 metros. ¿Qué significa esto? Parece que sólo puede convertirse en el factor "iniinteligible". (3) Rotación de factores Uno de los dos factores comunes extraídos anteriormente es un "factor integral" grande y completo, y el otro es incomprensible. Obtener tal resultado es sin duda un fracaso del análisis. Sin embargo, no te desanimes, podemos obtener una mejor explicación rotando los factores. Haga clic en el botón "Rotar" en la interfaz principal para abrir el cuadro de diálogo, "Método" = gt; "Método de varianza máxima", "Salida" = gt;
Haga clic en "Continuar", regrese a la interfaz principal y haga clic en "Confirmar" para realizar el análisis. El resultado es el siguiente: Esta es la matriz de componentes después de la selección. Después de la rotación, se puede ver que cuanto mayor sea el puntaje del factor común 1, peores serán los resultados de todas las carreras y vallas, y peores los resultados del salto de longitud, salto con pértiga y otros eventos que requieren una carrera, por lo que el El factor común 1 representa la capacidad para correr. El indicador inverso se puede llamar "capacidad para correr". El factor común 2 tiene una alta correlación positiva con el lanzamiento de disco y peso, y también se correlaciona positivamente con eventos que requieren fuerza de la parte superior del cuerpo, como la jabalina y el salto con pértiga, por lo que este factor puede convertirse en "fuerza de la parte superior del cuerpo". Después de la rotación, se puede ver que el factor común tiene una explicación más razonable. (4) El resultado se guarda al final y también necesitamos almacenar los factores comunes para su uso posterior. Haga clic en el botón "Puntuación" para abrir el cuadro de diálogo, seleccione "Guardar como variable", utilice el método predeterminado "Regresión" y seleccione "Mostrar matriz de coeficientes de puntuación del factor".
SPSS generará automáticamente dos nuevas variables, que son los valores de los factores comunes, y las pondrá al final de los datos. Al mismo tiempo, se generará una tabla de coeficientes de factores:
De la figura anterior, podemos escribir la expresión del factor común (use F1 y F2 para representar los dos factores comunes, Z1 ~ Z10 representan las variables originales respectivamente): F1 = -0.16*Z1 0.161*Z2 0.145*Z3 0.199*Z4-0.131*Z5-0.167*Z6 0.137*Z7 0.174*Z8 0.131*Z9-0.037*Z10F2 es el mismo y se omite.
Tenga en cuenta que las variables Z1 ~ Z10, F1 y F2 aquí ya no son las variables originales, sino variables después de la transformación normal estándar.