La Red de Conocimientos Pedagógicos - Conocimientos de formación/capacitación - Método de análisis de componentes principales del método de índice de factor único

Método de análisis de componentes principales del método de índice de factor único

El entorno geográfico es un sistema complejo con múltiples elementos Cuando realizamos análisis de sistemas geográficos, a menudo nos encontramos con problemas de múltiples variables. Sin duda, demasiadas variables aumentarán la dificultad y complejidad del problema de análisis y, en muchos problemas prácticos, existe una cierta correlación entre múltiples variables. Por lo tanto, naturalmente pensaremos si, según el estudio de la correlación entre varias variables, podemos reemplazar las más variables originales con menos variables nuevas y mantener estas menos variables nuevas tanto como sea posible. Resulta que se reflejan más variables. ¿información? De hecho, esta idea se puede realizar y el método de análisis de componentes principales que se presentará en esta sección es un método poderoso para abordar este problema de manera integral.

Sección 1: El principio del análisis de componentes principales

El análisis de componentes principales es un método de análisis estadístico que convierte múltiples variables originales en unos pocos indicadores integrales. Desde una perspectiva matemática, vea esto. es una técnica de procesamiento de reducción de dimensionalidad. Supongamos que hay n muestras geográficas y que cada muestra se describe mediante p variables. Esto forma una matriz de datos geográficos de orden n×p:

Cómo aprovechar los datos de tantas variables ¿Qué pasa con la regularidad inherente? de las cosas geográficas? Para resolver este problema, naturalmente tenemos que examinarlo en un espacio p-dimensional, lo cual es bastante problemático. Para superar esta dificultad, es necesario realizar una reducción de dimensionalidad, es decir, utilizar menos indicadores completos para reemplazar los indicadores originales más variables y hacer que estos indicadores menos completos reflejen tanto como sea posible la información reflejada de los indicadores originales más variables. y al mismo tiempo son independientes entre sí. Entonces, ¿cómo deberían seleccionarse estos indicadores integrales (es decir, nuevas variables)? Obviamente, su forma más simple es tomar una combinación lineal de los indicadores variables originales y ajustar adecuadamente el coeficiente de combinación para hacer que los nuevos indicadores variables sean independientes entre sí y más representativos.

Si los indicadores variables originales se registran como x1, x2,..., xp, sus indicadores integrales, los nuevos indicadores variables son x1, x2,..., zm (m≤p). Entonces

En la fórmula (2), el coeficiente lij está determinado por los siguientes principios:

(1)zi y zj (i≠j; i, j=1, 2, … , m) no están relacionados entre sí;

(2) z1 es la que tiene la mayor varianza entre todas las combinaciones lineales de x1, x2,..., z2 es todas las combinaciones lineales de x1, x2,..., xp que no están relacionados con z1 El que tiene mayor varianza entre las combinaciones lineales;...;zm es el que tiene mayor varianza entre todas las combinaciones lineales de x1, x2,... ,xp que no están relacionados con z1, z2,...zm-1.

Los nuevos indicadores variables z1, z2,…,zm determinados de esta manera se denominan respectivamente primer, segundo,…, m-ésimo componente principal de los indicadores variables originales x1, x2,…,xp. Entre ellos, z1 representa la mayor proporción de la varianza total, y las varianzas de z2, z3,..., zm disminuyen en secuencia. En el análisis de problemas prácticos, a menudo se seleccionan los primeros componentes principales más grandes, lo que no solo reduce el número de variables, sino que también captura las principales contradicciones y simplifica la relación entre variables.

Se puede ver en el análisis anterior que encontrar los componentes principales es determinar que la variable original xj (j=1, 2,..., p) está en los componentes principales zi (i= 1, 2,..., m) Las cargas lij (i=1, 2,...,m; j=1, 2,...,p) son fáciles de conocer matemáticamente. Son las m mayores. de las matrices de correlación de x1, x2,...,xp respectivamente. El vector propio correspondiente al valor propio.

Sección 2: Solución del Análisis de Componentes Principales

Pasos de Cálculo del Análisis de Componentes Principales

A través de la introducción anterior de los principios básicos del análisis de componentes principales, podemos Los pasos de cálculo del análisis de componentes se resumen a continuación:

(1) Calcular la matriz de coeficientes de correlación

En la fórmula (3), rij (i, j=1, 2,. .., p) es Resulta que el coeficiente de correlación entre las variables xi y xj se calcula como:

Debido a que R es una matriz simétrica real (es decir, rij=rji), sólo es necesario calcular su valor superior elemento triangular o elemento triangular inferior.

(2) Calcular valores propios y vectores propios

Primero resuelve la ecuación característica |λI-R|=0 para encontrar el valor propio λi (i=1, 2,... , p) , y organícelos en orden de tamaño, es decir, λ1≥λ2≥..., ≥λp≥0, luego encuentre los vectores propios ei (i=1, 2,..., p) correspondientes al valor propio; λi respectivamente.

(3) Calcular la tasa de cotización del componente principal y la tasa de cotización acumulada

Generalmente, los valores característicos λ1, λ2,..., λm correspondientes a la tasa de cotización acumulada de Se toman el 85-95% uno, el segundo,..., el m (m≤p)ésimo componente principal.

(4) Calcular la carga del componente principal

A partir de esto, se puede calcular aún más la puntuación del componente principal:

Sección 3 Ejemplo de aplicación del análisis de componentes principales

Ejemplo de análisis de componentes principales

Para un determinado sistema geomorfológico-hidrológico regional, nueve elementos geográficos de sus 57 cuencas de drenaje: x1 es la altura total de la cuenca de drenaje (m) x2 es la altitud de el paso de montaña de la cuenca de drenaje (m), x3 es el perímetro de la cuenca de drenaje (m), x4 es la longitud total del cauce del río (km), x5 es el río

Tabla 2- 14 Datos de elementos geográficos de 57 cuencas de drenaje determinadas

El número total de canales, x6 es la tasa de bifurcación promedio, x7 es la pendiente máxima del valle (grados), x8 es el número de fuentes de ríos, y x9 es el área de la cuenca de drenaje (km). Los datos originales se muestran en la Tabla 2-14. El Sr. Zhang Chao (1984) utilizó los datos originales de estos elementos geográficos para realizar un análisis de componentes principales del sistema geomorfológico-hidrológico de la región. A continuación, lo presentamos a los lectores como un ejemplo de aplicación del método de análisis de componentes principales en la investigación geográfica como referencia.

Tabla 2-15 Matriz de coeficientes de correlación

(1) Primero, estandarice los datos originales en la Tabla 2-14 y calcule la matriz de coeficientes de correlación de acuerdo con la fórmula (4) (consulte Tabla 2-15).

(2) Calcule los valores propios a partir de la matriz de coeficientes de correlación, así como la tasa de contribución y la tasa de contribución acumulada de cada componente principal (consulte la Tabla 2-16). En la Tabla 2-16, podemos ver que la tasa de contribución acumulada del primer, segundo y tercer componente principal llega al 86,5%, por lo que solo necesitamos encontrar el primer, segundo y tercer componente principal z1, z2, y z3.

Tabla 2-16 Valores propios y tasas de contribución del componente principal

(3) Para los valores propios λ1=5.043, λ2=1.746 y λ3=0.997, encuentre el vector propio e1 respectivamente, e2, e3, y calcule la carga de cada variable x1, x2,..., x9 en cada componente principal para obtener la matriz de carga del componente principal (consulte la Tabla 2-17).

Tabla 2-17 Matriz de carga de componentes principales

Como se puede observar en la Tabla 2-17, el primer componente principal z1 tiene una relación mayor con x1, x3, x4, x5, x8 y x9 Existe una gran correlación positiva, esto se debe a que estos seis elementos geográficos están relacionados con la escala de la cuenca de drenaje. Por lo tanto, el primer componente principal puede considerarse como representativo de la escala de la cuenca de drenaje. El componente principal z2 tiene una gran correlación positiva con x2, y x7 tiene una gran correlación negativa, y estos dos elementos geográficos están relacionados con el grado de corte de la cuenca, por lo que el segundo componente principal puede considerarse como un representante del estado de erosión de la cuenca. cuenca; el tercer componente principal z3 tiene una gran correlación positiva con x6, y el elemento geográfico x6 es una característica relativamente independiente de la cuenca: una representación de la morfología del sistema fluvial. Por lo tanto, el tercer componente principal puede considerarse como el componente principal. Representando la morfología del sistema fluvial.

Los resultados del análisis anterior muestran que, según las cargas de los componentes principales, los nueve elementos geográficos del sistema geomorfológico-hidrológico regional se pueden clasificar en tres categorías, a saber, el tamaño de la cuenca de drenaje, el estado de erosión de la cuenca de drenaje, y la morfología del sistema fluvial de la cuenca de drenaje. Si se selecciona como representante el que tiene el mayor valor absoluto del coeficiente de correlación, entonces el área de drenaje, la altitud de la salida de la cuenca de drenaje y la tasa de bifurcación se pueden utilizar como representantes de estos tres tipos de elementos geográficos. Se puede utilizar para reemplazar los nueve elementos originales para realizar geomorfología regional. El análisis del sistema hidrológico puede simplificar enormemente el problema.

II.Contaminación del Índice de Calidad del Agua de Nemeiro

Tabla 1 Criterios de Clasificación del Grado de Contaminación del Índice de Calidad del Agua de Nemeiro P <1 1~2 2~3 3~5 >5 Nivel de Calidad del Agua Limpia Luz Contaminación Contaminación intensa Contaminación grave Tabla 2 Estándar de calidad ambiental de las aguas superficiales (GB3838-2002) Unidad: mg/L Elemento del número de serie Valor estándar de Clase V 1 Temperatura del agua (℃) — 2 Valor de PH (adimensional) 6-9 3 Oxígeno disuelto ≥ 2 4 Índice de permanganato ≤ 15 5 Demanda química de oxígeno ≤ 40 6 Demanda bioquímica de oxígeno en cinco días ≤ 10 7 Nitrógeno amoniacal ≤ 2,0 8 Fósforo total ≤ 0,4 9 Nitrógeno total ≤ 2,0 10 Cobre ≤ 1,0 11 Zinc ≤ 2,0 12 Fluoruro ≤ 1,5 Selenio ≤ 0,02 14 Arsénico ≤ 0,1 15 Mercurio ≤ 0,001 16 Cadmio ≤ 0,01 17 Cromo (hexavalente) ≤ 0,1 18 Plomo ≤ 0,1 19 Cianuro ≤ 0,2 20 Fenol volátil ≤ 0,1 21 Petróleo ≤ 1,0 22 Sulfuro ≤ 1. 0 23 Coliformes fecales (piezas/L ) ≤ 40000 Tabla 3 Método de cálculo para la evaluación de la calidad del agua Índice de contaminación de factor único Pi = Ci/ Si Ci - valor de seguimiento del i-ésimo contaminante Si - valor estándar de evaluación del i-ésimo contaminante Índice de oxígeno disuelto Cf - el saturado; concentración de oxígeno disuelto correspondiente a la temperatura T;

Ci - el valor de control de la concentración de oxígeno disuelto;

Si - el valor estándar de evaluación del oxígeno disuelto pHi - valor de control del pH;

pHS,min - el límite inferior del valor estándar de evaluación;

pHS,max - el límite superior del valor estándar de evaluación que excede el estándar múltiple Ci — —El valor de monitoreo; del i-ésimo contaminante;

C0: el valor estándar de evaluación del i-ésimo contaminante. Índice de Nemerow Pmax: el valor más alto del índice de contaminación de un solo factor;

Pi; - el índice de contaminación del i-ésimo contaminante;

n - el número de elementos que participan en la evaluación de los contaminantes uno de los métodos de ponderación objetivos comúnmente utilizados: método de entropía

Entropía; es una cantidad que mide la incertidumbre de un sistema en la teoría de la información. Cuanto mayor es la cantidad de información, menor es la incertidumbre y menor la entropía. Por el contrario, cuanto menor es la cantidad de información, mayor es la incertidumbre y mayor la entropía. El método del valor de entropía utiliza principalmente el valor de entropía del indicador para determinar el peso del indicador en función de la cantidad de información contenida en cada valor del indicador. Los pasos generales del método de entropía son:

(1) Estandarizar la matriz de decisión para obtener la matriz estandarizada y realizar la normalización para obtener:

(2) Calcular el valor de entropía de el índice:. en.

(3). Calcular el coeficiente de diferencia del enésimo indicador. Para el décimo indicador, cuanto mayor es la diferencia en los valores de los indicadores, mayor es el efecto en la evaluación del programa y menor es el valor de entropía. Por el contrario, cuanto menor es la diferencia, menor es el efecto en la evaluación del programa y mayor es la entropía. valor. Por tanto, el coeficiente de diferencia se define como:.

(4). Determinar el peso de los indicadores. El peso del primer indicador es :.

Métodos estandarizados para indicadores de beneficios y costos

Para indicadores de beneficios (positivos) e indicadores de costos (inversos), dado que estos dos son los indicadores más comunes y ampliamente utilizados, existen Los métodos de procesamiento más estandarizados para estos dos indicadores son:

1. Método de transformación de rango.

Este método está en la matriz de decisión, para indicadores de tipo beneficio, sea<. /p>

=

Para indicadores de tipo costo, sea

=

entonces la matriz obtenida se llama matriz de normalización de transformación de diferencia extrema. La ventaja es que después de la transformación del rango, ambos están disponibles y el valor de atributo con el mejor resultado y el valor de atributo con el peor resultado en cada indicador están disponibles. La desventaja de este método es que los valores del índice antes y después de la transformación no son proporcionales.

2. Método de transformación proporcional lineal

Es decir, en la matriz de decisión, para indicadores de tipo beneficio, sea

para el índice de indicadores de tipo costo, sea

=

o

=

entonces la matriz se llama escala lineal normalizada matriz. La ventaja de este método es que estos métodos de transformación son lineales y los valores de los atributos antes y después del cambio son proporcionales. Pero para cualquier indicador, la suma transformada no necesariamente aparece al mismo tiempo.

3. Método de normalización vectorial

Es decir, en la matriz de decisión, para los indicadores de beneficios, sea

Para los indicadores de costos, sea

La matriz se llama matriz vectorial normalizada. Obviamente, el módulo de los vectores columna de la matriz es igual a 1, es decir. Este método mantiene las direcciones de avance y retroceso sin cambios antes y después de la transformación. La desventaja es que es una transformación no lineal y los valores máximo y mínimo de cada indicador después de la transformación son diferentes.

4. Método de transformación de muestra estándar

En, sea

dónde, media muestral, error cuadrático medio muestral, luego se obtiene la matriz, que es llamada matriz de transformación de muestra estándar. Después de la transformación de muestra estándar, la media muestral de la matriz estandarizada es y la varianza es.

5. Método del coeficiente equivalente

Para los indicadores de costos, sea

=

La ventaja de este método es que los indicadores antes y después de la transformación La desventaja es que los mejores y peores valores de índice del esquema bajo cada índice no son exactamente los mismos después de la normalización.

Además, en cuanto a la estandarización de indicadores de beneficios:

=

En cuanto a la estandarización de indicadores de costos, se encuentran:

=

Métodos de estandarización de indicadores fijos

Para indicadores fijos, si se establece en un valor fijo determinado, los principales métodos de estandarización son los siguientes, es decir,

p>

o

o

o

La característica de la fórmula (4.15) es que el valor estandarizado de cada valor de atributo óptimo es 1, y Los valores estandarizados de los peores atributos no son uniformes, es decir, no necesariamente son todos 0.

Si y son respectivamente la solución óptima prescrita artificialmente y la peor solución, en este caso también se proporciona un nuevo método de estandarización para indicadores fijos, basados ​​en beneficios y costos.

Para indicadores de tipo beneficio y tipo costo, existen:

Para indicadores de tipo fijo, existen:

Método de estandarización para indicadores de tipo intervalo

Para los indicadores de tipo intervalo, los principales métodos para la estandarización del índice son los siguientes:

Supongamos, let

o let

Obviamente , también se puede simplificar a:

O let

O let

Entre ellos, se refiere a un intervalo fijo dado, es decir, cuanto más cerca esté El valor del atributo es a este intervalo, mejor.

Método de estandarización de indicadores de desviación

Para indicadores de desviación que cada vez se desvían más de un determinado valor, mejor, generalmente se utiliza la siguiente fórmula de estandarización:

O let

(Ambos pares)

O let

El indicador de desviación es un tipo de indicador opuesto al indicador fijo. Se puede utilizar su fórmula. como fijo Se modifica la fórmula del índice, pero al usarlo se debe prestar atención al alcance aplicable de la fórmula.

Método de estandarización de indicadores de intervalo de desviación

Para indicadores de intervalo de desviación, existen los siguientes métodos de estandarización:

Dejar

o dejar

O let

dónde, hay un cierto intervalo fijo, y cuanto más se desvíe el valor del atributo de este intervalo, mejor. Los indicadores de intervalo de desviación son un tipo de indicador opuesto a los indicadores de intervalo.