La Red de Conocimientos Pedagógicos - Conocimientos matemáticos - Descripción general del análisis estadístico multivariado

Descripción general del análisis estadístico multivariado

Los enlaces a las notas de estudio de cada capítulo se agregarán más adelante

El análisis estadístico multivariado es una disciplina que estudia la interdependencia entre múltiples variables aleatorias y sus leyes estadísticas inherentes

En el resumen del contenido básico de la estadística, considerar únicamente el impacto de uno o varios factores sobre un indicador de observación (variable) se denomina análisis estadístico univariado.

Si consideramos el impacto de uno o varios factores sobre dos o más indicadores de observación (variables), o la interdependencia de múltiples indicadores de observación (variables), se denomina análisis estadístico multivariado.

Hay dos categorías principales, que incluyen:

Clasificar datos y descubrir las conexiones y patrones inherentes entre ellos.

Las técnicas de análisis de conglomerados y análisis discriminante se utilizan generalmente para construir modelos de clasificación.

Encontrar el mejor subconjunto de cada variable entre muchos factores y describir el modelo multivariado según la confianza contenida. en el subconjunto, los resultados del sistema y el impacto de cada factor en el sistema se descartan para simplificar la estructura del sistema y comprender el núcleo del sistema (un poco como la reducción de dimensionalidad de una sola celda)

Se pueden utilizar análisis de componentes principales y análisis factorial, análisis de correspondencia y otros métodos.

Los contenidos del análisis estadístico multivariado incluyen principalmente: representación gráfica de datos multivariados, análisis de regresión y correlación lineal multivariante, análisis discriminante, análisis de conglomerados, análisis de componentes principales, análisis factorial, análisis de correspondencia y análisis de correlación canónica, etc.

Los datos multivariados se refieren a datos con múltiples variables. Si cada variable se considera como un vector aleatorio, el conjunto de datos formado por múltiples variables será una matriz aleatoria, por lo que la representación básica de datos multivariados es una matriz. La representación matemática de estas matrices de datos es nuestra primera prioridad. En otras palabras, la operación básica de datos multivariados es la operación matricial, y el lenguaje R es un excelente lenguaje de operación matricial, lo que también es una gran ventaja de nuestra aplicación.

El análisis intuitivo, es decir, la representación gráfica, es un medio auxiliar importante para el análisis de datos. Por ejemplo, puede usar el diagrama de dispersión de dos variables para examinar el impacto de los valores de observación anormales en el coeficiente de correlación de la muestra, usar el diagrama de dispersión matricial para examinar la relación entre múltiples variables y usar el diagrama de cola de caja multivariado para comparar las estadísticas básicas de varias variables de diferencia de tamaño.

El análisis de correlación consiste en eliminar la influencia de factores accidentales y explorar la cercanía y expresión de la correlación entre fenómenos a través de la observación de una gran cantidad de datos digitales. En el sistema económico, varias variables económicas suelen tener relaciones inherentes. Por ejemplo, el crecimiento económico y los ingresos fiscales, el ingreso per cápita y el gasto de los consumidores, etc. Entre estas relaciones, algunas son relaciones funcionales estrictas, que pueden expresarse mediante expresiones matemáticas. También existen algunas relaciones no deterministas. Los cambios en una variable afectarán a otras variables y harán que cambien. Este cambio tiene características aleatorias, pero aún sigue ciertas reglas. Las relaciones funcionales son fáciles de resolver, pero lo que nos preocupa son las relaciones no deterministas, es decir, las relaciones de correlación.

El principal objeto de la investigación del análisis de regresión es la relación estadística entre variables objetivas. Se basa en una gran cantidad de experimentos y observaciones de cosas objetivas y es un método utilizado para encontrar leyes estadísticas ocultas en fenómenos aparentemente inciertos. El análisis de regresión no solo puede revelar la influencia de las variables independientes sobre las variables dependientes, sino que también puede utilizar ecuaciones de regresión para la predicción y el control. El principal ámbito de investigación del análisis de regresión incluye:

(1) Modelo de regresión lineal: modelo de regresión lineal única, modelo de regresión lineal múltiple.

(2) Diagnóstico del modelo de regresión: racionalidad de los supuestos básicos del modelo de regresión, juicio del efecto de ajuste de la ecuación de regresión y selección de la forma de la función de regresión.

(3) Modelo lineal generalizado: regresión que contiene variables cualitativas, la variable independiente contiene variables cualitativas y la variable dependiente contiene variables cualitativas.

(4) Modelo de regresión no lineal: regresión no lineal de una variable, regresión no lineal múltiple.

En la investigación real, a menudo nos encontramos con situaciones en las que una variable aleatoria cambia con el cambio de una o más variables no aleatorias, y esta relación cambiante es obviamente no lineal. Cómo utilizar un mejor modelo para representarlo, luego estimarlo y predecirlo, y probar su no linealidad se ha convertido en una cuestión importante. En los pronósticos económicos, los modelos de regresión múltiple se usan comúnmente para reflejar la dependencia entre las cantidades predichas y varios factores. Entre ellos, el análisis de regresión lineal se usa ampliamente. Sin embargo, no existe necesariamente una relación lineal entre cosas objetivas. En algunos casos, un modelo de regresión no lineal es más apropiado, pero es más difícil de establecer. En el proceso de producción real, existe una correlación entre los parámetros del objetivo de gestión de producción y la cantidad de procesamiento. A medida que aumenta el número de producción y procesamiento, la mayoría de los parámetros de los objetivos de gestión de la producción (como los costos de producción y las horas de producción, etc.) no aumentan simplemente linealmente. En este caso, es necesario utilizar el análisis de regresión no lineal para el análisis.

En vista de la diversidad de modelos estadísticos y la adaptabilidad de varios modelos, los modelos estadísticos se pueden dividir en varios tipos según las propiedades de valor de las variables dependientes y explicativas. Por lo general, los modelos lineales cuyas variables independientes son variables cualitativas se denominan modelos lineales generales, como los modelos de diseño experimental y los modelos de análisis de varianza cuyas variables dependientes no tienen una distribución normal se denominan modelos lineales generalizados, como los modelos de regresión logística y los modelos lineales logarítmicos; modelos, modelo de riesgos proporcionales de Cox.

En 1972, Nelder promovió aún más el modelo clásico de regresión lineal y estableció un marco teórico y computacional unificado, que tuvo un impacto importante en la aplicación de modelos de regresión en estadística. Este nuevo modelo de regresión lineal se denomina modelos lineales generalizados (GLM).

Los modelos lineales generalizados son una generalización de modelos de regresión lineal múltiple. Desde otra perspectiva, también pueden considerarse casos especiales de modelos no lineales. Tienen ciertas características que otros modelos no lineales no tienen. La diferencia entre este y un modelo lineal típico es que la distribución de errores aleatorios no es una distribución normal. La mayor diferencia con un modelo no lineal es que el modelo no lineal no tiene un supuesto claro de distribución de errores aleatorios, mientras que la distribución de errores aleatorios de. se puede determinar el modelo lineal generalizado. Los modelos lineales generalizados incluyen no sólo variables discretas sino también variables continuas. La distribución normal también se incluye en la familia de distribuciones exponenciales, que contiene parámetros que describen la divergencia y pertenece a la familia de distribuciones exponenciales de dos parámetros.

El análisis discriminante es un método de análisis estadístico utilizado para identificar el tipo de muestras en el análisis estadístico multivariante. El llamado método de análisis discriminante se basa en una clasificación conocida. Una vez que se obtiene una nueva muestra, este método se puede utilizar para seleccionar un estándar discriminante para determinar en qué categoría se debe colocar la nueva muestra. El propósito del análisis discriminante es establecer reglas de clasificación compuestas de indicadores numéricos para datos de clasificación conocida y luego aplicar dichas reglas a muestras de clasificación desconocida para clasificar. Por ejemplo, si obtenemos algunos indicadores de laboratorio de pacientes que padecen gastritis y personas sanas, podemos encontrar las diferencias entre los dos tipos de personas a partir de estos indicadores de laboratorio. Exprese esta diferencia como una fórmula discriminante y luego utilice la fórmula discriminante para ayudar en el diagnóstico de aquellos sospechosos de tener gastritis según sus indicadores de laboratorio.

El análisis de conglomerados es un método moderno de análisis estadístico que estudia cómo se agrupan las aves del mismo plumaje. En el pasado, la gente se basaba principalmente en la experiencia y el conocimiento profesional para el procesamiento de clasificaciones cualitativas y rara vez utilizaban métodos matemáticos. Como resultado, muchas clasificaciones eran subjetivas y arbitrarias y no podían revelar las diferencias y conexiones intrínsecas de las cosas objetivas, especialmente para las cosas objetivas. multifactor, Para problemas de clasificación de índices múltiples, la clasificación cualitativa es más difícil de lograr una clasificación precisa. Para superar las deficiencias de la clasificación cualitativa, el análisis estadístico multivariado se introdujo gradualmente en la taxonomía numérica, formando la rama del análisis de conglomerados.

El análisis de conglomerados es una técnica de clasificación. En comparación con otros métodos de análisis multivariado, este método es aproximado y aún no perfecto en teoría, pero ha logrado un gran éxito en su aplicación.

El análisis de conglomerados, el análisis de regresión y el análisis discriminante se denominan los tres métodos principales del análisis multivariado.

En problemas prácticos, a menudo se encuentra el estudio de problemas de múltiples variables, sin embargo, en la mayoría de los casos, existe una cierta correlación entre diferentes variables, lo que inevitablemente aumenta la complejidad del problema de análisis. El análisis de componentes principales es un método de análisis estadístico que convierte múltiples indicadores en unos pocos indicadores integrales mediante tecnología de reducción de dimensionalidad. Cómo sintetizar indicadores con relaciones intrincadas en unos pocos componentes, de modo que no solo sea propicio para analizar y explicar el problema, sino que también sea fácil de captar las principales contradicciones y realizar evaluaciones científicas. En este caso, el método de análisis de componentes principales puede. utilizarse.

El análisis factorial es una extensión del análisis de componentes principales. También es un método de análisis multivariado que convierte múltiples variables en unas pocas variables integrales, pero su propósito es utilizar un número limitado de variables latentes no observables para explicar la correlación. entre variables originales. El análisis de componentes principales sintetiza las variables originales en varios componentes principales mediante una combinación lineal y utiliza menos indicadores completos para reemplazar los más indicadores (variables) originales. En el análisis multivariado, a menudo existe una correlación entre las variables. ¿Cuál es el motivo de la correlación entre las variables? ¿Existen factores comunes que no se pueden observar directamente pero que afectan los cambios en las variables observables? Método para encontrar estos factores comunes. Construye una serie de factores comunes con significados claros basados ​​en los componentes principales y los utiliza como marco para descomponer las variables originales para examinar las conexiones y diferencias entre las variables originales. Por ejemplo, en el estudio de los cambios de precios en la industria de la pastelería, existen muchas variedades en la industria de la pastelería, con cientos o incluso miles de variedades. Sin embargo, no importa qué tipo de pastelería, los ingredientes utilizados no son más que harina, comestible. petróleo, azúcar y otras materias primas principales. Entonces, la harina, el aceite comestible y el azúcar son factores comunes en muchos pasteles. Los cambios de precios de varios pasteles están estrechamente relacionados con los cambios de precios de la harina, el aceite comestible y el azúcar. Para comprender o controlar los cambios de precios en la industria de la pastelería. sólo necesitas entender el precio de la harina, el aceite de cocina y el azúcar.

El análisis de correspondencias, también conocido como análisis de correspondencias, fue propuesto por el estadístico francés J.P. Beozecri en 1970. El análisis de correspondencia es un método estadístico multivariado desarrollado sobre la base del análisis factorial. Es una aplicación conjunta del análisis factorial tipo Q y tipo R. En el análisis estadístico de datos de gestión económica, a menudo se procesan tres relaciones, a saber, la relación entre muestras (relación de tipo Q), la relación entre variables (relación de tipo R) y la relación entre muestras y variables (relación de tipo de correspondencia). . Por ejemplo, al evaluar los beneficios económicos de las empresas de una determinada industria, no sólo es necesario estudiar la relación entre los indicadores de beneficios económicos, sino también clasificar las empresas según la calidad de sus beneficios económicos, y estudiar qué empresas son Más estrechamente relacionados con los indicadores de beneficios económicos, algunos proporcionan más información para que los departamentos de toma de decisiones orienten correctamente las actividades de producción y operación de las empresas. Esto requiere un método estadístico para reunir empresas (muestras) e indicadores (variables) para su análisis, clasificación y gráficos para facilitar explicaciones sobre la importancia económica. El método estadístico para resolver tales problemas es el análisis de correspondencia. análisis de correlación, cuando solo hay dos variables en un grupo de variables, se pueden usar coeficientes de correlación simples para medirlas; cuando hay múltiples variables en un grupo de variables, se pueden usar coeficientes de correlación complejos para medirlas. Los problemas prácticos requieren que extendamos la conexión entre indicadores a dos conjuntos de variables, es decir, la interdependencia entre dos conjuntos de variables aleatorias es un método de análisis utilizado para resolver tales problemas. ​componentes principales para discutir la correlación entre dos conjuntos de variables aleatorias y convertir la correlación entre los dos grupos de variables en una correlación entre unos pocos pares de variables, y estos pocos pares de variables no están correlacionados, para lograr el. propósito de simplificar relaciones de correlación complejas.

El análisis de correlación canónica se utiliza ampliamente en la investigación empírica sobre gestión económica, porque muchos fenómenos económicos están relacionados con múltiples variables.

Por ejemplo, al estudiar las causas de la inflación, se pueden utilizar varios índices de precios como un conjunto de variables, y varios factores que afectan los cambios de precios se pueden utilizar como otro conjunto de variables. Se pueden encontrar varios pares de variables integrales principales mediante la correlación canónica. análisis, y combinado con correlación canónica El coeficiente da un resultado de análisis más profundo sobre las causas del aumento de precios y la inflación.

El escalamiento multidimensional (MDS) es un método de análisis de datos multivariado que expresa la similitud o relación cercana entre objetos en forma de distribución espacial. En 1958, Torgerson propuso formalmente este método por primera vez en su tesis doctoral. El análisis MDS se ve principalmente en marketing y su aplicación en el campo de la gestión económica ha ido aumentando en los últimos años. Sin embargo, existen muy pocos informes de aplicaciones nacionales en esta área. El escalamiento multidimensional utiliza una serie de técnicas para permitir a los investigadores identificar dimensiones clave que forman la base de las evaluaciones de una muestra por parte de los sujetos. Por ejemplo, el escalamiento multidimensional se utiliza a menudo en la investigación de mercado para identificar dimensiones clave que subyacen a las evaluaciones de los clientes de un producto, servicio o empresa. Otras aplicaciones incluyen comparar atributos naturales (como sabores de alimentos u olores diferentes), comprender eventos o candidatos políticos e incluso evaluar diferencias culturales entre diferentes grupos. El método de escalamiento multidimensional deriva las dimensiones intrínsecas mediante el juicio de similitud o preferencia de la muestra proporcionada por el sujeto. Una vez que los datos estén disponibles, el método de escala multidimensional se puede utilizar para analizar: ① ¿Qué dimensiones utilizan los sujetos al evaluar muestras? ② ¿Cuántas dimensiones es probable que utilicen los sujetos en situaciones específicas? ③ ¿Cuál es la importancia relativa de cada dimensión? Cómo obtener una comprensión perceptiva de la relación entre muestras.

Las décadas de 1970 y 1980 fueron la época en la que floreció la evaluación científica moderna. Durante este período, se produjeron muchos métodos de evaluación, como el método ELECTRE, el método de programación lineal para el análisis de preferencias multidimensionales (LINMAP) y el. proceso de jerarquía analítica (AHP), análisis envolvente de datos (EDA) y método de clasificación cercano a la solución ideal (TOPSIS), etc. Estos métodos se han desarrollado relativamente y se han utilizado ampliamente.

El desarrollo de la evaluación científica moderna en nuestro país se produjo en las décadas de 1980 y 1990. La investigación sobre los métodos de evaluación y sus aplicaciones también logró grandes resultados, y se aplicaron métodos de evaluación integrales en varios departamentos de la economía nacional. como la evaluación integral del desarrollo sostenible, el sistema de evaluación de prosperidad moderada, el sistema de indicadores de modernización y el sistema de evaluación de la competitividad internacional, etc.

El método de evaluación integral de índices múltiples tiene las siguientes características: contiene varios indicadores, que explican respectivamente diferentes aspectos del objeto que se está evaluando, el método de evaluación debe, en última instancia, emitir un juicio general sobre el objeto que se está evaluando, y Utilice un indicador total para describir el nivel general del objeto que se está evaluando.

Existen muchos métodos de evaluación integral que se utilizan comúnmente en la actualidad, como el método de puntuación integral, el método de índice integral, el método de índice de suma de rangos, el proceso de jerarquía analítica, el método TOPSIS, el método de evaluación integral difusa, el método de análisis envolvente de datos, etc.

R -- Por siempre Dios~