¿Qué es el análisis de regresión? cual es el contenido principal
En estadística, el análisis de regresión se refiere a un método de análisis estadístico que determina la relación cuantitativa interdependiente entre dos o más variables. El análisis de regresión se puede dividir en análisis de regresión simple y análisis de regresión múltiple según el número de variables involucradas, y según el tipo de relación entre independientes, se puede dividir en análisis de regresión simple y análisis de regresión múltiple; variables y variables dependientes, se puede dividir en análisis de regresión lineal y análisis de regresión no lineal.
En el análisis de big data, el análisis de regresión es una técnica de modelado predictivo que estudia la relación entre variables dependientes (objetivos) y variables independientes (predictores). Esta técnica se utiliza comúnmente en análisis predictivo, modelado de series temporales y descubrimiento de relaciones causales entre variables. Por ejemplo, la relación entre la conducción imprudente de los conductores y el número de accidentes de tráfico se estudia mejor mediante regresión.
Métodos
Existe una variedad de técnicas de regresión que se utilizan para realizar pronósticos. Estas técnicas tienen tres medidas principales (número de variables independientes, tipo de variable dependiente y forma de la línea de regresión).
1. Regresión linealRegresión lineal
Es una de las técnicas de modelado más conocidas. La regresión lineal suele ser una de las técnicas que la gente prefiere cuando aprenden modelos predictivos. En esta técnica, la variable dependiente es continua, la variable independiente puede ser continua o discreta y la naturaleza de la línea de regresión es lineal.
La regresión lineal utiliza una línea recta de mejor ajuste (también conocida como línea de regresión) para establecer una relación entre una variable dependiente (Y) y una o más variables independientes (X).
La regresión lineal múltiple se puede expresar como Y=a+b1*X +b2*X2+ e, donde a representa la intersección, b representa la pendiente de la línea recta y e es el término de error. La regresión lineal múltiple puede predecir el valor de una variable objetivo en función de una o varias variables predictivas determinadas.
2.Regresión logísticaRegresión logística
La regresión logística se utiliza para calcular la probabilidad de "evento=éxito" y "evento=fracaso". La regresión logística se debe utilizar cuando el tipo de variable dependiente es binaria (1/0, verdadero/falso, sí/no). Aquí, el valor de Y es 0 o 1, lo que se puede expresar mediante la siguiente ecuación.
odds= p/ (1-p) = probabilidad de que ocurra el evento / probabilidad de que no ocurra el evento
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) =bb1X1+b2X2+b3X3....+bkXk
En la fórmula anterior, p expresa que La probabilidad de una determinada característica. Quizás te estés preguntando: "¿Por qué utilizar el logaritmo en la fórmula?".
Debido a que aquí se utiliza la distribución binomial (variable dependiente), debe elegir la función de enlace que sea mejor para esta distribución. Es la función Logit. En la ecuación anterior, los parámetros se eligen maximizando la estimación de verosimilitud de la muestra observada, en lugar de minimizar la suma de errores cuadrados (como se usa en la regresión ordinaria).
3. Regresión polinómica
Para una ecuación de regresión, si el índice de la variable independiente es mayor que 1, entonces es una ecuación de regresión polinómica. Como se muestra en la siguiente ecuación:
y=a+b*x^2
En esta técnica de regresión, la línea de mejor ajuste no es una línea recta. Más bien, es una curva que se utiliza para ajustar los puntos de datos.
4. Regresión por pasos Regresión por pasos
Esta forma de regresión se puede utilizar cuando se trata de múltiples variables independientes. En esta técnica, la selección de variables independientes se realiza en un proceso automatizado que involucra operaciones no humanas.