** Este artículo explica el análisis de regresión y sus ventajas, se centra en el resumen de las siete técnicas de regresión más utilizadas y sus elementos clave que se deben dominar: regresión lineal, regresión lógica, regresión polinomial, regresión gradual, regresión de la escala, regresión de la súmula, regresión de ElasticNet, y finalmente se presentan los factores clave para elegir el modelo de regresión correcto. * * El análisis de regresión de botones de los compiladores es una herramienta importante para modelar y analizar datos. Este artículo explica el significado y las ventajas del análisis de regresión, se centra en resumir las siete técnicas de regresión más comunes: regresión lineal, regresión lógica, regresión polinomial, regresión progresiva, regresión de la aguja, regresión de la súmula, regresión de ElasticNet y sus elementos clave.
El análisis regresivo es una técnica de modelado predictivo que estudia las relaciones entre las variables causantes (objetivos) y las variables propias (predictores). Esta técnica se utiliza generalmente para el análisis predictivo, modelos de secuencias de tiempo y la relación causal entre las variables descubiertas. Por ejemplo, la relación entre la conducción imprudente de los conductores y el número de accidentes de tráfico es mejor estudiada con regresión.
El análisis de regresión es una herramienta importante para modelar y analizar los datos. Aquí, usamos curvas/líneas para ajustar estos puntos de datos, de esta manera, la diferencia de distancia de la curva o línea a los puntos de datos es mínima.
Como se mencionó anteriormente, el análisis de regresión estima la relación entre dos o más variables. A continuación, vamos a dar un ejemplo simple para entenderlo:
Por ejemplo, en las condiciones económicas actuales, si quieres estimar el crecimiento de las ventas de una empresa. Ahora, tienes los datos más recientes de la empresa, que muestran que las ventas crecen aproximadamente 2.5 veces más que el crecimiento económico. Entonces, usando el análisis de regresión, podemos predecir las ventas futuras de la empresa basándonos en la información actual y pasada.
Los beneficios de utilizar el análisis de regresión son numerosos.
Muestra una relación significativa entre las variables de sí y las variables de causa.
Indica la intensidad del efecto de varias variables sobre una variable.
El análisis de regresión también nos permite comparar las interacciones entre variables que miden diferentes escalas, como la relación entre los cambios de precios y el número de actividades promocionales. Esto ayuda a los investigadores de mercado, analistas de datos y científicos de datos a excluir y estimar el mejor conjunto de variables para construir modelos de predicción.
Hay una gran variedad de técnicas de regresión utilizadas para la predicción. Estas técnicas tienen tres medidas principales: el número de individuos de las variables, el tipo de variables y la forma de las líneas de regresión.
Para aquellos que son creativos, si sienten la necesidad de usar una combinación de los parámetros anteriores, incluso pueden crear un modelo de regresión que no se ha utilizado. Pero antes de comenzar, primero conozcan los métodos de regresión más comunes:
Es una de las técnicas de modelado más conocidas. La regresión lineal es generalmente una de las técnicas preferidas para aprender modelos de predicción. En esta técnica, las variables son continuas, y las variables pueden ser continuas o disyuntivas.
La regresión lineal utiliza la recta de mejor ajuste para establecer una relación entre la variable causante Y y una o varias variables propias X.
Se expresa con una ecuación, Y = a + b * X + e, donde a es el intersección, b es la inclinación de la recta y e es el término de error. Esta ecuación puede predecir el valor de la variable objetivo en función de las variables de predicción dadas.
La diferencia entre la regresión unilineal y la regresión multilineal es que la regresión multilineal tiene < 1 variable propia, mientras que la regresión unilineal generalmente tiene una sola variable propia. La pregunta ahora es ¿cómo obtenemos una línea de ajuste óptima?
¿Cómo se obtienen los valores de las líneas de mejor ajuste (a y b)?
Este problema se puede resolver fácilmente con el mínimo de doblaje. El mínimo de doblaje es también el método más común para ajustar las líneas de regresión. Para los datos de observación, se calcula la línea de ajuste óptima al minimizar la suma de los cuadrados del desvío vertical de cada punto de datos a la línea.
Podemos evaluar el rendimiento del modelo con los indicadores R-square. Para obtener información detallada sobre estos indicadores, puede leer: Indicadores de rendimiento del modelo Parte 1, Parte 2.
El punto es:
La regresión lógica se utiliza para calcular la probabilidad de que el suceso de Y = éxito de Y y el suceso de Y = fracaso de Y. Cuando el tipo de la variable es binario ((1 / 0, verdadero / falso, sí / no) variables, debemos usar la regresión lógica. Aquí, el valor de Y va de 0 a 1, que se puede representar con la siguiente ecuación.
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
En las fórmulas anteriores, la expresión p tiene una probabilidad de cierta característica. Usted debería preguntar: ¿Por qué usamos el logaritmo en la fórmula? ¿Por qué?
Debido a que aquí estamos usando una distribución de dos variables, necesitamos elegir una función de conexión que sea la mejor para esta distribución. Es la función de Logit. En la ecuación anterior, los parámetros se eligen por medio de una estimación muy parecida de la muestra observada, en lugar de minimizar el cuadrado y el error (como se usa en la regresión ordinaria).
El punto es:
Para una ecuación de regresión, si el índice de la variable propia es mayor que 1, entonces es una ecuación de regresión polinomial.
y=a+b*x^2
En esta técnica de regresión, la línea de ajuste óptimo no es una línea recta, sino una curva para ajustar los puntos de datos.
El tema es:
Cuando se trata de múltiples variables automáticas, podemos usar este tipo de regresión. En esta técnica, la selección de variables automáticas se realiza en un proceso automático, que incluye operaciones no humanas.
El logro es identificar variables importantes observando valores estadísticos, como R-square, t-stats y indicadores AIC. Regresión progresiva para adaptar el modelo mediante la adición/eliminación simultánea de covariables basadas en criterios especificados. A continuación se enumeran algunos de los métodos de regresión progresiva más comunes:
El análisis de la regresión de la columna es una técnica utilizada para la existencia de múltiples datos conlineares (de alta correlación con la variable). En el caso de la columna múltiple, aunque los mínimos dobles (OLS) son equitativos para cada variable, su diferencia es tan grande que el valor de observación se desvía y se aleja del valor real. La regresión de la columna reduce el error estándar al aumentar un grado de desviación en la estimación de la regresión.
En la parte superior, vemos una ecuación de regresión lineal. ¿Recuerdan?
y=a+ b*x
Esta ecuación también tiene un término de error.
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
En una ecuación lineal, el error de predicción se puede dividir en dos subdivisiones. Una es la desviación y la otra es la diferencia. El error de predicción puede ser causado por estos dos fracciones o por cualquiera de ellos. Aquí discutiremos los errores relacionados causados por la diferencia.
La regresión de los átomos resuelve el problema de conlinealidad múltiple con el parámetro de contracción λ (lambda); véase la fórmula siguiente.
En esta fórmula, hay dos componentes. El primero es el binomio mínimo, y el otro es el múltiplo de β2 (β-cuadrado), donde β es el coeficiente relacionado. Para reducir el parámetro, añadirlo al binomio mínimo para obtener una diferencia cuadrada muy baja.
El punto es:
Es similar a la regresión de las curvas, Lasso (Least Absolute Shrinkage and Selection Operator) también penaliza el tamaño del valor absoluto de los coeficientes de regresión. Además, reduce el grado de variación y mejora la precisión del modelo de regresión lineal.
Las regresión de Lasso es un poco diferente a la regresión de Ridge, que utiliza una función de castigo que es un valor absoluto, no cuadrado. Esto hace que la penalización (o la suma de los valores absolutos de la estimación de restricción) resulte igual a cero para algunos parámetros.
El punto es:
ElasticNet es una mezcla de las técnicas de regresión de Lasso y Ridge. Utiliza L1 para entrenar y L2 como matriz de regularización preferida. ElasticNet es útil cuando hay varias características relacionadas. Lasso elige al azar una de ellas, mientras que ElasticNet elige dos.
Las ventajas reales entre Lasso y Ridge son que permite a ElasticNet heredar algo de la estabilidad de Ridge en estado de ciclo.
El punto es:
¿Cómo elegir correctamente el modelo de regresión?
La vida suele ser más sencilla cuando se conoce solo una o dos técnicas. Conozco una organización de capacitación que les dice a sus estudiantes que si el resultado es continuo, usen la regresión lineal. Si es binario, usen la regresión lógica.
En un modelo de regresión multiclasificado, es muy importante elegir la técnica más adecuada en función de los tipos de variables propias y derivadas, las dimensiones de los datos y otras características básicas de los datos. Estos son los factores clave para elegir el modelo de regresión correcto:
La exploración de datos es una parte inevitable de la construcción de modelos de predicción. Debe ser el primer paso en la selección del modelo adecuado, por ejemplo, para identificar las relaciones y efectos de las variables.
Para comparar las ventajas de diferentes modelos, podemos analizar diferentes parámetros de indicadores, como parámetros de significado estadístico, R-cuadrado, R-cuadrado ajustado, AIC, BIC y puntos de error, otro es el punto de referencia Mallows y Cp. Esto se hace principalmente comparando el modelo con todos los posibles submodelos (o seleccionándolos cuidadosamente) para verificar las posibles desviaciones en su modelo.
La verificación cruzada es el mejor método para evaluar el modelo de predicción. Aquí, divide su conjunto de datos en dos partes (una para entrenar y otra para verificar).
Si su conjunto de datos es de varias variables mezcladas, entonces no debe elegir el método de selección automática del modelo, ya que no debe querer poner todas las variables en el mismo modelo al mismo tiempo.
También dependerá de tu objetivo. Puede ocurrir que un modelo menos potente sea más fácil de implementar que uno con una alta significación estadística.
Los métodos de regularización por regresión (Lasso, Ridge y ElasticNet) funcionan bien con múltiples conlinealidades entre variables de alto tamaño y conjuntos de datos.
Transcrito desde CSDN