En la carga de los recursos... Cargando...

Las siete técnicas de retroceso que debes dominar

El autor:Los inventores cuantifican - sueños pequeños, Creado: 2016-12-18 10:22:43, Actualizado: 2016-12-18 11:08:56

Las siete técnicas de retroceso que debes dominar


Este artículo explica el análisis de regresión y sus ventajas, se centra en el resumen de las siete técnicas de regresión más comunes que se deben dominar: regresión lineal, regresión lógica, regresión polinomial, regresión progresiva, regresión de la hoja, regresión de la súmula, regresión de ElasticNet y sus elementos clave, y finalmente se presentan los factores clave para elegir el modelo de regresión correcto. * * El análisis de regresión de botones de los compiladores es una herramienta importante para modelar y analizar datos. Este artículo explica el significado y las ventajas del análisis de regresión, se centra en resumir las siete técnicas de regresión más comunes: regresión lineal, regresión lógica, regresión polinomial, regresión gradual, regresión de la aguja, regresión de la súmula, regresión de ElasticNet y sus elementos clave.

  • ¿Qué es el análisis de regresión?

    El análisis regresivo es una técnica de modelado predictivo que estudia las relaciones entre las variables causantes (objetivos) y las variables propias (predictores). Esta técnica se utiliza generalmente para el análisis predictivo, modelos de secuencias de tiempo y la relación causal entre las variables descubiertas. Por ejemplo, la relación entre la conducción imprudente de los conductores y el número de accidentes de tráfico es mejor estudiada con regresión.

    El análisis de regresión es una herramienta importante para modelar y analizar los datos. Aquí, usamos curvas/líneas para ajustar estos puntos de datos, de esta manera, la diferencia de distancia de la curva o línea a los puntos de datos es mínima.

    img

  • ¿Por qué usamos el análisis de regresión?

    Como se mencionó anteriormente, el análisis de regresión estima la relación entre dos o más variables. A continuación, vamos a dar un ejemplo simple para entenderlo:

    Por ejemplo, en las condiciones económicas actuales, si quieres estimar el crecimiento de las ventas de una empresa. Ahora, tienes los datos más recientes de la empresa, que muestran que las ventas crecen aproximadamente 2.5 veces más que el crecimiento económico. Entonces, usando el análisis de regresión, podemos predecir las ventas futuras de la empresa basándonos en la información actual y pasada.

    Los beneficios de utilizar el análisis de regresión son numerosos.

    Muestra una relación significativa entre las variables de sí y las variables de causa.

    Indica la intensidad del efecto de varias variables sobre una variable.

    El análisis de regresión también nos permite comparar las interacciones entre variables que miden diferentes escalas, como la relación entre los cambios de precios y el número de actividades promocionales. Esto ayuda a los investigadores de mercado, analistas de datos y científicos de datos a excluir y estimar el mejor conjunto de variables para construir modelos de predicción.

  • ¿Cuántas tecnologías de regresión tenemos?

    Hay una gran variedad de técnicas de regresión utilizadas para la predicción. Estas técnicas tienen tres medidas principales: el número de individuos de las variables, el tipo de variables y la forma de las líneas de regresión.

    img

    Para aquellos que son creativos, si sienten la necesidad de usar una combinación de los parámetros anteriores, incluso pueden crear un modelo de regresión que no se ha utilizado. Pero antes de comenzar, primero conozcan los métodos de regresión más comunes:

    • 1. Regresión lineal Regresión lineal

      Es una de las técnicas de modelado más conocidas. La regresión lineal es generalmente una de las técnicas preferidas para aprender modelos de predicción. En esta técnica, las variables son continuas, y las variables pueden ser continuas o disyuntivas.

      La regresión lineal utiliza la recta de mejor ajuste para establecer una relación entre la variable causante Y y una o varias variables propias X.

      Se expresa con una ecuación, Y = a + b * X + e, donde a es el intersección, b es la inclinación de la recta y e es el término de error. Esta ecuación puede predecir el valor de la variable objetivo en función de las variables de predicción dadas.

      img

      La diferencia entre la regresión unilineal y la regresión multilineal es que la regresión multilineal tiene < 1 variable propia, mientras que la regresión unilineal generalmente tiene una sola variable propia. La pregunta ahora es ¿cómo obtenemos una línea de ajuste óptima?

      ¿Cómo se obtienen los valores de las líneas de mejor ajuste (a y b)?

      Este problema se puede resolver fácilmente con el mínimo de doblaje. El mínimo de doblaje es también el método más común para ajustar las líneas de regresión. Para los datos de observación, se calcula la línea de ajuste óptima al minimizar la suma de los cuadrados del desvío vertical de cada punto de datos a la línea.

      img

      Podemos evaluar el rendimiento del modelo con los indicadores R-square. Para obtener información detallada sobre estos indicadores, puede leer: Indicadores de rendimiento del modelo Parte 1, Parte 2.

      El punto es:

      • La relación entre la variable y la variable debe ser lineal.
      • La regresión múltiple tiene múltiples conlinealidades, correlaciones y diferencias heterogéneas.
      • La regresión lineal es muy sensible a los valores de anomalía. Puede afectar gravemente la línea de regresión y, finalmente, afectar el valor del pronóstico.
      • La multilinealidad aumenta la diferencia entre las estimaciones de los coeficientes, lo que hace que las estimaciones sean muy sensibles a las pequeñas variaciones del modelo.
      • En el caso de múltiples variables, podemos usar la selección hacia adelante, la eliminación hacia atrás y la selección progresiva para seleccionar las variables más importantes.
    • 2. Regresión lógica

      La regresión lógica se utiliza para calcular la probabilidad de que el suceso de Y = éxito de Y y el suceso de Y = fracaso de Y. Cuando el tipo de la variable es binario ((1 / 0, verdadero / falso, sí / no) variables, debemos usar la regresión lógica. Aquí, el valor de Y va de 0 a 1, que se puede representar con la siguiente ecuación.

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      En las fórmulas anteriores, la expresión p tiene una probabilidad de cierta característica. Usted debería preguntar: ¿Por qué usamos el logaritmo en la fórmula? ¿Por qué?

      Debido a que aquí estamos usando una distribución de dos variables, necesitamos elegir una función de conexión que sea la mejor para esta distribución. Es la función de Logit. En la ecuación anterior, los parámetros se eligen por medio de una estimación muy parecida de la muestra observada, en lugar de minimizar el cuadrado y el error (como se usa en la regresión ordinaria).

      img

      El punto es:

      • Se utiliza ampliamente en problemas de clasificación.
      • La regresión lógica no requiere que las variables sean autovariables y porque las variables son relaciones lineales. Puede manejar relaciones de todo tipo, ya que utiliza una conversión de log no lineal para el índice de riesgo relativo OR del pronóstico.
      • Para evitar la sobreajuste y la desajuste, debemos incluir todas las variables importantes. Una buena manera de asegurarse de esto es estimar la regresión lógica usando el método de selección progresiva.
      • Se requiere un gran volumen de muestras, ya que con un número de muestras pequeño, el efecto estimado de gran similitud es dos veces peor que el mínimo común.
      • Las variables propias no deben estar relacionadas entre sí, es decir, no tienen múltiples conlinealidades. Sin embargo, en el análisis y el modelado, podemos optar por incluir los efectos de la interacción de las variables clasificadas.
      • Si el valor de la variable es una variable ordenada, se llama regresión lógica de orden.
      • Si la variable es una pluralidad de clases, se llama regresión lógica de pluralidad.
    • 3. Regresión polinomial

      Para una ecuación de regresión, si el índice de la variable propia es mayor que 1, entonces es una ecuación de regresión polinomial.

      y=a+b*x^2
      

      En esta técnica de regresión, la línea de ajuste óptimo no es una línea recta, sino una curva para ajustar los puntos de datos.

      img

      El tema es:

      • Aunque hay una inducción que puede ajustarse a un polinomial de alto grado y obtener errores más bajos, esto puede causar sobreajustes. Es necesario dibujar gráficos de relaciones con frecuencia para ver la situación de ajuste, y centrarse en garantizar que el ajuste sea razonable, sin sobreajustes y sin desajustes.

      img

      • Busque claramente puntos de curva en ambos extremos para ver si estas formas y tendencias tienen sentido. Las polinomias más altas pueden terminar produciendo extrañas inferencias.
    • 4. Regresión paso a paso

      Cuando se trata de múltiples variables automáticas, podemos usar este tipo de regresión. En esta técnica, la selección de variables automáticas se realiza en un proceso automático, que incluye operaciones no humanas.

      El logro es identificar variables importantes observando valores estadísticos, como R-square, t-stats y indicadores AIC. Regresión progresiva para adaptar el modelo mediante la adición/eliminación simultánea de covariables basadas en criterios especificados. A continuación se enumeran algunos de los métodos de regresión progresiva más comunes:

      • La regresión progresiva estándar hace dos cosas: añadir y eliminar las predicciones necesarias para cada paso.
      • La selección hacia adelante comienza con las predicciones más significativas del modelo y luego se añade una variable para cada paso.
      • La eliminación retrospectiva comienza al mismo tiempo que todas las predicciones del modelo y luego elimina las variables de menor importancia en cada paso.
      • El objetivo de esta técnica de modelado es maximizar la capacidad de predicción con el menor número de variables de predicción. Este es también uno de los métodos para manejar conjuntos de datos de alta dimensión.
    • 5. Regresión de la colina

      El análisis de la regresión de la columna es una técnica utilizada para la existencia de múltiples datos conlineares (de alta correlación con la variable). En el caso de la columna múltiple, aunque los mínimos dobles (OLS) son equitativos para cada variable, su diferencia es tan grande que el valor de observación se desvía y se aleja del valor real. La regresión de la columna reduce el error estándar al aumentar un grado de desviación en la estimación de la regresión.

      En la parte superior, vemos una ecuación de regresión lineal. ¿Recuerdan?

      y=a+ b*x
      

      Esta ecuación también tiene un término de error.

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      En una ecuación lineal, el error de predicción se puede dividir en dos subdivisiones. Una es la desviación y la otra es la diferencia. El error de predicción puede ser causado por estos dos fracciones o por cualquiera de ellos. Aquí discutiremos los errores relacionados causados por la diferencia.

      La regresión de los átomos resuelve el problema de conlinealidad múltiple con el parámetro de contracción λ (lambda); véase la fórmula siguiente.

      img

      En esta fórmula, hay dos componentes. El primero es el binomio mínimo, y el otro es el múltiplo de β2 (β-cuadrado), donde β es el coeficiente relacionado. Para reducir el parámetro, añadirlo al binomio mínimo para obtener una diferencia cuadrada muy baja.

      El punto es:

      • La hipótesis de esta regresión es similar a la regresión de dos mínimos, excepto con las constantes.
      • Se contrajo el valor de los coeficientes correlacionados, pero no alcanzó cero, lo que indica que no tiene la función de selección característica.
      • Este es un método de regularización y utiliza la regularización L2.
    • 6. Regresión de lasso

      Es similar a la regresión de las curvas, Lasso (Least Absolute Shrinkage and Selection Operator) también penaliza el tamaño del valor absoluto de los coeficientes de regresión. Además, reduce el grado de variación y mejora la precisión del modelo de regresión lineal.

      img

      Las regresión de Lasso es un poco diferente a la regresión de Ridge, que utiliza una función de castigo que es un valor absoluto, no cuadrado. Esto hace que la penalización (o la suma de los valores absolutos de la estimación de restricción) resulte igual a cero para algunos parámetros.

      El punto es:

      • La hipótesis de esta regresión es similar a la regresión de dos mínimos, excepto con las constantes.
      • Su coeficiente de contracción es cercano a cero (equivalente a cero), lo que sí ayuda en la selección de características;
      • Este es un método de regularización que utiliza la regularización L1.
      • Si un conjunto de variables del pronóstico es altamente relevante, Lasso elige una de ellas y reduce a cero las otras.
    • 7.ElasticNet回归

      ElasticNet es una mezcla de las técnicas de regresión de Lasso y Ridge. Utiliza L1 para entrenar y L2 como matriz de regularización preferida. ElasticNet es útil cuando hay varias características relacionadas. Lasso elige al azar una de ellas, mientras que ElasticNet elige dos.

      img

      Las ventajas reales entre Lasso y Ridge son que permite a ElasticNet heredar algo de la estabilidad de Ridge en estado de ciclo.

      El punto es:

      • En el caso de variables altamente correlacionadas, produce un efecto de grupo;
      • No hay límite en el número de variables que se pueden seleccionar.
      • El sistema de control de velocidad de la máquina es el siguiente:
      • Además de las 7 técnicas de regresión más utilizadas, puedes ver otros modelos, como Bayesian, Ecological y Robust Regresion.
    • ¿Cómo elegir correctamente el modelo de regresión?

      La vida suele ser más sencilla cuando se conoce solo una o dos técnicas. Conozco una organización de capacitación que les dice a sus estudiantes que si el resultado es continuo, usen la regresión lineal. Si es binario, usen la regresión lógica.

      En un modelo de regresión multiclasificado, es muy importante elegir la técnica más adecuada en función de los tipos de variables propias y derivadas, las dimensiones de los datos y otras características básicas de los datos. Estos son los factores clave para elegir el modelo de regresión correcto:

      La exploración de datos es una parte inevitable de la construcción de modelos de predicción. Debe ser el primer paso en la selección del modelo adecuado, por ejemplo, para identificar las relaciones y efectos de las variables.

      Para comparar las ventajas de diferentes modelos, podemos analizar diferentes parámetros de indicadores, como parámetros de significado estadístico, R-cuadrado, R-cuadrado ajustado, AIC, BIC y puntos de error, otro es el punto de referencia Mallows y Cp. Esto se hace principalmente comparando el modelo con todos los posibles submodelos (o seleccionándolos cuidadosamente) para verificar las posibles desviaciones en su modelo.

      La verificación cruzada es el mejor método para evaluar el modelo de predicción. Aquí, divide su conjunto de datos en dos partes (una para entrenar y otra para verificar).

      Si su conjunto de datos es de varias variables mezcladas, entonces no debe elegir el método de selección automática del modelo, ya que no debe querer poner todas las variables en el mismo modelo al mismo tiempo.

      También dependerá de tu objetivo. Puede ocurrir que un modelo menos potente sea más fácil de implementar que uno con una alta significación estadística.

      Los métodos de regularización por regresión (Lasso, Ridge y ElasticNet) funcionan bien con múltiples conlinealidades entre variables de alto tamaño y conjuntos de datos.

Transcrito desde CSDN


Más.