Cet article explique l'analyse de régression et ses avantages, en mettant l'accent sur la régression linéaire, la régression logique, la régression polynomielle, la régression progressive, la régression de l'anneau, la régression des requêtes, la régression ElasticNet, ainsi que les sept techniques de régression les plus couramment utilisées et leurs éléments clés à maîtriser. Enfin, il présente les facteurs clés pour choisir le bon modèle de régression. Je vous en prie. Je vous en prie. L'analyse de régression des boutons de compilateur est un outil important pour la modélisation et l'analyse des données. Cet article explique les implications de l'analyse de régression et ses avantages, en mettant l'accent sur la synthèse des sept techniques de régression les plus couramment utilisées, à savoir la régression linéaire, la régression logique, la régression polynomicale, la régression progressive, la régression de l'ancrage, la régression des requêtes, la régression ElasticNet et leurs éléments clés. Enfin, il présente les facteurs clés pour choisir le bon modèle de régression.
L'analyse régressive est une technique de modélisation prédictive qui étudie les relations entre les variables (objectifs) et les variables (préditeurs). Cette technique est souvent utilisée pour l'analyse prédictive, les modèles de séquences temporelles et les relations de causalité entre les variables découvertes. Par exemple, la relation entre la conduite imprudente des conducteurs et le nombre d'accidents de la route est la meilleure méthode d'étude.
L'analyse de régression est un outil important pour la modélisation et l'analyse des données. Ici, nous utilisons des courbes/lignes pour adapter ces points de données, de sorte que la différence de distance de la courbe ou de la ligne aux points de données soit la plus faible. Je vais expliquer cela en détail dans la section suivante.
Comme mentionné ci-dessus, l'analyse de régression évalue la relation entre deux ou plusieurs variables. Voici un exemple simple pour le comprendre:
Par exemple, dans les conditions économiques actuelles, vous devez estimer la croissance des ventes d'une entreprise. Maintenant, vous avez les données les plus récentes de l'entreprise qui montrent que les ventes augmentent environ 2,5 fois la croissance économique.
Les avantages de l'analyse de régression sont nombreux.
Il montre une relation significative entre les variables autonomiques et les variables causales.
Il indique l'intensité de l'influence de plusieurs variables sur une variable.
L'analyse de régression permet également de comparer les interactions entre des variables de différentes tailles, telles que les liens entre les variations de prix et le nombre d'activités promotionnelles. Cela aide les chercheurs en marché, les analystes de données et les scientifiques des données à exclure et à estimer le meilleur ensemble de variables pour construire des modèles de prévision.
Il existe une grande variété de techniques de régression utilisées pour les prédictions. Ces techniques ont principalement trois mesures (nombre d'individus de la variable, type de variable et forme de la ligne de régression) que nous aborderons en détail dans les sections suivantes.
Pour ceux qui sont créatifs, vous pouvez même créer un modèle de régression qui n'a pas été utilisé si vous sentez qu'il est nécessaire d'utiliser une combinaison des paramètres ci-dessus. Mais avant de commencer, apprenez les méthodes de régression les plus couramment utilisées:
C'est l'une des techniques de modélisation les plus connues. La régression linéaire est généralement l'une des techniques de prédilection dans l'apprentissage des modèles de prédiction. Dans cette technique, les variables étant continues, les variables autonomes peuvent être continues ou discrètes, et la nature des lignes de régression est linéaire.
La régression linéaire utilise une ligne droite optimale (c'est-à-dire une ligne de régression) pour établir une relation entre la variable causée (Y) et une ou plusieurs variables indépendantes (X).
Il est représenté par une équation, Y = a + b * X + e, où a représente l'intersection, b représente l'inclinaison d'une ligne droite et e est le terme d'erreur. Cette équation permet de prédire la valeur de la variable cible en fonction des variables de prédiction données.
La différence entre la régression unilineale et la régression multilineale est que la régression multilineale a < 1) une variable autonome, alors que la régression unilineale a généralement une seule variable autonome. La question est maintenant de savoir comment obtenir une ligne de correspondance optimale.
Comment obtenir la ligne de correspondance optimale (valeur de a et b)?
Le problème peut être facilement résolu avec le plus petit dixième. Le plus petit dixième est également la méthode la plus couramment utilisée pour faire correspondre les lignes de régression. Pour les données d'observation, il calcule la ligne de correspondance optimale en minimisant la somme des squares de la déviation verticale de chaque point de données vers la ligne.
Nous pouvons utiliser les indicateurs R-square pour évaluer la performance du modèle. Pour plus d'informations sur ces indicateurs, vous pouvez lire: Indicateurs de performance du modèle Partie 1, Partie 2.
Le point:
La régression logique est utilisée pour calculer la probabilité d'événements de type Y = Success Y et de l'événement de type Y = Failure Y. Lorsque le type de la variable dépend de variables binaires ((1 / 0, vrai / faux, oui / non), nous devrions utiliser la régression logique. Ici, la valeur de Y va de 0 à 1, elle peut être exprimée par l'équation suivante:
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
Dans la formule ci-dessus, l'expression de p a une certaine probabilité de caractéristique. Vous devriez vous poser la question suivante: pourquoi devrions-nous utiliser le logarithme dans la formule?
Parce que nous utilisons ici une distribution binaire (par variable), nous devons choisir une fonction de liaison qui est la meilleure pour cette distribution. C'est la fonction Logit. Dans l'équation ci-dessus, les paramètres sont choisis en observant les estimations très similaires de l'échantillon, plutôt que de minimiser le carré et l'erreur (comme dans la régression ordinaire).
Le point:
Pour une équation de régression, si l'indice de la variable autonome est supérieur à 1, alors elle est une équation de régression polynomielle.
y=a+b*x^2
Dans cette technique de régression, la ligne de correspondance optimale n'est pas une ligne droite mais une courbe utilisée pour correspondre aux points de données.
Les points forts:
Nous pouvons utiliser cette forme de régression lorsque nous traitons plusieurs variables automatiques. Dans cette technique, la sélection des variables automatiques est effectuée dans un processus automatique, qui comprend des opérations non humaines.
L'exploit est d'identifier les variables importantes en observant des valeurs statistiques telles que les indicateurs R-square, t-stats et AIC. La régression progressive s'adapte au modèle en ajoutant/supprimant simultanément des co-variables basées sur des critères spécifiés. Voici quelques-unes des méthodes de régression progressive les plus couramment utilisées:
L'analyse de la régression de la couche est une technique utilisée pour des données à multiple conjonctivité. Dans le cas de la conjonctivité multiple, l'erreur standard est réduite en ajoutant une déviation à l'estimation de la régression.
En haut, nous avons vu une équation de régression linéaire.
y=a+ b*x
L'équation complète est:
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
Dans une équation linéaire, l'erreur de prédiction peut être décomposée en deux sous-composantes. Une est la déviation et une est la différence. L'erreur de prédiction peut être causée par ces deux composantes ou par l'une ou l'autre.
La régression de la couche est résolue par le paramètre de rétrécissement λ (lambda). Voir la formule ci-dessous.
Dans cette formule, il y a deux composants. Le premier est le binôme le plus petit et le second est le nombre de fois où β2 (β-carré) est le coefficient correspondant. Pour réduire le paramètre, on ajoute celui-ci au binôme le plus petit pour obtenir une très faible différence de carré.
Le point:
Il est similaire à la régression de la pyramide, et le Lasso (Least Absolute Shrinkage and Selection Operator) punit également la taille de la valeur absolue du coefficient de régression. En outre, il peut réduire la variation et améliorer la précision du modèle de régression linéaire. Voir la formule ci-dessous:
La régression de Lasso diffère un peu de la régression de Ridge en ce qu'elle utilise des fonctions de punition qui sont des valeurs absolues, et non des squares. Cela entraîne une punition (ou la somme des valeurs absolues de l'estimation de contrainte) qui équivaut à zéro pour certains paramètres.
Le point:
ElasticNet est un mélange des techniques de Lasso et de Ridge regression. Il utilise L1 pour l'entraînement et L2 comme matrice de normalisation prioritaire. ElasticNet est utile lorsque plusieurs caractéristiques sont associées.
L'avantage pratique entre Lasso et Ridge est qu'il permet à ElasticNet d'hériter de la stabilité de Ridge dans le cycle.
Le point:
Comment choisir correctement un modèle de régression?
La vie est souvent simple lorsque vous ne connaissez qu'une ou deux techniques. Je connais un organisme de formation qui a dit à ses étudiants d'utiliser la régression linéaire si le résultat est continu. Si le résultat est binaire, utilisez la régression logique.
Dans les modèles de régression multiclasses, il est important de choisir la technique la plus appropriée en fonction du type d'auto-variante et de la variante due, de la dimension des données et d'autres caractéristiques fondamentales des données. Voici les facteurs clés pour choisir le bon modèle de régression:
L'exploration des données est une partie incontournable de la construction d'un modèle de prévision. Elle devrait être la première étape dans le choix du modèle approprié, par exemple pour identifier les relations et les effets des variables.
Pour les avantages de différents modèles, nous pouvons analyser différents paramètres d'indicateurs tels que les paramètres de signification statistique, le R-square, le R-square ajusté, l'AIC, le BIC et les éléments d'erreur, l'autre étant le Mallows-Cp-Guideline. Cela consiste principalement à comparer le modèle à tous les sous-modèles possibles (ou à les choisir avec soin) et à vérifier les écarts qui peuvent apparaître dans votre modèle.
La vérification croisée est la meilleure façon d'évaluer le modèle de prédiction. Ici, divisez votre ensemble de données en deux parties (une pour la formation et une pour la vérification).
Si votre ensemble de données est composé de plusieurs variables mixtes, vous ne devriez pas choisir la méthode de sélection automatique du modèle, car vous ne devriez pas vouloir mettre toutes les variables dans le même modèle en même temps.
Cela dépendra également de vos objectifs. Il peut arriver qu'un modèle moins puissant soit plus facile à réaliser qu'un modèle de haute signification statistique.
Les méthodes de normalisation de régression (Lasso, Ridge et ElasticNet) fonctionnent bien dans des conditions de multi-collinéalité entre les variables de haute dimension et de l'ensemble de données.
Transférée de CSDN