Dieser Artikel erläutert die Regressionsanalyse und ihre Vorteile, beschreibt die sieben am häufigsten verwendeten Regressionstechniken und ihre Schlüsselelemente, die man beherrschen sollte: lineare Regression, logische Regression, Polynomen-Regression, Schritt-Regression, Faden-Regression, Suite-Regression, ElasticNet-Regression, und schließt mit einem Einblick in die Schlüsselfaktoren für die Auswahl des richtigen Regressionsmodells. ** ** Die Regressionsanalyse mit Schaltflächen ist ein wichtiges Werkzeug für die Modellierung und Analyse von Daten. Dieser Artikel erläutert die Bedeutung und die Vorteile der Regressionsanalyse und beschreibt die sieben am häufigsten verwendeten Regressionstechniken: Lineare Regression, Logische Regression, Polynomenregression, Schrittregression, Regression, Suite Regression, ElasticNet Regression und ihre Schlüsselelemente.
Regressionsanalyse ist eine vorausschauende Modellierungstechnik, die die Beziehungen zwischen den Variablen (Ziel) und den Eigen-Variablen (Vorhersager) untersucht. Diese Technik wird häufig für die Vorhersageanalyse, Zeitreihenmodelle und die Kausalbeziehungen zwischen den festgestellten Variablen verwendet. Zum Beispiel ist die Beziehung zwischen fahrerischem Fahren und der Anzahl von Straßenverkehrsunfällen am besten durch Regression untersucht.
Regressionsanalyse ist ein wichtiges Werkzeug für die Modellierung und Analyse von Daten. Hier verwenden wir Kurven/Linien, um diese Datenpunkte anzupassen, so dass die Entfernung von der Kurve oder der Linie zu den Datenpunkten minimal ist.
Wie oben erwähnt, schätzt die Regressionsanalyse die Beziehung zwischen zwei oder mehr Variablen.
Zum Beispiel, wenn Sie unter den aktuellen wirtschaftlichen Bedingungen die Umsatzsteigerung einer Firma schätzen wollen. Jetzt haben Sie die neuesten Daten der Firma, die zeigen, dass die Umsatzsteigerung etwa 2,5 Mal so hoch ist wie die Wirtschaftssteigerung.
Es gibt viele Vorteile, die mit Regressionsanalysen verbunden sind.
Es zeigt eine signifikante Beziehung zwischen Eigen- und Faktorvariablen.
Es zeigt die Stärke der Wirkung mehrerer Eigenvariablen auf eine Variable.
Regressionsanalysen erlauben uns auch, die Wechselwirkungen zwischen Variablen zu vergleichen, die unterschiedliche Größen messen, wie z. B. die Beziehung zwischen Preisänderungen und der Anzahl der Aktionen. Diese helfen Marktforscher, Datenanalysten und Datenwissenschaftlern, eine optimale Gruppe von Variablen auszuschließen und zu schätzen, um ein Prognosemodell zu bauen.
Es gibt eine Vielzahl von Regressionstechniken, die zur Vorhersage verwendet werden. Diese Techniken haben drei Hauptmetriken (die Anzahl der Variablen selbst, die Art der Variablen und die Form der Regressionslinie). Wir werden sie in den folgenden Abschnitten im Detail diskutieren.
Für diejenigen, die kreativ sind, können Sie sogar ein Regressionsmodell erstellen, das noch nicht verwendet wurde, wenn Sie eine Kombination der oben genannten Parameter benötigen.
Es ist eine der bekanntesten Modellierungstechniken. Lineare Regression ist in der Regel eine der bevorzugten Techniken, wenn man Predictionmodelle lernt. In dieser Technik ist die Eigenschaft der Regressionslinie linear, da die Variablen kontinuierlich sind.
Lineare Regression verwendet eine optimal passende Gerade (d. h. eine Regressionslinie), um eine Beziehung zwischen der Faktorvariable (Y) und einer oder mehreren Eigenvariablen (X) herzustellen.
Es wird mit einer Gleichung dargestellt, nämlich Y = a + b * X + e, wobei a die Abstandszahl, b die Neigung der Geraden und e die Fehlerkorrektur darstellt. Diese Gleichung kann den Wert der Zielvariablen anhand der gegebenen Prognosevariablen (s) prognostizieren.
Der Unterschied zwischen einer unlinearen Regression und einer multilinearen Regression besteht darin, dass eine multilineare Regression eine Selbstvariable hat, während eine unlineare Regression normalerweise nur eine Selbstvariable hat.
Wie erhält man die besten passenden Linien (Werte von a und b)?
Das Problem kann leicht mit Mindestzwanziger multipliziert werden. Das Mindestzwanziger ist auch die am häufigsten verwendete Methode, um die Regressionslinie anzupassen. Für die Beobachtungsdaten berechnet es die optimale Zwanzigerlinie, indem es die Quadratsum der vertikalen Abweichung von jedem Datenpunkt bis zur Linie minimiert. Da die Abweichung beim Addition vor dem Quadrat liegt, werden die Positiven und Negativen nicht abgebaut.
Wir können die Modellleistung mit den R-Quadrat-Indikatoren bewerten. Weitere Informationen zu diesen Indikatoren finden Sie unter: Modellleistung Indikatoren Part 1, Part 2.
Die Punkte:
Die logische Regression wird verwendet, um die Wahrscheinlichkeit zu berechnen, dass das Ereignis von Y = Erfolg von Y und das Ereignis von Y = Scheitern von Y. Wenn der Typ der Variablen binär ist ((1/0, wahr/falsch, ja/nein), sollten wir die logische Regression verwenden. Hier kann der Wert von Y von 0 bis 1 angegeben werden.
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
In der obigen Formel hat p die Wahrscheinlichkeit, dass eine bestimmte Eigenschaft auftritt. Sie sollten sich fragen: Warum wollen wir Logaritmen in der Formel verwenden?
Da wir hier eine binäre Verteilung (d.h. eine Variable) verwenden, müssen wir eine Verbindungsfunktion auswählen, die für diese Verteilung am besten geeignet ist. Sie ist die Logit-Funktion. In der obigen Gleichung werden die Parameter durch die sehr ähnliche Schätzung der beobachteten Proben ausgewählt, anstatt Quadrat und Fehler zu minimieren (wie in der normalen Regression verwendet).
Die Punkte:
Für eine Regressionsgleichung ist sie eine polynomatische Regressionsgleichung, wenn der Index der Eigenvariablen größer als 1 ist.
y=a+b*x^2
In dieser Regressionstechnik ist die optimale Passlinie keine Gerade; sie ist eine Kurve, die für die Passform der Datenpunkte verwendet wird.
Die Schwerpunkte:
Wir können diese Form der Regression verwenden, wenn wir mit mehreren Eigenvariablen arbeiten. In dieser Technik wird die Auswahl der Eigenvariablen in einem automatischen Prozess durchgeführt, der nicht-menschliche Operationen beinhaltet.
Die Leistung besteht darin, wichtige Variablen durch Beobachtung von statistischen Werten wie R-Square, t-Status und AIC-Indikatoren zu identifizieren.
Die Schwankungsregressionsanalyse ist eine Technik, die für Daten verwendet wird, bei denen mehrere symlineare (von der Höhe der Variablen abhängige) Daten vorhanden sind. Bei mehreren symlinearen Fällen wird der Standardfehler reduziert, indem der Schwankungsgrad der Schwankungsbewertung erhöht wird.
Oben sehen wir eine lineare Regressionsgleichung.
y=a+ b*x
Diese Gleichung hat auch einen Fehlerpunkt.
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
In einer linearen Gleichung kann der Prognosefehler in zwei Subkomponenten aufgeteilt werden. Eine ist die Abweichung und eine ist die Differenz. Der Prognosefehler kann durch diese beiden oder eine der beiden Komponenten verursacht werden. Hier werden wir über die Fehler, die durch die Differenz verursacht werden, sprechen.
Die Zellregression löst die Problematik der mehrfachen Symmetrie durch die Verkleinerungsparameter λ (lambda); siehe folgende Formel.
In dieser Formel gibt es zwei Komponenten. Die erste ist die kleinste Quadratform, die andere ist das Vielfache von β2 (β-Quadrat), wobei β der entsprechende Koeffizient ist. Um die Schrumpfparameter zu schrumpfen, fügen Sie sie in die kleinste Quadratform hinzu, um eine sehr geringe Quadratdifferenz zu erhalten.
Die Punkte:
Es ist ähnlich wie bei der Schrumpfregression und Lasso (Least Absolute Shrinkage and Selection Operator) bestraft auch die Größe des absoluten Wertes des Regressionskoeffizienten. Zusätzlich kann es den Grad der Veränderung reduzieren und die Präzision des linearen Regressionsmodells verbessern.
Lasso-Regression unterscheidet sich ein wenig von Ridge-Regression, da sie eine Strafefunktion verwendet, die absolute, nicht quadratische Werte hat. Dies führt dazu, dass die Strafe (oder die Summe der absoluten Werte, die gleich der Einschränkungsschätzung sind) einen Wert hat, der das Ergebnis einiger Parameterschätzungen gleich null macht. Je größer die Strafe verwendet wird, desto weiter wird die Schätzung geschrumpft.
Die Punkte:
ElasticNet ist eine Mischung aus Lasso und Ridge Regression. Es trainiert mit L1 und bevorzugt L2 als Regulierungsmatrix. ElasticNet ist nützlich, wenn mehrere zugehörige Eigenschaften vorhanden sind. Lasso wählt zufällig eine von ihnen, während ElasticNet zwei wählt.
Der praktische Vorteil zwischen Lasso und Ridge ist, dass es ElasticNet erlaubt, einige der Stabilität von Ridge im Kreislaufzustand zu erben.
Die Punkte:
Wie wählen Sie das Regressionsmodell richtig?
Wenn man nur eine oder zwei Techniken kennt, ist das Leben oft einfach. Ich kenne eine Ausbildungseinrichtung, die ihren Studenten sagt, sie sollten lineare Regression verwenden, wenn das Ergebnis kontinuierlich ist. Wenn es binär ist, dann logische Regression.
In einem mehrstufigen Regressionsmodell ist es wichtig, die am besten geeignete Technik zu wählen, basierend auf der Art der eigen- und veränderungsbedingten Variablen, der Dimension der Daten und anderen grundlegenden Eigenschaften der Daten. Hier sind die wichtigsten Faktoren, die Sie bei der Auswahl des richtigen Regressionsmodells berücksichtigen:
Datenforschung ist ein notwendiger Bestandteil des Baus eines Vorhersagemodells. Sie sollte ein Schritt bei der Wahl des geeigneten Modells sein, z. B. bei der Identifizierung von Beziehungen und Auswirkungen von Variablen.
Die Vorteile für verschiedene Modelle sind, dass wir verschiedene Indikatorparameter analysieren können, wie Parameter der statistischen Bedeutung, R-Quadrat, Adjusted R-Quadrat, AIC, BIC und Fehlerfaktoren, ein anderer Mallows-Cp-Grenze. Dies geschieht hauptsächlich, indem wir das Modell mit allen möglichen Submodellen vergleichen (oder sorgfältig auswählen), um zu prüfen, welche Abweichungen in Ihrem Modell auftreten können.
Cross-Verification ist die beste Methode, um die Prognose-Modelle zu bewerten. Hier teilen Sie Ihre Datensätze in zwei Teile (eines zum Trainieren und eines zum Verifizieren) und messen Ihre Prognose-Genauigkeit mit einem einfachen Mittelwert zwischen den Beobachtungswerten und den Prognosewerten.
Wenn Ihr Datensatz aus mehreren Mischvariablen besteht, dann sollten Sie nicht die automatische Modellwahl-Methode wählen, da Sie nicht alle Variablen gleichzeitig in das gleiche Modell bringen wollen.
Es wird auch von Ihrem Ziel abhängen. Es kann vorkommen, dass ein weniger starkes Modell leichter realisierbar ist als ein Modell mit hoher statistischer Bedeutung.
Regressive Regulierungsmethoden (Lasso, Ridge und ElasticNet) funktionieren gut bei mehreren Ko-Linien zwischen hohen Dimensionen und Datensatzvariablen.
Übertragen von CSDN