Die Ressourcen sind geladen. Beförderung...

Sieben Rückkehrtechniken, die Sie lernen sollten

Schriftsteller:Die Erfinder quantifizieren - Kleine Träume, Erstellt: 2016-12-18 10:22:43, Aktualisiert: 2016-12-18 11:08:56

Sieben Rückkehrtechniken, die Sie lernen sollten


Dieser Artikel erläutert die Regressionsanalyse und ihre Vorteile, beschreibt die sieben am häufigsten verwendeten Regressionstechniken und ihre Schlüsselelemente, die man beherrschen sollte: lineare Regression, logische Regression, Polynomen-Regression, Schritt-Regression, Faden-Regression, Suite-Regression, ElasticNet-Regression, und schließt mit einem Einblick in die Schlüsselfaktoren für die Auswahl des richtigen Regressionsmodells. ** ** Die Regressionsanalyse mit Schaltflächen ist ein wichtiges Werkzeug für die Modellierung und Analyse von Daten. Dieser Artikel erläutert die Bedeutung und die Vorteile der Regressionsanalyse und beschreibt die sieben am häufigsten verwendeten Regressionstechniken: Lineare Regression, Logische Regression, Polynomenregression, Schrittregression, Regression, Suite Regression, ElasticNet Regression und ihre Schlüsselelemente.

  • Was ist Regressionsanalyse?

    Regressionsanalyse ist eine vorausschauende Modellierungstechnik, die die Beziehungen zwischen den Variablen (Ziel) und den Eigen-Variablen (Vorhersager) untersucht. Diese Technik wird häufig für die Vorhersageanalyse, Zeitreihenmodelle und die Kausalbeziehungen zwischen den festgestellten Variablen verwendet. Zum Beispiel ist die Beziehung zwischen fahrerischem Fahren und der Anzahl von Straßenverkehrsunfällen am besten durch Regression untersucht.

    Regressionsanalyse ist ein wichtiges Werkzeug für die Modellierung und Analyse von Daten. Hier verwenden wir Kurven/Linien, um diese Datenpunkte anzupassen, so dass die Entfernung von der Kurve oder der Linie zu den Datenpunkten minimal ist.

    img

  • Warum nutzen wir Regressionsanalyse?

    Wie oben erwähnt, schätzt die Regressionsanalyse die Beziehung zwischen zwei oder mehr Variablen.

    Zum Beispiel, wenn Sie unter den aktuellen wirtschaftlichen Bedingungen die Umsatzsteigerung einer Firma schätzen wollen. Jetzt haben Sie die neuesten Daten der Firma, die zeigen, dass die Umsatzsteigerung etwa 2,5 Mal so hoch ist wie die Wirtschaftssteigerung.

    Es gibt viele Vorteile, die mit Regressionsanalysen verbunden sind.

    Es zeigt eine signifikante Beziehung zwischen Eigen- und Faktorvariablen.

    Es zeigt die Stärke der Wirkung mehrerer Eigenvariablen auf eine Variable.

    Regressionsanalysen erlauben uns auch, die Wechselwirkungen zwischen Variablen zu vergleichen, die unterschiedliche Größen messen, wie z. B. die Beziehung zwischen Preisänderungen und der Anzahl der Aktionen. Diese helfen Marktforscher, Datenanalysten und Datenwissenschaftlern, eine optimale Gruppe von Variablen auszuschließen und zu schätzen, um ein Prognosemodell zu bauen.

  • Wie viele Regressionstechnologien haben wir?

    Es gibt eine Vielzahl von Regressionstechniken, die zur Vorhersage verwendet werden. Diese Techniken haben drei Hauptmetriken (die Anzahl der Variablen selbst, die Art der Variablen und die Form der Regressionslinie). Wir werden sie in den folgenden Abschnitten im Detail diskutieren.

    img

    Für diejenigen, die kreativ sind, können Sie sogar ein Regressionsmodell erstellen, das noch nicht verwendet wurde, wenn Sie eine Kombination der oben genannten Parameter benötigen.

    • 1. Lineare Regression

      Es ist eine der bekanntesten Modellierungstechniken. Lineare Regression ist in der Regel eine der bevorzugten Techniken, wenn man Predictionmodelle lernt. In dieser Technik ist die Eigenschaft der Regressionslinie linear, da die Variablen kontinuierlich sind.

      Lineare Regression verwendet eine optimal passende Gerade (d. h. eine Regressionslinie), um eine Beziehung zwischen der Faktorvariable (Y) und einer oder mehreren Eigenvariablen (X) herzustellen.

      Es wird mit einer Gleichung dargestellt, nämlich Y = a + b * X + e, wobei a die Abstandszahl, b die Neigung der Geraden und e die Fehlerkorrektur darstellt. Diese Gleichung kann den Wert der Zielvariablen anhand der gegebenen Prognosevariablen (s) prognostizieren.

      img

      Der Unterschied zwischen einer unlinearen Regression und einer multilinearen Regression besteht darin, dass eine multilineare Regression eine Selbstvariable hat, während eine unlineare Regression normalerweise nur eine Selbstvariable hat.

      Wie erhält man die besten passenden Linien (Werte von a und b)?

      Das Problem kann leicht mit Mindestzwanziger multipliziert werden. Das Mindestzwanziger ist auch die am häufigsten verwendete Methode, um die Regressionslinie anzupassen. Für die Beobachtungsdaten berechnet es die optimale Zwanzigerlinie, indem es die Quadratsum der vertikalen Abweichung von jedem Datenpunkt bis zur Linie minimiert. Da die Abweichung beim Addition vor dem Quadrat liegt, werden die Positiven und Negativen nicht abgebaut.

      img

      Wir können die Modellleistung mit den R-Quadrat-Indikatoren bewerten. Weitere Informationen zu diesen Indikatoren finden Sie unter: Modellleistung Indikatoren Part 1, Part 2.

      Die Punkte:

      • Eine lineare Beziehung zwischen einer Eigen- und einer Verursacher-Variablen ist erforderlich.
      • Es gibt eine Vielzahl von Regressionen, die mehrere Ko-linearität, Eigenbezogenheit und Divergenz aufweisen.
      • Die lineare Regression ist sehr anfällig für Abweichungen. Sie beeinträchtigt die Regressionslinie stark und beeinflusst schließlich die Prognose.
      • Mehrfache Synlinearität erhöht die Differenz der Koeffizienten-Schätzwerte und macht die Schätzungen bei geringen Modelländerungen sehr empfindlich. Das Ergebnis ist eine Instabilität der Koeffizienten-Schätzungen.
      • Bei mehreren Eigenvariablen können wir die wichtigsten Eigenvariablen wählen, indem wir die Forward-Selection-Methode, die Backward-Elimination-Methode und die Schritt-für-Schritt-Filter-Methode verwenden.
    • 2. Logistic Regression Logische Regression

      Die logische Regression wird verwendet, um die Wahrscheinlichkeit zu berechnen, dass das Ereignis von Y = Erfolg von Y und das Ereignis von Y = Scheitern von Y. Wenn der Typ der Variablen binär ist ((1/0, wahr/falsch, ja/nein), sollten wir die logische Regression verwenden. Hier kann der Wert von Y von 0 bis 1 angegeben werden.

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      In der obigen Formel hat p die Wahrscheinlichkeit, dass eine bestimmte Eigenschaft auftritt. Sie sollten sich fragen: Warum wollen wir Logaritmen in der Formel verwenden?

      Da wir hier eine binäre Verteilung (d.h. eine Variable) verwenden, müssen wir eine Verbindungsfunktion auswählen, die für diese Verteilung am besten geeignet ist. Sie ist die Logit-Funktion. In der obigen Gleichung werden die Parameter durch die sehr ähnliche Schätzung der beobachteten Proben ausgewählt, anstatt Quadrat und Fehler zu minimieren (wie in der normalen Regression verwendet).

      img

      Die Punkte:

      • Es wird häufig für Klassifikationsprobleme verwendet.
      • Die logische Regression erfordert keine Eigenvariablen und ist daher linear verknüpft. Sie kann alle Arten von Beziehungen behandeln, da sie eine nichtlineare Log-Konversion für den prognostizierten relativen Risikoindex OR verwendet.
      • Um zu vermeiden, dass es zu viel und zu wenig Passives gibt, sollten wir alle wichtigen Variablen einbeziehen. Eine gute Möglichkeit, dies sicherzustellen, ist die Verwendung einer Schritt-für-Schritt-Filterung, um die logische Regression zu schätzen.
      • Es erfordert eine große Stichprobenmenge, da bei einer geringen Stichprobenmenge die sehr ähnlich geschätzten Effekte um ein zweimal so gering sind wie bei normalen Mindestproben.
      • Selbstvariablen sollten nicht miteinander verknüpft sein, d. h. nicht mehrfach ko-linear. In der Analyse und Modellierung können wir jedoch wählen, die Auswirkungen der Wechselwirkung von Klassifikationsvariablen einzubeziehen.
      • Wenn der Wert einer Variablen als ordnungsorientierte Variable bezeichnet wird, wird sie als ordnungslogische Regression bezeichnet.
      • Wenn eine Variable mehrere Klassen hat, wird sie als mehrfachlogische Regression bezeichnet.
    • 3. Polynomial Regression mehrfache Regression

      Für eine Regressionsgleichung ist sie eine polynomatische Regressionsgleichung, wenn der Index der Eigenvariablen größer als 1 ist.

      y=a+b*x^2
      

      In dieser Regressionstechnik ist die optimale Passlinie keine Gerade; sie ist eine Kurve, die für die Passform der Datenpunkte verwendet wird.

      img

      Die Schwerpunkte:

      • Obwohl es eine Induktion gibt, die eine hohe Polynomialformel passt und einen niedrigeren Fehler erhält, kann dies zu Über-Fit führen. Sie müssen regelmäßig ein Beziehungsdiagramm zeichnen, um die Fits zu betrachten, und sich darauf konzentrieren, dass die Fits vernünftig sind, ohne Über- und Unter-Fit. Hier ist ein Beispiel, das Ihnen helfen kann:

      img

      • Man sucht eindeutig nach Kurvenpunkten an beiden Enden, um zu sehen, ob diese Formen und Trends sinnvoll sind. Höhere Polynomen können schließlich zu seltsamen Schlussfolgerungen führen.
    • 4. Schrittweise Regression

      Wir können diese Form der Regression verwenden, wenn wir mit mehreren Eigenvariablen arbeiten. In dieser Technik wird die Auswahl der Eigenvariablen in einem automatischen Prozess durchgeführt, der nicht-menschliche Operationen beinhaltet.

      Die Leistung besteht darin, wichtige Variablen durch Beobachtung von statistischen Werten wie R-Square, t-Status und AIC-Indikatoren zu identifizieren.

      • Die Standardsteigerungsregression macht zwei Dinge: die Prognose, die für jeden Schritt benötigt wird, wird hinzugefügt und entfernt.
      • Die Forward-Selection-Methode beginnt mit den bedeutendsten Vorhersagen des Modells und fügt dann für jeden Schritt eine Variable hinzu.
      • Die rückwirkende Abgrenzung beginnt gleichzeitig mit allen Prognosen des Modells und beseitigt dann in jedem Schritt die am wenigsten signifikanten Variablen.
      • Der Zweck dieser Modellierungstechnik ist es, die Vorhersagekraft zu maximieren, indem die Anzahl der Vorhersagevariablen minimiert wird. Dies ist auch eine Methode, um mit hochdimensionalen Datensätzen umzugehen.
    • 5. Rückgang der Ridge Regression

      Die Schwankungsregressionsanalyse ist eine Technik, die für Daten verwendet wird, bei denen mehrere symlineare (von der Höhe der Variablen abhängige) Daten vorhanden sind. Bei mehreren symlinearen Fällen wird der Standardfehler reduziert, indem der Schwankungsgrad der Schwankungsbewertung erhöht wird.

      Oben sehen wir eine lineare Regressionsgleichung.

      y=a+ b*x
      

      Diese Gleichung hat auch einen Fehlerpunkt.

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      In einer linearen Gleichung kann der Prognosefehler in zwei Subkomponenten aufgeteilt werden. Eine ist die Abweichung und eine ist die Differenz. Der Prognosefehler kann durch diese beiden oder eine der beiden Komponenten verursacht werden. Hier werden wir über die Fehler, die durch die Differenz verursacht werden, sprechen.

      Die Zellregression löst die Problematik der mehrfachen Symmetrie durch die Verkleinerungsparameter λ (lambda); siehe folgende Formel.

      img

      In dieser Formel gibt es zwei Komponenten. Die erste ist die kleinste Quadratform, die andere ist das Vielfache von β2 (β-Quadrat), wobei β der entsprechende Koeffizient ist. Um die Schrumpfparameter zu schrumpfen, fügen Sie sie in die kleinste Quadratform hinzu, um eine sehr geringe Quadratdifferenz zu erhalten.

      Die Punkte:

      • Abgesehen von den Konstanten ist die Hypothese dieser Regression ähnlich wie die Regression zum Mindestzweifachen.
      • Es schrumpft die Werte der entsprechenden Koeffizienten, aber nicht auf Null, was bedeutet, dass es keine charakteristische Auswahlfunktion hat.
      • Dies ist eine Regulierungsmethode und wird mit L2-Regulierung verwendet.
    • 6. Lasso Regression Regression

      Es ist ähnlich wie bei der Schrumpfregression und Lasso (Least Absolute Shrinkage and Selection Operator) bestraft auch die Größe des absoluten Wertes des Regressionskoeffizienten. Zusätzlich kann es den Grad der Veränderung reduzieren und die Präzision des linearen Regressionsmodells verbessern.

      img

      Lasso-Regression unterscheidet sich ein wenig von Ridge-Regression, da sie eine Strafefunktion verwendet, die absolute, nicht quadratische Werte hat. Dies führt dazu, dass die Strafe (oder die Summe der absoluten Werte, die gleich der Einschränkungsschätzung sind) einen Wert hat, der das Ergebnis einiger Parameterschätzungen gleich null macht. Je größer die Strafe verwendet wird, desto weiter wird die Schätzung geschrumpft.

      Die Punkte:

      • Abgesehen von den Konstanten ist die Hypothese dieser Regression ähnlich wie die Regression zum Mindestzweifachen.
      • Es hat einen Schrumpfkoeffizienten nahe Null ((= Null), was tatsächlich zur Merkmalwahl beiträgt.
      • Dies ist eine Regulierungsmethode, die L1-Regulierung verwendet.
      • Wenn eine Gruppe von Variablen, die vorhergesagt werden, hoch relevant ist, wählt Lasso eine von ihnen aus und schrumpft die anderen auf null.
    • 7.ElasticNet回归

      ElasticNet ist eine Mischung aus Lasso und Ridge Regression. Es trainiert mit L1 und bevorzugt L2 als Regulierungsmatrix. ElasticNet ist nützlich, wenn mehrere zugehörige Eigenschaften vorhanden sind. Lasso wählt zufällig eine von ihnen, während ElasticNet zwei wählt.

      img

      Der praktische Vorteil zwischen Lasso und Ridge ist, dass es ElasticNet erlaubt, einige der Stabilität von Ridge im Kreislaufzustand zu erben.

      Die Punkte:

      • Es gibt Gruppenwirkungen bei hochverwandten Variablen.
      • Es gibt keine Begrenzung für die Anzahl der Variablen, die Sie wählen können.
      • Es kann eine doppelte Schrumpfung ertragen.
      • Zusätzlich zu den 7 am häufigsten verwendeten Regressionstechniken können Sie sich andere Modelle ansehen, wie Bayesian, Ecological und Robust Regressions.
    • Wie wählen Sie das Regressionsmodell richtig?

      Wenn man nur eine oder zwei Techniken kennt, ist das Leben oft einfach. Ich kenne eine Ausbildungseinrichtung, die ihren Studenten sagt, sie sollten lineare Regression verwenden, wenn das Ergebnis kontinuierlich ist. Wenn es binär ist, dann logische Regression.

      In einem mehrstufigen Regressionsmodell ist es wichtig, die am besten geeignete Technik zu wählen, basierend auf der Art der eigen- und veränderungsbedingten Variablen, der Dimension der Daten und anderen grundlegenden Eigenschaften der Daten. Hier sind die wichtigsten Faktoren, die Sie bei der Auswahl des richtigen Regressionsmodells berücksichtigen:

      Datenforschung ist ein notwendiger Bestandteil des Baus eines Vorhersagemodells. Sie sollte ein Schritt bei der Wahl des geeigneten Modells sein, z. B. bei der Identifizierung von Beziehungen und Auswirkungen von Variablen.

      Die Vorteile für verschiedene Modelle sind, dass wir verschiedene Indikatorparameter analysieren können, wie Parameter der statistischen Bedeutung, R-Quadrat, Adjusted R-Quadrat, AIC, BIC und Fehlerfaktoren, ein anderer Mallows-Cp-Grenze. Dies geschieht hauptsächlich, indem wir das Modell mit allen möglichen Submodellen vergleichen (oder sorgfältig auswählen), um zu prüfen, welche Abweichungen in Ihrem Modell auftreten können.

      Cross-Verification ist die beste Methode, um die Prognose-Modelle zu bewerten. Hier teilen Sie Ihre Datensätze in zwei Teile (eines zum Trainieren und eines zum Verifizieren) und messen Ihre Prognose-Genauigkeit mit einem einfachen Mittelwert zwischen den Beobachtungswerten und den Prognosewerten.

      Wenn Ihr Datensatz aus mehreren Mischvariablen besteht, dann sollten Sie nicht die automatische Modellwahl-Methode wählen, da Sie nicht alle Variablen gleichzeitig in das gleiche Modell bringen wollen.

      Es wird auch von Ihrem Ziel abhängen. Es kann vorkommen, dass ein weniger starkes Modell leichter realisierbar ist als ein Modell mit hoher statistischer Bedeutung.

      Regressive Regulierungsmethoden (Lasso, Ridge und ElasticNet) funktionieren gut bei mehreren Ko-Linien zwischen hohen Dimensionen und Datensatzvariablen.

Übertragen von CSDN


Mehr