Die Ressourcen sind geladen. Beförderung...

Kann man mit dem SVM-Vektor-Maschinen-Wetten (Transaktionen) über Gorillas laufen?

Schriftsteller:Die Erfinder quantifizieren - Kleine Träume, Erstellt: 2016-11-01 11:51:41, aktualisiert: 2016-11-01 11:53:28

Kann man mit dem SVM-Vektor-Maschinen-Wetten (Transaktionen) über Gorillas laufen?

Meine Damen und Herren, werfen Sie Ihre Wetten. Heute werden wir unser Bestes tun, um einen Orangen zu besiegen, der als einer der schlimmsten Gegner in der Finanzwelt gilt. Wir werden versuchen, die Nachtags-Rendite der Währungstransaktionsvarianten zu prognostizieren. Ich versichere Ihnen: Es ist eine schwierige Aufgabe, selbst einen Orangen zu besiegen, der zufällig eine Wette macht und eine Gewinnchance von 50% hat. Wir werden mit einem vorgefertigten Machine-Learning-Algorithmus arbeiten, der einen Vektor-Klassifikator unterstützt. SVM-Vektormaschinen sind eine unglaublich leistungsstarke Methode zur Lösung von Regressions- und Klassifizierungsproblemen.

  • SVM unterstützt Vektor

Die SVM-Vektormaschine basiert auf der Idee, dass wir einen p-dimensionalen Eigenschaftsraum mit Überflächen klassifizieren können. Die Algorithmen der SVM-Vektormaschine verwenden eine Überfläche und einen Erkennungsmargin, um eine Klassifikationsentscheidungsgrenze zu erstellen, wie in der Abbildung unten dargestellt.

img

In den einfachsten Fällen ist eine lineare Klassifizierung möglich. Die Algorithmen wählen die Entscheidungsgrenze, die den Abstand zwischen den Klassen maximiert.

In den meisten Finanztempos, mit denen Sie konfrontiert sind, werden Sie selten mit einfachen, linear trennbaren Sammlungen konfrontiert sein, und nicht trennbare Situationen treten häufig auf. Die SVM-Vektormaschine hat dieses Problem gelöst, indem sie eine Methode implementiert hat, die als Soft-Margin-Methode bekannt wurde.

In diesem Fall sind einige Fehlerklassifikationen erlaubt, aber sie führen selbst Funktionen aus, um die Entfernung von Fehler und Grenzen zu Minimieren, um die Proportionsfaktoren zu C (die Fehler bei Kosten oder Budgets können erlaubt sein) zu reduzieren.

img

Grundsätzlich versucht die Maschine, die Abstände zwischen den Klassifikationen zu maximieren, während sie ihre C-gewichteten Strafpunkte minimiert.

Ein großartiges Merkmal des SVM-Sortierers ist, dass die Position und Größe der Entscheidungsgrenze nur von Teilen der Daten bestimmt werden, die am nächsten an der Entscheidungsgrenze liegen. Die Eigenschaften dieser Algorithmen ermöglichen es, Störungen durch abweichende Abweichungen zu widerstehen.

Ist das zu kompliziert? Nun, ich denke, der Spaß hat gerade erst begonnen.

Betrachten Sie die folgenden Situationen (siehe unten, wenn Sie rote Punkte von anderen Farben trennen):

img

Aus menschlicher Sicht ist es sehr einfach, es zu klassifizieren (eine Ophalllinie), aber nicht für eine Maschine. Offensichtlich kann es nicht als eine Gerade gemacht werden (eine Gerade kann die roten Punkte nicht trennen). Hier können wir den Kernel Trick ausprobieren.

Kerntechnik ist eine sehr clevere mathematische Technik, die es uns ermöglicht, lineare Klassifizierungsprobleme in hochdimensionalen Räumen zu lösen.

Wir werden den zweidimensionalen Merkmalraum in drei Dimensionen umwandeln, indem wir ihn mit einer Aufnahmemappe vergrößern, und wenn wir die Klassifizierung abgeschlossen haben, kehren wir in zwei Dimensionen zurück.

Die folgenden Bilder zeigen die Aufbaumapps und nach der Klassifizierung:

img

Im Allgemeinen können Sie eine Mappung vom d-dimensionalen Eingabespace in den p-dimensionalen Feature-Space verwenden, wenn es eine d-Input gibt. Die oben genannte Minimierungsalgorithmus wird die erzeugte Lösung ausführen und dann die p-dimensionale Supraplane Ihres ursprünglichen Eingabespaces zurückmappeln.

Eine wichtige Voraussetzung für die mathematische Lösung der oben genannten Problematik ist, wie man in einem Feature-Space gute Punktesammlungen erzeugt.

Sie benötigen nur diese Punktmustermengen, um die Grenzoptimierung durchzuführen, die Mapping muss nicht eindeutig sein, und die Punkte des Eingabespaces in einem hochdimensionalen Feature-Raum können sicher mit Hilfe der Kernfunktionen (und eines Mercer-Theorems) berechnet werden.

Zum Beispiel möchten Sie Ihr Klassifizierungsproblem in einem supergroßen Feature-Raum lösen, sagen wir 100.000 Dimensionen. Können Sie sich vorstellen, welche Rechenleistung Sie benötigen?

  • Die Herausforderung und die Gorillas

Jetzt sind wir bereit für die Herausforderung, Jeffs Vorhersage zu besiegen.

Jeff ist ein Experte für Geldmärkte, der durch Zufallswetten eine Prognosegenauigkeit von 50% erzielt, die auf die Vorhersage der Ertragsrate am nächsten Handelstag hinweist.

Wir werden verschiedene grundlegende Zeitreihen verwenden, einschließlich der Zeitreihen für den aktuellen Preis, bei denen jede Zeitreihenfolge bis zu 10 Lags Gewinn bringt, insgesamt 55 Features.

Die SVM-Vektormaschine, die wir vorbereitet haben, verwendet 3-Grad-Kernen. Sie können sich vorstellen, dass die Auswahl eines geeigneten Kerns eine andere sehr schwierige Aufgabe ist, um die Parameter C und Γ zu kalibrieren. Dreifache Cross-Verifizierung läuft auf einem Gitter mit möglichen Parameterkombinationen und die beste Gruppe wird ausgewählt.

Die Ergebnisse sind nicht sehr ermutigend:

img

Wir können sehen, dass sowohl die lineare Regression als auch die SVM-Vektormaschine Jeff besiegen können. Obwohl die Ergebnisse nicht optimistisch sind, können wir auch etwas aus den Daten herausholen, was schon gute Nachrichten sind, da die täglichen Gewinne der Finanzzeitreihe in der Datenwissenschaft nicht am nützlichsten sind.

Nach der Cross-Verification werden die Datensätze trainiert und getestet, und wir dokumentieren die Vorhersagekraft der trainierten SVMs. Um eine stabile Performance zu haben, wiederholen wir jede Währung 1000 Mal zufällig zu spalten.

img

So scheint die SVM in manchen Fällen besser als eine einfache lineare Regression zu sein, aber die Performance ist auch etwas unterschiedlicher. In Dollar-Yen-Zahlen machen wir durchschnittlich 54% der gesamten Anzahl von Signalen voraus.

Ted ist Jeffs Cousin, der natürlich auch ein Gorilla ist, aber klüger als Jeff.

img

Wie wir gesehen haben, kommt die Performance der meisten SVMs nur aus der Tatsache, dass die Klassifizierung durch maschinelles Lernen unwahrscheinlicher ist als die vorhergehende. In der Tat kann eine Linearregression keine Informationen aus dem Feature-Raum gewinnen, aber die Interzeption ist in der Regression sinnvoll, und die Interzeption und die Verknüpfung einer Klassifizierung leisten eine bessere Performance.

Eine etwas bessere Nachricht ist, dass die SVM-Vektormaschine einige zusätzliche, nichtlineare Informationen aus den Daten gewinnen kann, was uns eine Präzision von 2% vorschlägt.

Unglücklicherweise wissen wir noch nicht, was das für eine Information sein könnte, wie die SVM-Vektormaschine ihre eigenen Hauptnachteile hat, die wir nicht eindeutig erklären können.

Schriftsteller: P. López, veröffentlicht in Quantdare Übertragen von WeChatimg


Mehr

Goldene 9966Die Bullen