Die Ressourcen sind geladen. Beförderung...

Quantifizierung ist ein Muss: Was ist Tick-Daten und warum ist es so schwer, zuverlässige Transaktionsdaten zu finden?

Schriftsteller:Die Erfinder quantifizieren - Kleine Träume, Erstellt: 2016-11-02 19:33:56, aktualisiert: 2016-11-02 19:48:20

  • Erstens, was ist Tick Data?

Tick Data selbst ist kein Geheimnis, denn die Börse schickt Ihnen den Status eines Kauf- oder Verkaufsauftrags in einem aktiven Bestellbuch für jede Aktie (oder Futures Option), das Ihr Auftrag noch auf der Börse existiert, aber nicht synthetisiert wurde.

**举例说明:**
  某天的市场一开始的时候苹果股票的order book(委托挂单)清空(这里不进行auction period的探讨):
  1. 接着来了第一个卖家:1000@100 :
  这时候交易所会发给你一个message,告诉你是苹果股票有人想以100块钱卖出1000股,
  那么这个order就先挂在了order book上,成为卖一。

  卖:1000@100


  2. 第二个卖家来了,他想卖得更高: 1000@101:
  这时候交易所会发给你另一个message,告诉你是苹果股票有人卖的价格比你差,于是排序在更上面,卖二。

  卖:1000@101

  1000@100


  3. 刚才的第一个卖家后悔了,cancel了他的order:1000@100撤消了,那么交易所会有message告诉你,
  现在只剩一个1000@101(卖一)。但是你可能需要自己编程处理这种remove掉一个tick的情况。

  卖:1000@101


  4. 终于有买家来了... 500@90 , 这个价格是不会成交的,因为买家低于现在的最佳卖价:101,
  那么order book里面会继续存着这个order,同时会发送一个tick告诉市场上的其他人,有买单了:

  卖:1000@101

  买:500@90


  5. 继续,接着有一位买家以101块钱买入1000股,等于要把目前的bestoffer 1000@101给match - 撮合了,那么你是不会收到这个最新的bid: 101@1000 的,
  因为它会进入matching engine的瞬间跟对面的best offer 撮合了,tick table的一个规则: bid offer 永远不会cross,
  否则要么是数据商的bug,要么是交易所的bug。现在,你只会收到一个告诉你delete the best offer的message,那么tick table长这样:

  买:500@90

Tick-Daten sind so einfach, dass der Markt diesen Prozess wiederholen kann.Aber es ist noch schwieriger:

- 1. Oft werden Ticks in UDP gesendet, und wenn die Börse sehr aktiv ist, dann ist der Datenbestand sehr groß, die UDP wird verpackt.

- 2. Wie kann man die Echtzeit-Tick-Daten schneller verarbeiten, denn sonst ist die Datenmenge so groß, dass man, wenn man eine Verzögerung hat, nicht mehr mit dem Tempo der Echtzeit-Tick-Daten mithalten kann, bis sich dein Programm hängt?

- 3. Wie kann man vermeiden, dass ein besonderer Fall einen Fehler verursacht, wenn ein Ticke nicht richtig gezählt wird, dann ist die ganze Tickettabelle falsch:)

** Es gibt auch ein Problem mit dem Verständnis des Ticks: Es gibt auch verschiedene Punkte für den Ticks in verschiedenen Märkten, wie zum Beispiel in den Aktienmärkten in den Industrieländern, die in Echtzeit getrieben werden. Wie viele Millisekunden sind es, wenn man einen Schnappschuss (Snapshot) macht, wenn man 3 Sekunden hat, und dann an Sie sendet? Vielleicht ist das nationale Transaktionssystem sehr alt und kann nicht mit der Entwicklung der IT mithalten.

(Dieser Artikel wurde von dem Quantum-Händler WeChat id:quantcity zusammengestellt.))

  • Zweitens: Was sind einige Details zu Snapshot-Daten und Börsendaten?

Für Hochfrequenz-Tick-Daten aus dem Ausland gibt es einen vollständigen Prozess für die Bestelldaten, so dass Sie diese Bestelldaten nutzen können, um Snapshot-Daten wiederherzustellen.

Die beiden größten Aktien und die vier größten Futures sind theoretisch Snapshot-Daten. Das ist nicht wahr. Eröffnungspreis Höchster Preis Niedrigster Preis Jüngster Preis Transaktionsvolumen Transaktionsvolumen Das ist nicht wahr. Der höchste Preis hier ist der höchste Preis, der von der Eröffnung bis zum Zeitpunkt der Transaktion stattgefunden hat. Angenommen, Sie haben detaillierte Details für jede Transaktion, kann diese Daten in max (min) geschätzt werden. Das ist nicht wahr. Es gibt drei Arten von Echtzeitgeschäften, die von Börsen und Zentralbanken angeboten werden: Schnappschüsse und Transaktionen und Auftragsübertragungen. Das ist nicht wahr. Der Schnappschuss ist ein Foto des Marktes, das alle 3 Sekunden aufgenommen wird, und danach die aktuellen Preise, Höchst-, Tiefst-, Transaktionsvolumen, Transaktionsbetrag usw. gesendet wird. Da das Foto alle 3 Sekunden aufgenommen wird, wissen wir nicht, was während dieser 3 Sekunden auf dem Markt passiert. Die tägliche kontinuierliche Bieterzeit beträgt 4 Stunden in den zwei Morgenstunden und Nachmittagen. Die Anzahl der Schnappschüsse beträgt daher 14400/3 ungefähr 3800 Mal. Das ist nicht wahr. Eine Transaktion pro Stück ist eine Transaktion pro realem Atom. Diese Daten werden jedoch auch in einer Menge von 3 Sekunden gesendet und nicht in Echtzeit. Zum Beispiel wird eine Transaktion in 1,5 Sekunden gesendet und erst in 3 Sekunden gesendet. Das ist nicht wahr. In Level 2 gibt es nur die Top 50 der Kauf- und Verkaufszahlen, nicht die gesamten Auflistungen. (Dieser Artikel wurde von dem Quantum-Händler WeChat id:quantcity zusammengestellt.))

**典型的有几类原因导致数据的差异**
- **1. 数据记录方式**

Nehmen wir zum Beispiel die Level-1-Daten von Aktien, bei denen die Börse eine DBF-Datei veröffentlicht, die alle aktuellen Statusdaten der Wertpapiere aufzeichnet. Die DBF-Datei wird automatisch aktualisiert. Dann muss der Datenanbieter oder der Person, die die Daten erfasst, die Datei alle Zeit lesen und dann alle Daten in die Datenbank einfügen. Aber da die Börse die Daten nicht einmalig aktualisiert, ist es am besten, dass Sie die Daten öfter lesen als sie aktualisieren. Da es eine solche Regel gibt, sehen Sie, dass einige nicht aktiv gehandelte Wertpapiere weniger Daten haben als aktiv gehandelte Wertpapiere, dass die langfristigen Futures weniger Daten haben als die jüngsten, dass die Zeitfenster nicht synchron sind und so weiter.

- **2. 运维问题**

Niemand kann garantieren, dass das Netz nicht abgeschaltet wird. Wenn es zu einem Ausfall, einem Maschinenfehler oder einem Programmierfehler kommt, werden Sie die Ausgabe der Börsendaten verpassen. Nach dem oben genannten Datenmechanismus gibt es keine logische Verbindung zwischen den Level-1-Daten T und T+1 Momente.

- **3. 程序导致的数据错误**

Einige der ungewöhnlichsten Fehler, wie zum Beispiel, dass die Preise für bestimmte Arten von Aktien ungewöhnlich, leer usw. sind, können durch einen Fehler in der Prozedur der Datenerfassung verursacht werden. Daher ist es im Prinzip schwierig, zu 100% vertrauenswürdige Daten zu haben, die Prüfung und Reinigung von Daten ist notwendig und eine langweilige Sache, und die Einrichtung von Regeln hängt auch von der persönlichen Erfahrung ab.


Mehr