Stratégie de négociation à haute fréquence basée sur l'apprentissage automatique

Auteur:L'inventeur de la quantification - un petit rêve, Créé: 2016-11-16 16:52:38, Mis à jour: 2016-11-16 16:55:18

Stratégie de négociation à haute fréquence basée sur l'apprentissage automatique

  • ### Une théorie Les mécanismes de négociation du marché des valeurs mobilières peuvent être divisés en deux catégories: les marchés proposés et les marchés ordonnés, les premiers dépendant de la liquidité fournie par les négociants, les derniers fournissant de la liquidité par le biais de quotas, les transactions étant formées par des offres d'achat et de vente d'investisseurs. Le marché des valeurs mobilières chinois appartient aux marchés ordonnés, y compris le marché des actions et le marché des contrats à terme.

基于机器学习的订单簿高频交易策略Graphique 1 Diagramme du marché qui est alimenté par les commandes

  • (I) Liste de prix limitée

    La théorie de la structure microscopique du marché tire ses idées de la théorie des prix et de la théorie des fournisseurs dans l'économie microscopique, et utilise diverses théories et méthodes pour analyser les processus et les causes de la transaction d'actifs financiers et de la formation de leurs prix.

    En ce qui concerne les progrès de la recherche à l'étranger, le domaine de la microstructure du marché est représenté par O Hara, où la plupart des théories sont basées sur des marchés de marché (c'est-à-dire des marchés axés sur les offres), tels que les modèles d'inventaire et les modèles d'information.

    Les marchés de valeurs mobilières et les marchés à terme sont tous deux des marchés orientés par les ordres. Le graphique ci-dessous est une capture d'écran du carnet d'ordres de l'industrie de niveau 1 de l'IF1312. Il n'y a pas beaucoup d'informations obtenues directement, les informations de base incluent un prix d'achat, un prix de vente, un volume d'achat et un volume de vente. Dans certains articles académiques à l'étranger, il existe également des carnets d'informations correspondant aux carnets d'ordres, y compris les données les plus détaillées sur le recueil des ordres, y compris le volume d'ordres, les prix passés, les types d'ordres de chaque ordre.

    基于机器学习的订单簿高频交易策略Figure 2 Compte de commandes des contrats à terme de premier niveau indiciels

  • (B) Les progrès de la recherche sur les transactions à haute fréquence dans les carnets de commandes

    La modélisation dynamique des carnets d'ordres est principalement de deux types, une méthode classique d'économie de mesure et une autre méthode d'apprentissage automatique. La méthode d'économie de mesure est une méthode classique de recherche dominante, comme la décomposition MRR pour l'analyse des différences de prix, la décomposition Huang et Stoll, le modèle ACD pour la durée des commandes et le modèle logistique pour la prévision des prix.

    La recherche académique sur l'apprentissage automatique dans le domaine financier est également très active, comme le cas de la recherche de 2012 sur les tendances de haute fréquence KOSPI200 index data using learning classifiers. La recherche est une idée courante qui utilise des indicateurs d'analyse technique courants (MA, EMA, RSI, etc.) pour introduire des méthodes de classification de l'apprentissage automatique pour faire des prédictions de marché.

  • Deuxièmement, les applications de l'apprentissage automatique dans les transactions à haute fréquence dans les carnets de commandes

    • #### (I) L'architecture du système La figure ci-dessous est l'architecture du système d'une stratégie de trading typique d'apprentissage automatique, comprenant des données de livre d'ordres, la découverte de caractéristiques, la construction et la validation de modèles et plusieurs modules principaux d'opportunités de trading. Il est à noter que le processus de négociation est déclenché par un événement de marché, l'arrivée d'un marché tick étant l'un de ces événements.

    基于机器学习的订单簿高频交易策略Figure 3: Architecture de système basée sur l'apprentissage automatique pour modéliser les carnets de commandes

    • #### (II) Prise en charge de la machine vectorielle Dans les années 1970, Vapnik et ses collègues ont commencé à construire un système théorique plus complet de la théorie de l'apprentissage statistique (SLT), qui est utilisé pour étudier les lois statistiques et la nature des méthodes d'apprentissage dans des situations d'échantillons limités. Il a établi un bon cadre théorique pour les problèmes d'apprentissage automatique à échantillons limités, résolvant mieux des problèmes pratiques tels que les petits échantillons, les non-linéaires, les nombres de haute dimension et les extrêmes locaux. En 1995, Vapnik et ses collègues ont clairement proposé une nouvelle méthode d'apprentissage universelle qui soutient la vectorialisation des machines (SVM, Support Vector Machine).

    Le SVM est issu d'un surplan classique optimal dans les cas de divisibilité linéaire. Pour les deux types de problèmes de classification, le jeu d'échantillons d'entraînement est défini comme ((xi,yi), i = 1,2...l, l est le nombre d'individus de l'échantillon d'entraînement, xi est l'échantillon d'entraînement, yi est le marqueur de classe de l'échantillon d'entrée xi (exit attendu). L'algorithme SVM part de la recherche d'un surplan classique optimal.

    Le surplan classique optimal est non seulement capable de séparer correctement tous les échantillons (la cote d'erreur de formation est 0), mais aussi de maximiser la marge entre les deux classes, définie comme la somme de la distance minimale entre le jeu de données de formation et ce surplan classique. Le surplan classique optimal signifie que l'erreur de classification moyenne des données de test est la plus faible.

    Si une superplanète existe dans un espace vectoriel en d dimensions:

    F ((x) = w*x+b=0

    Si l'on peut séparer ces deux types de données, on appelle ce superplan l'interface divisée.

    Si l'interface est divisée:

    w*x+b=0

    L'interface qui permet de maximiser la distance entre les deux échantillons les plus proches de l'interface est appelée l'interface la plus fine.

    基于机器学习的订单簿高频交易策略Graphique 4 Diagramme de l'interface de la catégorie SVM

    Une homogénéisation de l'équation de l'interface optimale permet d'obtenir des distances entre les deux types d'échantillons

    基于机器学习的订单簿高频交易策略

    Donc pour n'importe quel échantillon,

    基于机器学习的订单簿高频交易策略

    Pour obtenir l'interface optimale, en plus de satisfaire à la formule ci-dessus, il faut minimiser.

    Le modèle mathématique du problème SVM est donc:基于机器学习的订单簿高频交易策略

    Le SVM est finalement devenu un problème de planification le plus optimisé, et les recherches du monde universitaire se concentrent principalement sur la résolution rapide, la diffusion dans les multiclasses, l'application de problèmes pratiques, etc.

    SVM a été initialement proposé pour les problèmes de bicatégorie et a été étendu aux problèmes de multiclasses en fonction des exigences actuelles de l'application pratique. Les algorithmes multiclasses existants comprennent des algorithmes de multiples, un à un, de correction d'erreurs, de DAG-SVM et de multiclasses SVM.

    • #### (III) Indicateurs de la liste des commandes extraits Prenons l'exemple de l'indice à terme au niveau 1, le carnet d'ordres comprend principalement des indicateurs de base tels que le prix d'achat, le prix de vente, le volume d'achat et le volume de vente, et peut être dérivé de indicateurs tels que la profondeur, la pente, le décalage relatif, d'autres indicateurs tels que le volume d'opérations, le volume de transactions, le déficit, etc., pour un total de 17 indicateurs, comme indiqué dans le tableau ci-dessous.

    Tableau 1 Base d'indicateurs basée sur le registre des commandes de niveau

    基于机器学习的订单簿高频交易策略

    • #### (IV) Caractéristiques dynamiques du carnet de commandes et opportunités de transaction Du point de vue microscopique du marché, il existe deux méthodes de mesure de la dynamique des prix à court terme, l'une étant la dynamique intermédiaire et l'autre le croisement des prix.

    基于机器学习的订单簿高频交易策略

    Selon la taille de la variation de la valeur moyenne ΔP dans le carnet de commandes Δt, la variation est divisée en trois catégories:

    Le graphique ci-dessous montre la distribution du mouvement du prix moyen des principaux contrats IF1311 le 29 octobre, avec 32 400 ticks par jour.

    Dans le cas où Δt = 1 tick, la variation absolue de la valeur absolue de l'intermédiaire 0.2 est d'environ 6000 fois, la variation absolue de 0.4 est d'environ 1500 fois, la variation absolue de 0.6 est d'environ 150 fois, la variation absolue de 0.8 est plus grande que 50 fois et la variation absolue de 1 est plus grande que 10 fois.

    Dans le cas où Δt = 2 tick, la variation absolue de la valeur absolue de l'intermédiaire 0.2 est d'environ 7000 fois, la variation absolue de 0.4 est d'environ 3000 fois, la variation absolue de 0.6 est d'environ 550 fois, la variation absolue de 0.8 est d'environ 205 fois, et la variation absolue est d'environ 10 fois supérieure ou égale à 1.

    Nous considérons que la variation absolue est une opportunité potentielle si elle est supérieure à 0.4. Dans le cas où Δt = 1 tick, il y a environ 1700 opportunités par jour; dans le cas où Δt = 2 tick, il y a environ 4000 opportunités par jour.

    基于机器学习的订单簿高频交易策略

    Figure 5 IF1311 Diagramme des variations du prix moyen le 29 octobre (Δt = 1 tick)

    基于机器学习的订单簿高频交易策略

    Figure 6 IF1311 Diagramme des variations du prix moyen le 29 octobre (Δt = 2 tick)

  • Troisièmement, une preuve stratégique.

    Étant donné que les modèles SVM ont une complexité de formation relativement élevée et un temps de formation plus long dans des cas de grand échantillonnage, nous avons choisi des données historiques de marché à une portée relativement courte, en utilisant les données de marché de niveau 1 du contrat IF1311 en octobre pour vérifier l'efficacité du modèle.

    • #### (I) Examen des effets du modèle Cycle de données: chiffres du marché des contrats IF1311 en octobre;

    Pour comparer l'effet du modèle, on utilise les valeurs 1 tick, 2 tick et 3 tick.

    Les indicateurs d'évaluation des modèles: précision des échantillons, précision des tests, temps de prévision.基于机器学习的订单簿高频交易策略Tableau 2 pour les effets de la prédiction de 1 tick avec les données de 1 tick

    基于机器学习的订单簿高频交易策略Tableau 3 avec les données de 1 tick pour prévoir l'effet de tick 2

    基于机器学习的订单簿高频交易策略Tableau 4 Les effets des 2 ticks sur les données de 2 ticks

    D'après les données des trois tableaux ci-dessus, nous pouvons tirer les conclusions suivantes: La plus haute précision est d'environ 70%, et la plus faible est de 60%, ce qui peut être traduit par une stratégie de trading.

    • #### (B) la stratégie de simulation des gains Par exemple, le 31 octobre, nous avons effectué une simulation de négociation, et les frais de négociation des futures boursières des institutions sont généralement de 0.2610000Supposons qu'il n'y ait pas de limite de nombre de transactions, supposons que le prix d'un seul coup est de 0,2 points pour chaque transaction et que le nombre de transactions est de 1 pour chaque main.

    Tableau 5 Stratégie de simulation des transactions au 31 octobre基于机器学习的订单簿高频交易策略

    Le nombre de transactions effectuées pendant toute la journée est de 605 fois, y compris les procédures, 339 fois de bénéfices, 56% de gain, profit net de 11814.99 yuans.

    En théorie, le prix de glissement est de 14520 yuans, ce qui est la clé de la stratégie de la guerre, si les détails de l'ordre sont contrôlés avec plus de précision, il est possible de réduire le prix de glissement et d'augmenter les bénéfices nets. Si les détails de l'ordre sont mal contrôlés ou si les fluctuations du marché sont anormales, le prix de glissement sera plus grand, tandis que les bénéfices nets seront plus faibles.

    Graphique 7 Résultats des stratégies simulées le 31 octobre基于机器学习的订单簿高频交易策略

Déclaration d'origine: Cette page est créée par l'auteur, veuillez indiquer la source.


En savoir plus

Je suis Evan1987Bonjour, Je suis en train d'apprendre à étudier les commandes en moins