Dans l'apprentissage automatique, les objectifs sont soit la prédiction, soit le regroupement. Cet article se concentre sur la prévision. La prévision est le processus de prévision de la valeur de la variable de sortie à partir d'un ensemble de variables d'entrée. Par exemple, en obtenant un ensemble de caractéristiques d'une maison, nous pouvons prédire son prix de vente. Nous avons divisé ces algorithmes en trois catégories: les modèles linéaires, les modèles à base d'arbres et les réseaux neuronaux, en mettant l'accent sur les six algorithmes les plus couramment utilisés:
La régression linéaire, ou plus précisément la régression linéaire à deux facettes minimales, est la forme la plus standard du modèle linéaire. Pour les problèmes de régression, la régression linéaire est le modèle linéaire le plus simple. Son inconvénient est que le modèle est facilement sur-adapté, c'est-à-dire que le modèle s'adapte parfaitement aux données qui ont été formées au détriment de sa capacité à se propager à de nouvelles données.
Un autre inconvénient des modèles linéaires est que, comme ils sont très simples, ils ne prédisent pas facilement des comportements plus complexes lorsque les variables d'entrée ne sont pas indépendantes.
La régression logique est l'adaptation de la régression linéaire aux problèmes de classification. Les inconvénients de la régression logique sont les mêmes que ceux de la régression linéaire. Les fonctions logiques sont très bonnes pour les problèmes de classification, car elles introduisent des effets de seuil.
Un arbre de décision est une représentation de chaque résultat possible de la décision en utilisant la méthode de branche. Par exemple, si vous décidez d'acheter une salade, votre première décision sera probablement la variété de légumes crus, puis les légumes d'accompagnement, puis la variété de salade. Nous pouvons représenter tous les résultats possibles dans un arbre de décision.
Pour former un arbre de décision, nous avons besoin d'utiliser un ensemble de données de formation et de trouver l'attribut qui est le plus utile à l'objectif. Par exemple, dans le cas de la détection de la fraude, nous pouvons trouver que l'attribut qui a le plus d'impact sur la prévision du risque de fraude est le pays. Après avoir branché avec la première attribut, nous obtenons deux sous-ensembles, ce qui est le plus prévisible si nous ne connaissons que la première attribut.
Les forêts aléatoires sont l'équivalent de nombreux arbres de décision, où chaque arbre de décision est entraîné avec un échantillon de données aléatoires. Chaque arbre dans une forêt aléatoire est plus faible qu'un arbre de décision complet, mais en mettant tous les arbres ensemble, nous obtenons de meilleures performances globales grâce aux avantages de la diversité.
La forêt aléatoire est un algorithme très populaire dans l'apprentissage automatique aujourd'hui. La forêt aléatoire est facile à former et fonctionne plutôt bien. Son inconvénient est que la forêt aléatoire peut être lente à produire des prédictions par rapport à d'autres algorithmes, de sorte que la forêt aléatoire peut ne pas être choisie lorsque des prédictions rapides sont nécessaires.
Gradient Boosting, comme les forêts aléatoires, est composé d'arbres décisionnels à base de fraîcheur. La plus grande différence avec les forêts aléatoires est que les arbres sont entraînés un par un. Chaque arbre derrière est principalement entraîné par l'arbre devant lui pour identifier les données erronées.
La formation à l'élévation de gradient est également rapide et très performante. Cependant, les petites modifications apportées au jeu de données de formation peuvent modifier fondamentalement le modèle et, par conséquent, les résultats qu'il produit peuvent ne pas être les plus réalisables.
Transférée de la plateforme du Big Data