Nous avons besoin d'une solution pour comprendre les problèmes d'apprentissage automatique que nous avons à résoudre.http://machinelearningmastery.com/practical-machine-learning-problems/Ensuite, nous pouvons réfléchir aux données que nous devons collecter et aux algorithmes que nous pouvons utiliser. Dans cet article, nous allons passer en revue les algorithmes d'apprentissage automatique les plus populaires et voir quels sont ceux qui sont utiles. Il y a beaucoup d'algorithmes dans le domaine de l'apprentissage automatique, et puis il y a beaucoup d'extensions pour chaque algorithme, donc il est difficile de déterminer quel est le bon algorithme pour un problème particulier. Dans cet article, je veux vous donner deux méthodes pour résumer les algorithmes que vous rencontrerez dans la réalité.
Les algorithmes sont classés en fonction de la façon dont ils traitent l'expérience, l'environnement ou tout ce que nous appelons des données d'entrée. Les manuels d'apprentissage automatique et d'intelligence artificielle considèrent généralement d'abord la façon dont les algorithmes peuvent s'adapter à l'apprentissage.
Il n'y a que quelques styles d'apprentissage ou modèles d'apprentissage principaux qui sont discutés ici, et quelques exemples de base. Cette méthode de classification ou d'organisation est bonne, car elle vous oblige à réfléchir aux rôles et au processus de préparation du modèle d'entrée de données, puis à choisir l'algorithme qui convient le mieux à votre problème pour obtenir les meilleurs résultats.
Surveillance de l'apprentissage: les données entrées sont appelées données de formation et ont des résultats connus ou marqués. Par exemple, si un e-mail est un spam, ou le prix des actions sur une période de temps. Le modèle fait des prédictions, qui sont corrigées si elles sont erronées, et ce processus se poursuit jusqu'à ce qu'il atteigne certains critères corrects pour les données de formation. Apprentissage sans supervision: les données entrées ne sont pas marquées et n'ont pas de résultats déterminés. Le modèle infère la structure et les valeurs numériques des données. Des exemples de problèmes incluent l'apprentissage par règles d'association et les problèmes de regroupement. Des exemples d'algorithmes incluent les algorithmes Apriori et K-mean algorithmes. Apprentissage semi-supervisé: les données d'entrée sont un mélange de données marquées et non marquées. Il y a des problèmes de prédiction, mais les modèles doivent également apprendre la structure et la composition des données. Apprentissage renforcé: les données d'entrée stimulent le modèle et le font réagir. Les commentaires ne proviennent pas seulement du processus d'apprentissage supervisé, mais aussi de la récompense ou de la punition dans l'environnement.
Lors de l'intégration des données dans les modèles de décision d'entreprise, la plupart des méthodes d'apprentissage supervisé et non supervisé sont utilisées. Un sujet populaire est l'apprentissage semi-supervisé, comme les problèmes de classification d'images, qui contiennent une grande base de données, mais seulement une petite partie des images sont marquées.
Les algorithmes sont essentiellement classés par fonction ou par forme. Par exemple, les algorithmes basés sur des arbres, les algorithmes de réseaux neuronaux. C'est une façon de classer très utile, mais pas parfaite.
Dans cette section, j'ai répertorié les algorithmes que je trouve les plus intuitifs. Je n'ai pas d'algorithmes ou de méthodes de classification, mais je pense qu'ils sont utiles pour donner aux lecteurs une idée générale. Si vous en avez une que je n'ai pas énumérée, merci de la partager.
L'analyse de régression (ou analyse de régression) se concentre sur les relations entre les variables. Elle applique des méthodes statistiques, et plusieurs exemples d'algorithmes incluent:
Les plus petits carrés ordinaires Régression logistique Rétrogradation progressive Splines de régression adaptative multivariée (MARS) Légalisation de la scatterplot estimée localement (LOESS)
L'apprentissage basé sur des exemples simule un problème de décision dans lequel l'exemple ou l'exemple utilisé est très important pour le modèle. Cette approche consiste à créer une base de données sur des données existantes, puis à ajouter de nouvelles données, puis à utiliser une méthode de mesure de la similitude pour trouver une correspondance optimale dans la base de données et à faire une prédiction. Pour cette raison, cette méthode est également appelée méthode gagnant-gagnant et méthode basée sur la mémoire.
k-Vers le voisin le plus proche (kNN) Apprentissage de la quantification vectorielle (LVQ) Carte d'auto-organisation (SOM)
C'est une extension d'une autre méthode (généralement une méthode de régression) qui est plus favorable aux modèles plus simples et plus performants en matière d'induction. Je l'ai énumérée ici parce qu'elle est populaire et puissante.
Régression de la crête Opérateur de rétrécissement et de sélection absolu minimum (LASSO) Réseau élastique
Les méthodes d'arborescence de décision créent un modèle de décision basé sur la valeur réelle des données.
Arbre de classification et de régression (CART) Dichotomisateur itératif 3 (ID3) C4,5 Détection automatique d'interaction au Chi carré (CHAID) Tête de décision Une forêt aléatoire Splines de régression adaptative multivariée (MARS) Machines de levage des gradients (GBM)
La méthode bayésienne est une méthode qui applique le théorème de Bayes pour résoudre les problèmes de classification et de régression.
Bayes naïf Évaluateurs moyens à dépendance unique (AODE) Réseau de croyances bayésiennes (BBN)
La méthode de support vecteur est la plus connue des méthodes de support vecteur. Cette méthode permet de cartographier les données d'entrée dans des dimensions plus élevées, ce qui facilite la modélisation de certains problèmes de classification et de régression.
Machines vectorielles de support (SVM) Fonction de base radiale (FBR) L'analyse linéaire discriminée (LDA)
Clustering (clustering), en soi, décrit les problèmes et les méthodes. Les méthodes de clustering sont généralement classées par mode de modélisation. Toutes les méthodes de clustering organisent les données en utilisant une structure de données uniforme afin que chaque groupe ait le plus de choses en commun.
K - Moyenne Maximisation des attentes (EM)
L'apprentissage des règles d'association est une méthode utilisée pour extraire des règles de données qui permettent de découvrir des liens entre de grandes quantités de données spatiales multidimensionnelles, qui peuvent être utilisées par des organisations.
Algorithme préalable Algoritme Eclat
Les réseaux de neurones artificiels sont inspirés de la structure et des fonctions des réseaux de neurones biologiques. Ils appartiennent à la catégorie des correspondances de modèle, souvent utilisées pour les problèmes de régression et de classification, mais il existe des centaines d'algorithmes et de compositions de variations.
Perceptron Propagation à l'envers Réseau Hopfield Carte d'auto-organisation (SOM) Apprentissage de la quantification vectorielle (LVQ)
L'approche de l'apprentissage en profondeur est une mise à jour moderne des réseaux de neurones artificiels. Comparé aux réseaux de neurones traditionnels, il a une structure de réseau plus complexe, et de nombreuses méthodes sont axées sur l'apprentissage semi-supervisé.
La machine de Boltzmann restreinte (RBM) Réseaux de croyances profondes (DBN) Réseau convolutif Les auto-encodeurs empilés
Dimensionality Reduction, comme la méthode de regroupement, cherche et utilise une structure uniforme dans les données, mais elle les intègre et les décrit avec moins d'informations. Ceci est utile pour visualiser ou simplifier les données.
Analyse des composants principaux (PCA) Régression partielle des moindres carrés (PLS) Cartographie du sammon Étalonnage multidimensionnel (MDS) Poursuite de la projection
Les méthodes d'ensemble sont constituées de nombreux modèles plus petits, qui sont formés indépendamment, forment des conclusions indépendantes et forment une prédiction globale. Beaucoup de recherches se concentrent sur ce que les modèles utilisent et comment ils sont combinés.
Le renforcement L'agrégation bootstrapped (emballage) AdaBoost est en cours de développement. Généralisation empilée (mélange) Machines de levage de gradient (GBM) Une forêt aléatoire
C'est un exemple d'ajustement par méthode combinée (de wiki), chaque méthode de lutte contre les incendies est indiquée en gris et la prédiction finale de la synthèse finale est en rouge.
Cette visite d'algorithmes d'apprentissage automatique est destinée à vous donner une vue d'ensemble des algorithmes et des outils associés.
Voici d'autres ressources, mais ne vous en faites pas trop, en sachant que plus d'algorithmes sont bons pour vous, mais il est utile d'avoir une connaissance approfondie de certains d'entre eux.
Transférée de la rubrique de blogueurs/développeurs de Python