Qu'est-ce que l'apprentissage automatique?
Les machines apprennent en analysant de grandes quantités de données. Par exemple, il n'est pas nécessaire de programmer pour reconnaître un chat ou un visage, elles peuvent être formées à l'aide d'images pour assimiler et identifier des objectifs spécifiques.
La relation entre l'apprentissage automatique et l'IA
L'apprentissage automatique est une discipline de recherche et d'algorithmes qui se concentre sur la recherche de modèles dans les données et l'utilisation de ces modèles pour faire des prédictions. L'apprentissage automatique fait partie du domaine de l'intelligence artificielle et interagit avec la découverte de connaissances et l'exploration de données.
Comment le machine learning fonctionne
1 Sélectionnez les données: divisez vos données en trois groupes: données de formation, données de vérification et données de test 2 Données du modèle: utiliser les données de formation pour construire des modèles utilisant les caractéristiques associées 3 Modèle de validation: utilisez vos données de validation pour accéder à votre modèle 4 Modèle de test: utilisez vos données de test pour vérifier la performance du modèle vérifié 5 Utiliser des modèles: utiliser des modèles entièrement formés pour faire des prédictions sur les nouvelles données 6 Modèle d'optimisation: utiliser plus de données, des caractéristiques différentes ou des paramètres modifiés pour améliorer les performances des algorithmes
Où est l'apprentissage automatique?
1 La programmation traditionnelle: un ingénieur en logiciel écrit un programme pour résoudre un problème. D'abord, il y a des données → Pour résoudre un problème, un ingénieur en logiciel écrit un processus pour dire à la machine ce qu'elle doit faire→ L'ordinateur exécute ce processus et obtient des résultats 2 Statistique: les analystes comparent les relations entre les variables 3 Machine learning: les scientifiques de données utilisent des ensembles de données de formation pour apprendre à un ordinateur ce qu'il doit faire, puis le système exécute la tâche. 4 Applications intelligentes: les résultats obtenus par l'application intelligente utilisant l'intelligence artificielle, illustrés ci-dessous, sont des exemples d'applications pour l'agriculture de précision basées sur des données collectées par des drones.
Les applications pratiques de l'apprentissage automatique
Il y a beaucoup de scénarios d'application pour l'apprentissage automatique, et voici quelques exemples de ce que vous pourriez faire.
Cartographie et modélisation en 3D rapide: pour construire un pont ferroviaire, les scientifiques de données et les experts du domaine de PwC appliquent l'apprentissage automatique aux données collectées par les drones. Cette combinaison permet une surveillance précise et une rétroaction rapide du succès du travail.
Analyse améliorée pour réduire les risques: Pour détecter les transactions internes, PwC combine l'apprentissage automatique avec d'autres techniques d'analyse pour développer des profils d'utilisateurs plus complets et une meilleure compréhension des comportements complexes et suspects.
Objectifs de performance prédictifs: PwC utilise l'apprentissage automatique et d'autres méthodes d'analyse pour évaluer le potentiel des différents chevaux sur le circuit de la Melbourne Cup.
Depuis des décennies, les différentes " tribus " de chercheurs en IA se disputent la domination. Est-il temps pour elles de s'unir? Elles devront peut-être le faire, car la collaboration et la fusion d'algorithmes sont les seules façons d'atteindre une véritable intelligence artificielle universelle (AGI).
Les cinq grands genres
1 Symbolisme: utilisation de symboles, de règles et de logiques pour décrire les connaissances et faire des raisonnements logiques, les algorithmes préférés étant: règles et arbres de décision 2 Bayesian: l'acquisition de la probabilité d'un événement pour effectuer des raisonnements de probabilité, les algorithmes préférés étant les suivants: simple Bayesian ou Markov 3 Connectivisme: utilisez des matrices de probabilité et des neurones pondérés pour identifier et induire dynamiquement des modèles. L'algorithme préféré est: 4 L'évolution: générer des variations, puis en extraire les meilleures pour un objectif spécifique. 5 Analogizer: Optimiser les fonctions en fonction des contraintes (aller le plus haut possible, mais en même temps ne pas sortir de la route), l'algorithme préféré est:
Les étapes de l'évolution
Les années 1980
Genre dominant: Symbolisme Architecture: serveur ou gros serveur La théorie dominante: l'ingénierie du savoir La logique de base de la décision: système d'assistance à la décision, utilisation limitée
Les années 1990 à 2000
Genre dominant: Bayes Architecture: petit groupe de serveurs La théorie dominante: la théorie des probabilités Catégorie: comparaison ou contraste extensible, suffisant pour de nombreuses tâches
Début et milieu des années 2010
Genre dominant: le syndicalisme L'architecture: une grande ferme de serveurs La théorie dominante: la neuroscience et la probabilité Reconnaissance: reconnaissance d'images et de voix plus précises, traduction, analyse des émotions, etc.
Les deux genres devraient travailler ensemble et fusionner leurs méthodes respectives.
Fin des années 2010
Genre dominant: le syndicalisme + le symbolisme Architecture: beaucoup de nuages Les théories dominantes: réseaux de mémoire, intégration à grande échelle, raisonnement basé sur la connaissance Les réponses simples sont: partage de connaissances dans des domaines spécifiques.
Les années 2020+
Les genres dominants sont le unionisme + le symbolisme + le bayethisme +... Architecture: le cloud et le brouillard La théorie dominante: il y a des réseaux pour percevoir, des règles pour raisonner et travailler Perception, raisonnement et action simples: une automatisation ou une interaction humaine limitée
Les années 2040+
Le genre dominant: la fusion des algorithmes L'architecture: serveur omniprésent La théorie dominante: la meilleure combinaison de méta-apprentissage Perception et réponse: agir ou répondre en fonction des connaissances ou des expériences acquises grâce à plusieurs modes d'apprentissage
Quels algorithmes d'apprentissage automatique devriez-vous utiliser? Cela dépend en grande partie de la nature et de la quantité de données disponibles et de vos objectifs de formation dans chaque cas d'utilisation particulier. N'utilisez pas les algorithmes les plus complexes, sauf si le résultat en vaut la peine de payer des frais et des ressources coûteux.
Arbre de décision: Dans le processus de réponse progressive, une analyse typique d'arbre de décision utilise des variables stratifiées ou des nœuds de décision, par exemple pour classer un utilisateur donné comme crédible ou non.
Avantages: être capable d'évaluer un large éventail de caractéristiques, qualités et caractéristiques de personnes, lieux et choses. Exemples de scénarios: évaluation de crédit basée sur les règles, prévision des résultats des courses
Support Vector Machine: basé sur un hyperplan, il est possible de classer des ensembles de données avec un support vectoriel.
Avantages: le support des vecteurs pour exécuter des opérations de classement binaire entre une variable X et d'autres variables, que leur relation soit linéaire ou non Des exemples de scènes: classification des informations, reconnaissance de la main écrite.
Régression: la régression permet de tracer une relation d'état entre une variable causée et une ou plusieurs variables causées. Dans cet exemple, une distinction est faite entre le spam et le non-spam.
Avantages: la régression peut être utilisée pour identifier des relations continues entre les variables, même si la relation n'est pas très évidente Exemples de scénarios: analyse du trafic routier, filtrage du courrier
Classification Bayésienne Naïve: Le classificateur Bayésien Naïf est utilisé pour calculer la probabilité d'une ramification de conditions possibles. Chaque caractéristique indépendante est "naïve" ou indépendante des conditions, et n'affecte donc pas les autres objets. Par exemple, quelle est la probabilité de prendre deux petites boules jaunes consécutives dans un paquet de 5 boules jaunes et rouges?
Avantages: pour les objets pertinents présentant des caractéristiques significatives dans un petit ensemble de données, la méthode Bayesian simple permet une classification rapide. Exemples de scénarios: analyse des émotions, catégorisation des consommateurs
Modèle de Markov caché: le processus de Markov manifeste est un processus de certitude absolue dans lequel un état donné est souvent accompagné d'un autre état. Les feux de signalisation en sont un exemple. Au contraire, le modèle de Markov caché calcule l'apparition d'un état caché en analysant les données visibles.
Avantages: Permet la variabilité des données, utilisable pour la reconnaissance et les opérations de prédiction Exemples de scènes: analyse des expressions faciales, prévisions météorologiques
Forêt aléatoire: L'algorithme de la forêt aléatoire améliore la précision des arbres de décision en utilisant plusieurs arbres avec des sous-ensembles de données choisis au hasard. Dans ce cas, un grand nombre de gènes associés à la récidive du cancer du sein sont examinés au niveau de l'expression génétique et le risque de récidive est calculé.
Avantages: la méthode de la forêt aléatoire s'est avérée utile pour les ensembles de données à grande échelle et les éléments qui présentent de nombreuses caractéristiques parfois non liées Exemples de scénarios: analyse des pertes d'utilisateurs, évaluation des risques
Réseau neuronal récurrent: dans un réseau neuronal aléatoire, chaque neurone convertit de nombreuses entrées en une seule sortie à travers une ou plusieurs couches cachées. RNN récurrents transmettent des valeurs de plus en plus par couche, ce qui rend possible l'apprentissage par couche. En d'autres termes, RNN possède une sorte de mémoire qui permet aux sorties précédentes d'influencer les entrées suivantes.
Avantages: les réseaux circulatoires sont prédictifs en présence d'un grand nombre d'informations ordonnées Exemples de scènes: classement des images et ajout de sous-titres, analyse des émotions politiques
La mémoire à court terme (LSTM) et les réseaux neuraux à unité récurrente (RNN) ont une meilleure capacité de contrôle de la mémoire, ce qui permet de conserver les valeurs d'un traitement antérieur ou de les réinitialiser lorsque de nombreuses étapes de la série sont nécessaires, ce qui évite une dégradation finale des valeurs qui peuvent être " dégradées " ou transférées par étapes. Les réseaux GRU et LSTM nous permettent d'utiliser des modules de mémoire ou des structures de contrôle de la mémoire appelées " grilles " qui peuvent être adaptées ou réinitialisées au moment de la transmission des valeurs.
Avantages: la mémoire à court et à long terme et les réseaux circulatoires à cellules de contrôle de porte ont les mêmes avantages que les autres réseaux circulatoires, mais sont plus souvent utilisés car ils ont une meilleure capacité de mémoire. Exemple de scène: traitement du langage naturel, traduction
Réseau neuronal convolutionnel: le convolut est une fusion des poids provenant des couches suivantes et peut être utilisé pour marquer les couches de sortie.
Avantages: les réseaux neuraux convulsifs sont très utiles lorsqu'il y a de très grands ensembles de données, de nombreuses caractéristiques et des tâches de classification complexes. Exemples de scénarios: reconnaissance d'image, traduction de texte, détection de médicaments
http://usblogs.pwc.com/emerging-technology/a-look-at-machine-learning-infographic/
http://usblogs.pwc.com/emerging-technology/machine-learning-methods-infographic/
http://usblogs.pwc.com/emerging-technology/machine-learning-evolution-infographic/
Transférée de la plateforme du Big Data