Il existe de nombreuses situations dans la vie où il est nécessaire d'utiliser une classification, comme le classement des journaux, le classement des patients, etc. Pour que vous puissiez imaginer une compréhension, cet article présente un algorithme de classification simple et couramment utilisé.
Laissez-moi commencer par un exemple, et vous verrez que le classificateur Bayes est très bien compris, pas difficile.
Maintenant, voici le septième patient, un ouvrier du bâtiment qui éternue.
P(A|B) = P(B|A) P(A) / P(B)
Vous pouvez:
P(感冒|打喷嚏x建筑工人)
= P(打喷嚏x建筑工人|感冒) x P(感冒)
/ P(打喷嚏x建筑工人)
Supposons que les deux caractéristiques, le squeeze et le squeeze des ouvriers, sont indépendantes, et donc l'équation devient
P(感冒|打喷嚏x建筑工人)
= P(打喷嚏|感冒) x P(建筑工人|感冒) x P(感冒)
/ P(打喷嚏) x P(建筑工人)
C'est un chiffre qui peut être calculé.
P(感冒|打喷嚏x建筑工人)
= 0.66 x 0.33 x 0.5 / 0.5 x 0.33
= 0.66
Par conséquent, il y a une probabilité de 66% que le travailleur de la construction qui éternue ait attrapé un rhume. De la même manière, on peut calculer la probabilité que le patient souffre d'allergies ou de convulsions.
C'est la méthode de base du classement Bayesian: calculer la probabilité de chaque catégorie selon certaines caractéristiques, sur la base de données statistiques, pour réaliser une classification.
Supposons qu'un objet possède n caractéristiques (Feature), respectivement F1, F2,..., Fn..., et qu'il existe m catégories (Category), respectivement C1, C2,..., Cm.., Le classement de Bayes est celui qui détermine la catégorie la plus probable, c'est-à-dire la valeur maximale de l'arithmétique suivante:
P(C|F1F2...Fn)
= P(F1F2...Fn|C)P(C) / P(F1F2...Fn)
Puisque P ((F1F2...Fn) est le même pour toutes les catégories et peut être omis, le problème devient une requête.
P(F1F2...Fn|C)P(C)
La valeur maximale de l'élément a été calculée comme suit:
Les classifiants de Bayes primitifs vont encore plus loin, en supposant que toutes les caractéristiques sont indépendantes les unes des autres.
P(F1F2...Fn|C)P(C)
= P(F1|C)P(F2|C) ... P(Fn|C)P(C)
Chaque élément à droite de l'équation ci-dessus peut être obtenu à partir de données statistiques, ce qui permet de calculer la probabilité correspondante de chaque catégorie pour trouver celle qui a la plus grande probabilité.
Bien que l'hypothèse selon laquelle toutes les caractéristiques sont soulevées indépendamment les unes des autres soit peu probable dans la pratique, elle simplifie considérablement les calculs et des études ont montré qu'elle n'a pas d'effet significatif sur l'exactitude des résultats de la classification.
Selon les statistiques d'un site de communauté, 89% des 10 000 comptes du site sont authentiques (C0), 11% sont faux (C1) ; ensuite, il faut utiliser des statistiques pour juger de l'authenticité d'un compte.
C0 = 0,89 C1 est égal à 0,11
Supposons qu'un compte possède les trois caractéristiques suivantes: F1: Nombre de journaux / jours d'enregistrement F2: Nombre d'amis / Nombre de jours enregistrés F3: Utiliser ou non une image réelle (une image réelle est 1, une image non réelle est 0). F1 est égal à 0.1. F2 est égal à 0.2. F3 est égal à 0.
S'il vous plaît demander si le compte est un compte réel ou un faux compte. La méthode consiste à utiliser un classificateur Bayesian simple pour calculer la valeur de la formule ci-dessous.
Les États membres doivent veiller à ce que les informations fournies par les autorités compétentes soient publiées dans les journaux nationaux.
Bien que les valeurs ci-dessus puissent être obtenues à partir de données statistiques, il y a un problème: F1 et F2 sont des variables continues et ne conviennent pas pour calculer la probabilité d'une valeur spécifique. Une astuce consiste à transformer les valeurs continues en valeurs discrètes, calculant la probabilité de la plage. Par exemple, on découple F1 en trois plages [0, 0.05], ((0.05, 0.2) ], [0.2, +∞] et on calcule la probabilité de chaque plage.
Selon les statistiques, on obtient:
P ((F1 de C0) = 0,5, P ((F1 de C1) = 0,1 P (F2 de C0) = 0,7, P (F2 de C1) = 0,2 P ((F3 de C0) = 0,2, P ((F3 de C1) = 0,9
C'est pourquoi
P (F1
Voici un ensemble de statistiques sur les caractéristiques du corps humain.
Si vous connaissez quelqu'un qui mesure 6 pieds, 130 livres et 8 pouces sur la paume des pieds, demandez-lui s'il est un homme ou une femme.
P (taille et sexe) x P (poids et sexe) x P (pieds et sexe) x P (sexe)
La difficulté ici est que, comme la taille, le poids et les paumes sont des variables continues, il est impossible de calculer la probabilité en utilisant une méthode de variables discrètes. Et comme il y a trop peu d'échantillons, il est impossible de diviser la probabilité en intervalles. Comment faire? On peut alors supposer que la taille, le poids et les paumes des hommes et des femmes sont une distribution normale, en calculant l'égalité et la différence, c'est-à-dire une fonction de densité obtenue par une distribution normale.
Avec ces données, il est possible de calculer la classification des sexes.
P (taille = 6 pieds) x P (poids = 130 pieds) x P (paume = 8 pieds) x P (homme)
= 6.1984 x e-9
P (taille = 6 pieds) x P (poids = 130 pieds) x P (paume = 8 pieds) x P (femelle)
= 5.3778 x e-4
Comme vous pouvez le voir, la probabilité qu'une femme soit presque 10 000 fois plus élevée que celle d'un homme est de juger que cette personne est une femme.