La base teórica para el diseño de clasificadores para tomar decisiones clasificadas es la teoría de la decisión de Bob Bezos:
Comparando P (ωi) x; dondeωi es la clase i, y x es un dato que se observa y se clasifica, P (ωi) x indica la probabilidad de que el dato pertenece a la clase i en el caso de vectores característicos conocidos, lo que también se convierte en una probabilidad posterior. Según la fórmula de Bayes, se puede expresar como:
En este caso, P (x) se llama probabilidad de semejanza o probabilidad de condiciones de clase; P (ω) se llama probabilidad previa, ya que no tiene relación con el ensayo y se puede saber antes del ensayo.
Cuando se clasifica, dado x, se puede elegir la categoría en la que la probabilidad posterior de P (ωi) es mayor que x. Cuando se compara P (ωi) con x, en cada categoría,ωi es variable y x es fijo; por lo tanto, se puede eliminar P (ωi) y no tener en cuenta.
Por lo tanto, finalmente se reduce al problema de calcular P (x ∈ O) * P (ωi). La probabilidad previa P ((ωi) es buena, siempre y cuando el entrenamiento estadístico concentre la proporción de datos que aparecen bajo cada clasificación.
El cálculo de la probabilidad parecida P (x ∈ O) es muy complicado, ya que esta x es la información del conjunto de pruebas y no se puede obtener directamente de acuerdo con el conjunto de entrenamiento. Entonces necesitamos encontrar la ley de distribución de los datos del conjunto de entrenamiento para obtener P (x ∈ O).
A continuación se presenta el algoritmo de k vecinos, conocido en inglés como KNN.
Se trata de la distribución de los datos x1, x2...xn, cada uno de los cuales es de m dimensiones, bajo la categoríaωi. Si x es cualquier punto en el espacio de m dimensiones, ¿cómo se calcula P (xωi)?
Sabemos que, cuando el volumen de datos es lo suficientemente grande, se puede usar la probabilidad aproximada proporcional. Utilizando este principio, se encuentra el k punto de la muestra más cercano a x y que tiene ki de categoría i. Se calcula el volumen V de la súper esfera más pequeña que rodea este k punto de la muestra; de otro modo, se obtiene el número de individuos de clase Ωi en todos los datos de la muestra Ni:
Podemos ver que lo que hemos calculado es la densidad de probabilidad de las condiciones de clase en el punto x.
¿Cómo se calcula P (ωi)? De acuerdo con el método anterior, P ((ωi) = Ni/N. Donde N es el número total de muestras. Además, P ((x) = k/ ((N*V), donde k es el número de todos los puntos de la muestra que rodean este superesfero; N es el número total de muestras. Entonces P (ωi) puede ser calculado: con la fórmula, es fácil obtener:
P(ωi|x)=ki/k
Explicando la fórmula anterior, dentro de una superesfera de tamaño V, hay k muestras rodeadas, y hay ki de las cuales pertenecen a la clase i. Así, para determinar cuál es la clase de muestras más rodeadas, determinamos a qué clase debería pertenecer x. Esto es un clasificador diseñado con algoritmos de k vecinos.