Теоретические основы для разработки классификатора для классификации решений
Сравните P (ωi) x; гдеωi - класс i, а x - данные, наблюдаемые и подлежащие классификации, P (ωi) x - представляет вероятность того, что данные принадлежат к классу i при известных характеристических векторах.
P (x) называется вероятностью сходства или вероятностью классовых условий; P (ω) называется вероятностью предварительного, так как не имеет отношения к эксперименту и может быть известна до эксперимента.
При классификации, при условии x, можно выбрать ту категорию, которая имеет наибольшую вероятность P ((ωi) x); при сравнении каждой категории P ((ωi) x) больше, чем другие категории, гдеωi является переменным, а x - фиксированным; поэтому можно исключить P ((x) и не учитывать.
Таким образом, в конечном итоге речь идет о вычислении P ((x ∈ I) * P ((ωi)). Предварительная вероятность P ((ωi) является хорошей, если статистическая подготовка сосредоточится на процентах данных, появляющихся под каждой классификацией.
Вычисление схожей вероятности P (x ∈ I) будет сложным, поскольку x - это данные из тестовой группы, которые не могут быть получены напрямую на основе тренировочной группы. Тогда нам нужно найти закономерности распределения данных тренировочной группы, чтобы получить P (x ∈ I).
Ниже представлен алгоритм k соседних, который называется KNN.
Мы должны распределить данные x1, x2...xn в соответствии с данными в тренировочной группе x1, x2...xn (в каждой из которых данные m-размеры), в категорииωi. Если x - любая точка в m-размерном пространстве, как рассчитать P ((xωi)?
Известно, что при достаточно большом объеме данных можно использовать пропорциональную приблизительную вероятность. Используя этот принцип, в окружении точки x выясняется, где находятся ближайшие к точкам образца, находящиеся на расстоянии от точки x, из которых имеются ки, относящиеся к категории i. Выясняется объем V наименьшего суперсферы, окружающей эту к точку образца; в качестве альтернативы выясняется, сколько из всех образцовых данных принадлежит к категории ωi Ni:
Вы можете видеть, что мы рассчитали на самом деле плотность вероятности классовых условий в точке x.
Как вычислить P (ωi)?
В соответствии с вышеприведенным методом, P ((ωi) = Ni/N ‒ где N - общее количество образцов.
Кроме того, P ((x) = k/ ((N*V), где k - количество всех точек образца, окруженных этим сверхсфером; N - общее количество образцов.
Тогда P (ωi
P(ωi|x)=ki/k
Продолжаем с этой формулой: в суперсфере размером с V окружено k образцов, из которых есть ki, принадлежащих к классу i. Таким образом, мы определяем, к какому классу должен принадлежать x. Это классификатор, разработанный с помощью алгоритма k близких соседей.