Бейесовский классификатор на основе алгоритма KNN

Автор:Изобретатели количественного измерения - мечты, Создано: 2017-01-14 17:23:19, Обновлено:

Бейесовский классификатор на основе алгоритма KNN

Теоретические основы для разработки классификатора для классификации решений

Сравните P (ωi) x; гдеωi - класс i, а x - данные, наблюдаемые и подлежащие классификации, P (ωi) x - представляет вероятность того, что данные принадлежат к классу i при известных характеристических векторах.

基于 KNN 算法的贝叶斯分类器

P (x) называется вероятностью сходства или вероятностью классовых условий; P (ω) называется вероятностью предварительного, так как не имеет отношения к эксперименту и может быть известна до эксперимента.

При классификации, при условии x, можно выбрать ту категорию, которая имеет наибольшую вероятность P ((ωi) x); при сравнении каждой категории P ((ωi) x) больше, чем другие категории, гдеωi является переменным, а x - фиксированным; поэтому можно исключить P ((x) и не учитывать.

Таким образом, в конечном итоге речь идет о вычислении P ((x ∈ I) * P ((ωi)). Предварительная вероятность P ((ωi) является хорошей, если статистическая подготовка сосредоточится на процентах данных, появляющихся под каждой классификацией.

Вычисление схожей вероятности P (x ∈ I) будет сложным, поскольку x - это данные из тестовой группы, которые не могут быть получены напрямую на основе тренировочной группы. Тогда нам нужно найти закономерности распределения данных тренировочной группы, чтобы получить P (x ∈ I).

Ниже представлен алгоритм k соседних, который называется KNN.

Мы должны распределить данные x1, x2...xn в соответствии с данными в тренировочной группе x1, x2...xn (в каждой из которых данные m-размеры), в категорииωi. Если x - любая точка в m-размерном пространстве, как рассчитать P ((xωi)?

Известно, что при достаточно большом объеме данных можно использовать пропорциональную приблизительную вероятность. Используя этот принцип, в окружении точки x выясняется, где находятся ближайшие к точкам образца, находящиеся на расстоянии от точки x, из которых имеются ки, относящиеся к категории i. Выясняется объем V наименьшего суперсферы, окружающей эту к точку образца; в качестве альтернативы выясняется, сколько из всех образцовых данных принадлежит к категории ωi Ni:

基于 KNN 算法的贝叶斯分类器

Вы можете видеть, что мы рассчитали на самом деле плотность вероятности классовых условий в точке x.

Как вычислить P (ωi)? В соответствии с вышеприведенным методом, P ((ωi) = Ni/N ‒ где N - общее количество образцов. Кроме того, P ((x) = k/ ((N*V), где k - количество всех точек образца, окруженных этим сверхсфером; N - общее количество образцов. Тогда P (ωi x) можно вычислить: привести формулу, легко получить:

P(ωi|x)=ki/k

Продолжаем с этой формулой: в суперсфере размером с V окружено k образцов, из которых есть ki, принадлежащих к классу i. Таким образом, мы определяем, к какому классу должен принадлежать x. Это классификатор, разработанный с помощью алгоритма k близких соседей.


Больше информации