Các cơ sở lý thuyết thiết kế máy phân loại để đưa ra quyết định phân loại
So sánh P (ωi) với x; trong đóωi là loại i, x là một dữ liệu được quan sát và phân loại, P (ωi) cho biết xác suất của dữ liệu này là bao nhiêu trong trường hợp các vector đặc trưng của dữ liệu này được biết, điều này cũng trở thành xác suất hậu quả. Theo công thức Bayesian, nó có thể được thể hiện như sau:
Trong đó, P (x) được gọi là xác suất tương tự hoặc xác suất điều kiện lớp; P (ω) được gọi là xác suất trước vì nó không liên quan đến thử nghiệm và có thể được biết trước khi thử nghiệm.
Khi phân loại, cho x, bạn có thể chọn loại cho phép xác suất hậu quả P (ωi) lớn nhất; khi so sánh P (ωi) lớn hơn x trong mỗi loại,ωi là biến và x là cố định; vì vậy bạn có thể loại bỏ P (ωi) và không xem xét nó.
Vì vậy, cuối cùng kết luận là vấn đề tính toán P (x)
Tính toán xác suất tương tự P (x ∈ I) là rất khó khăn vì x là dữ liệu trong tập hợp thử nghiệm và không thể trực tiếp được tính theo tập hợp huấn luyện.
Dưới đây là một bài giới thiệu về thuật toán lân cận k, tiếng Anh là KNN.
Chúng ta cần phân bố các dữ liệu này theo phân loạiωi dựa trên dữ liệu x1,x2...xn trong tập huấn (mỗi dữ liệu là m chiều).
Chúng ta biết rằng khi số lượng dữ liệu đủ lớn, có thể sử dụng tỷ lệ gần gũi xác suất. Sử dụng phương pháp này, tìm ra k điểm mẫu gần nhất với khoảng cách x, trong đó có ki thuộc loại i. Xác định khối lượng V của siêu cầu nhỏ nhất bao quanh k điểm mẫu này; hoặc tìm ra số lượng các cá nhân thuộc loại Ωi trong tất cả dữ liệu mẫu Ni:
Bạn có thể thấy rằng chúng ta tính toán thực sự là mật độ xác suất của các điều kiện lớp tại điểm x.
P (ωi) là gì? Theo phương pháp trên, P ((ωi) = Ni/N ⋅ trong đó N là tổng số mẫu. Ngoài ra, P ((x) = k/ ((N * V), trong đó k là số lượng của tất cả các điểm mẫu bao quanh siêu cầu này; N là tổng số mẫu. Sau đó, chúng ta có thể tính toán: đưa ra công thức, nó rất dễ dàng để đưa ra:
P(ωi|x)=ki/k
Để giải thích thêm, trong một siêu cầu có kích thước V, chúng ta bao bọc k mẫu, trong đó có ki thuộc loại i. Vì vậy, loại mẫu bao bọc nhiều nhất, chúng ta xác định loại x ở đây nên thuộc loại nào. Đây là một bộ phân loại được thiết kế bằng thuật toán gần k.