एक वर्गीकरणकर्ता को वर्गीकृत निर्णय लेने के लिए डिजाइन करने के लिए सैद्धांतिक आधारः
तुलना P (ωi) x; जहांωi वर्ग i है, और x एक डेटा है जिसे देखा और वर्गीकृत किया जाना है, P (ωi) x बताता है कि इस डेटा के लिए ज्ञात विशेषता वैक्टर के मामले में, यह निर्धारित करने की संभावना क्या है कि यह वर्ग i में आता है, जो कि बाद की संभावना भी बन जाता है। बेयर्स सूत्र के अनुसार, इसे इस प्रकार व्यक्त किया जा सकता हैः
इनमें से, P (x) x {\\displaystyle x} i (i) को समानता की संभावना या वर्ग-स्थिति की संभावना कहा जाता है; P (ω) i (i) को पूर्वानुमान की संभावना कहा जाता है क्योंकि यह प्रयोग से असंबंधित है और प्रयोग से पहले ज्ञात हो सकता है।
वर्गीकरण में, x को दिए जाने पर, उस श्रेणी का चयन किया जा सकता है, जिसके बाद के अनुमान की संभावना P (ωi) x सबसे अधिक है; प्रत्येक श्रेणी के बीच तुलना में P (ωi) x से बड़ा है, जबकिωi चर है और x निश्चित है; इसलिए P (ωi) x को हटा दिया जा सकता है और इसे ध्यान में नहीं रखा जा सकता है।
इसलिए अंततः यह P (x) x (ωi) * P (ωi) की गणना करने के लिए एक समस्या है। पूर्वानुमान की संभावना P ((ωi) अच्छी है, जब तक कि सांख्यिकीय प्रशिक्षण प्रत्येक वर्गीकरण के तहत दिखाई देने वाले डेटा के अनुपात को केंद्रित करता है।
एक समान संभावना P (x) की गणना करने के लिए यह बहुत मुश्किल है, क्योंकि यह x परीक्षण समूह का डेटा है, जिसे सीधे प्रशिक्षण समूह के आधार पर नहीं निकाला जा सकता है। तब हमें प्रशिक्षण समूह के डेटा के वितरण के नियम का पता लगाना होगा, और फिर हमें P (x) मिलेगा।
नीचे k निकटवर्ती एल्गोरिथ्म का परिचय दिया गया है।
हम इन आंकड़ों के वितरण को वर्गωi में फिट करने के लिए प्रशिक्षण सेट x1,x2...xn (जिसमें से प्रत्येक डेटा m आयाम का है) के आधार पर करना चाहते हैं। यदि x को m आयामी स्थान में किसी भी बिंदु के रूप में सेट करें, तो P (xωi) की गणना कैसे करें?
हम जानते हैं कि जब डेटा पर्याप्त रूप से बड़ा होता है, तो आप अनुपातिक अनुमानित संभावनाओं का उपयोग कर सकते हैं; इस सिद्धांत का उपयोग करके, बिंदु x के आसपास के निकटतम k नमूना बिंदुओं का पता लगाएं, जिनमें श्रेणी i के कि हैं; इस k नमूना बिंदु को घेरने वाले सबसे छोटे सुपरस्फीयर के आकार V का गणना करें; अन्यथा, सभी नमूना डेटा में श्रेणीωi के व्यक्तियों की संख्या Ni को ज्ञात करें:
आप देख सकते हैं कि हम वास्तव में गणना की है कि वर्ग की स्थिति की संभावना घनत्व बिंदु x पर है.
P (ωi) क्या है? उपरोक्त विधि के अनुसार, P ((ωi) = Ni/N ⋅ जहां N नमूना कुल संख्या है। इसके अलावा, P ((x) = k/ ((N*V), जहां k इस सुपरस्फीयर के चारों ओर सभी नमूना बिंदुओं की संख्या है; N नमूना की कुल संख्या है। तो P (ωi) x के लिए गणना की जा सकती हैः सूत्र में लाओ, यह आसान है:
P(ωi|x)=ki/k
उपरोक्त सूत्र को समझाइए, एक V आकार के सुपरस्फीयर में, k नमूनों को घेर लिया गया है, जिनमें से कई वर्ग i के हैं. इस प्रकार, किस प्रकार के नमूनों को घेर लिया गया है, हम यह निर्धारित करते हैं कि यहाँ x किस वर्ग का होना चाहिए. यह एक वर्गीकरण है जिसे k निकटवर्ती एल्गोरिदम के साथ डिज़ाइन किया गया है.