Dasar-dasar teori untuk merancang pemeringkat untuk membuat keputusan pemeringkat:
Perbandingan P (ωi) x; di manaωi adalah kelas i, dan x adalah data yang harus diamati dan diklasifikasikan, P (ωi) x menyatakan berapa kemungkinan untuk menentukan bahawa data ini adalah kelas i dalam keadaan vektor ciri yang diketahui, yang juga menjadi kebarangkalian eksplorasi. Menurut rumus Bayesian, ia boleh dinyatakan sebagai:
Di antaranya, P (x) disebut kemungkinan kemiripan atau kemungkinan keadaan kelas; P (ω) dipanggil kemungkinan pendahuluan kerana tidak berkaitan dengan ujian dan boleh diketahui sebelum ujian.
Dalam klasifikasi, jika x diberikan, pilihlah kategori yang mempunyai kemungkinan paling besar untuk P (ωi dalam x); apabila P (ωi dalam x) besar di bawah setiap kategori,ωi adalah pembolehubah dan x adalah tetap; jadi P (ωi dalam x) boleh dihapuskan dan tidak dipertimbangkan.
Oleh itu, masalah ini akhirnya dikurangkan kepada masalah pengiraan P (x) = P (ωi). Kemungkinan awal P (ωi) adalah baik, jika latihan statistik mengumpul peratusan data yang muncul di bawah setiap klasifikasi.
Perkiraan kebarangkalian yang serupa P (x
Di bawah ini adalah pengenalan k algoritma jiran, dalam bahasa Inggeris adalah KNN.
Kita perlu menyesuaikan pembahagian data ini di bawah kategoriωi berdasarkan data x1, x2...xn dalam kumpulan latihan (setiap data adalah m dimensi). Jika x adalah mana-mana titik dalam ruang m dimensi, bagaimana untuk mengira P ((xωi)?
Kita tahu bahawa apabila jumlah data cukup besar, kita boleh menggunakan perbandingan perbandingan kira-kira. Menggunakan prinsip ini, mencari k titik sampel yang paling dekat dengan jarak titik x, di mana terdapat ki yang tergolong dalam kategori i. Menghitung jumlah volume V super bola terkecil yang dikelilingi oleh titik sampel k ini; atau mencari bilangan individu yang tergolong dalam kategori Ωi dalam semua data sampel Ni:
Anda boleh lihat bahawa apa yang kita perolehi sebenarnya adalah ketumpatan kebarangkalian keadaan kelas di titik x.
Jadi, bagaimana dengan P (ωi)? Menurut kaedah di atas, P ((ωi) = Ni/N. Di mana N adalah jumlah sampel. Di samping itu, P ((x) = k/ ((N*V), di mana k adalah bilangan semua titik sampel yang dikelilingi oleh superbenda ini; N adalah jumlah sampel. Jika anda menggunakan formula ini, maka anda boleh mengira:
P(ωi|x)=ki/k
Untuk menerangkan formula di atas, dalam sebuah super bola bersaiz V, kita mengelilingi k sampel, di mana terdapat ki yang tergolong dalam kelas i. Dengan cara ini, kita menentukan jenis sampel yang paling banyak dikelilingi, dan kita menentukan kelas mana yang harus dimiliki oleh x di sini. Ini adalah pengelasan yang direka dengan algoritma k berdekatan.