একটি শ্রেণিবদ্ধকারী ডিজাইন করার জন্য সিদ্ধান্ত গ্রহণের জন্য তাত্ত্বিক ভিত্তিঃ
তুলনা P (ωi) x; যেখানেωi হল i শ্রেণী, x হল একটি ডেটা যা পর্যবেক্ষণ করা হয় এবং শ্রেণিবদ্ধ করা হয়, P (ωi) x এর বৈশিষ্ট্য ভেক্টরগুলির ক্ষেত্রে, এই ডেটাটির i শ্রেণীর অন্তর্গত হওয়ার সম্ভাব্যতা কী তা নির্ধারণ করে।
এর মধ্যে, P (x
শ্রেণিবদ্ধকরণে, x দেওয়া হলে, যে শ্রেণীটি P (ωi) x এর সম্ভাব্যতা সর্বাধিক করে দেয় তা বেছে নেওয়া যেতে পারে। প্রতিটি শ্রেণীর তুলনায় P (ωi) x এর চেয়ে বড় হলে,ωi পরিবর্তনশীল এবং x স্থির হয়; সুতরাং P (ωi) x বাদ দেওয়া যেতে পারে এবং এটি বিবেচনায় নেওয়া যায় না।
সুতরাং শেষ পর্যন্ত এটি P (x) x (ωi) * P (ωi) গণনা করার সমস্যায় পরিণত হয়। পূর্বনির্ধারিত সম্ভাব্যতা P ((ωi) ভাল, যদি পরিসংখ্যানগত প্রশিক্ষণ প্রতিটি শ্রেণীবিভাগের অধীনে প্রদর্শিত তথ্যের অনুপাতকে একত্রিত করে।
সম্ভবত P (x) এর সম্ভাব্যতা গণনা করতে হবে, কারণ x হল পরীক্ষার সেট থেকে পাওয়া তথ্য, এবং এটি সরাসরি প্রশিক্ষণ সেট থেকে বের করা যায় না। তাহলে আমাদের প্রশিক্ষণ সেট ডেটার বন্টনের নিয়ম খুঁজে বের করতে হবে, এবং তারপর আমরা P (x) পেতে পারি।
নীচে k নিকটতম প্রতিবেশী অ্যালগরিদম সম্পর্কে আলোচনা করা হয়েছে।
আমরা প্রশিক্ষণ সেট x1,x2...xn এর উপর ভিত্তি করে (যার প্রতিটি ডেটা m মাত্রা) ক্যাটাগরিωi এর অধীনে এই ডেটাগুলির বন্টনকে সামঞ্জস্য করতে চাই। x কে m মাত্রার স্পেসের যেকোনো একটি বিন্দুতে স্থাপন করা হলে, কিভাবে P (xωi) গণনা করা যায়?
আমরা জানি যে, যখন ডেটা যথেষ্ট বড় হয়, তখন আপনি অনুপাতের আনুপাতিক সম্ভাব্যতা ব্যবহার করতে পারেন। এই নীতিটি ব্যবহার করে, x বিন্দুর চারপাশে, x বিন্দু থেকে সবচেয়ে কাছের k নমুনা বিন্দু খুঁজে বের করুন, যার মধ্যে ক্যাটাগরি i এর কি রয়েছে। এই k নমুনা বিন্দুকে ঘিরে থাকা সর্বনিম্ন সুপারস্ফিয়ার ভলিউম V গণনা করুন; অন্যথায়, সমস্ত নমুনা ডেটাতে ক্যাটাগরি i এর Ni এর সংখ্যা খুঁজে বের করুন:
আপনি দেখতে পাচ্ছেন যে আমরা আসলে x-এ ক্লাস শর্তের সম্ভাব্যতা ঘনত্ব গণনা করেছি।
P (ωi) কিভাবে গণনা করা হয়?
উপরের পদ্ধতি অনুসারে, P ((ωi) = Ni/N ⋅ যেখানে N হল নমুনার মোট সংখ্যা ⋅
এছাড়াও, P ((x) = k/ ((N*V), যেখানে k হল এই সুপারস্ফিয়ারকে ঘিরে থাকা সমস্ত নমুনা পয়েন্টের সংখ্যা; N হল নমুনার মোট সংখ্যা।
তাহলে P (ωi
P(ωi|x)=ki/k
উপরের ফর্মুলাটি ব্যাখ্যা করুন, একটি V-আকারের সুপারস্ফিয়ারে, k টি নমুনাকে ঘিরে রাখা হয়, যার মধ্যে i শ্রেণীর মধ্যে ki রয়েছে। সুতরাং, কোনটি সর্বাধিক ঘিরে রাখা নমুনা, আমরা এখানে x কে কোন শ্রেণীর অন্তর্ভুক্ত করা উচিত তা নির্ধারণ করি। এটি হল k নিকটতম প্রতিবেশী অ্যালগরিদম দ্বারা ডিজাইন করা শ্রেণীবিভাগকারী।