मशीन लर्निंग में, लक्ष्य या तो पूर्वानुमान (prediction) या क्लस्टरिंग (clustering) है। इस लेख का ध्यान पूर्वानुमान (prediction) पर केंद्रित है। पूर्वानुमान (prediction) एक इनपुट चर के सेट से आउटपुट चर के मूल्य का अनुमान लगाने की प्रक्रिया है। उदाहरण के लिए, एक घर के बारे में विशेषताओं के एक सेट को प्राप्त करने के बाद, हम इसकी बिक्री मूल्य का अनुमान लगा सकते हैं। पूर्वानुमान समस्याओं को दो श्रेणियों में विभाजित किया जा सकता हैः यह समझते हुए, चलिए मशीन लर्निंग में सबसे प्रमुख और सबसे अधिक उपयोग किए जाने वाले एल्गोरिदम को देखते हैं। हम उन्हें तीन श्रेणियों में विभाजित करते हैंः रैखिक मॉडल, पेड़-आधारित मॉडल और तंत्रिका नेटवर्क, और मुख्य रूप से छह आम उपयोग किए जाने वाले एल्गोरिदम पर ध्यान केंद्रित करते हैंः
रैखिक पुनरावृत्ति, या अधिक सटीक रूप से कहा जाता है कि सबसे कम दो गुना पुनरावृत्ति पुनरावृत्ति, रैखिक मॉडल का सबसे मानक रूप है। पुनरावृत्ति समस्याओं के लिए, रैखिक पुनरावृत्ति सबसे सरल रैखिक मॉडल है। इसका नुकसान यह है कि मॉडल आसानी से ओवरफैट हो जाता है, यानी मॉडल पूरी तरह से प्रशिक्षित डेटा के लिए अनुकूलित होता है, नए डेटा में प्रसारित करने की क्षमता का त्याग करता है। इसलिए, मशीन सीखने में रैखिक पुनरावृत्ति (और लॉजिकल पुनरावृत्ति, जिसके बारे में हम बाद में बात करेंगे) अक्सर रैखिक रूप से अनुकूलित होती है, जिसका अर्थ है कि मॉडल को ओवरफैट होने से रोकने के लिए कुछ दंड होता है।
रैखिक मॉडलों का एक और नुकसान यह है कि वे बहुत सरल होने के कारण, अधिक जटिल व्यवहार की भविष्यवाणी करना आसान नहीं है जब इनपुट चर स्वतंत्र नहीं होते हैं।
तार्किक पुनरावृत्ति वर्गीकरण समस्या के लिए रैखिक पुनरावृत्ति का अनुकूलन है। तार्किक पुनरावृत्ति के नुकसान रैखिक पुनरावृत्ति के समान हैं। तार्किक कार्य वर्गीकरण समस्या के लिए बहुत अच्छे हैं क्योंकि यह थ्रेशोल्ड प्रभाव को पेश करता है।
निर्णय वृक्ष निर्णय के प्रत्येक संभावित परिणाम का चित्रण है जो शाखा पद्धति का उपयोग करके दिखाया गया है। उदाहरण के लिए, आप एक सलाद के लिए आदेश देने का निर्णय लेते हैं, और आपका पहला निर्णय शायद कच्चे सब्जियों की किस्म है, फिर पकवान, फिर सलाद की किस्म। हम एक निर्णय वृक्ष में सभी संभावित परिणामों को दर्शा सकते हैं।
निर्णय वृक्ष को प्रशिक्षित करने के लिए, हमें प्रशिक्षण डेटासेट का उपयोग करने की आवश्यकता होती है और यह पता लगाना होता है कि लक्ष्य के लिए कौन सा गुण सबसे उपयोगी है। उदाहरण के लिए, धोखाधड़ी के परीक्षण के उपयोग के उदाहरण में, हम पा सकते हैं कि देश धोखाधड़ी के जोखिम की भविष्यवाणी करने के लिए सबसे अधिक प्रभावशाली गुण है। पहली विशेषता के साथ शाखा के बाद, हमें दो उपसमूह मिलते हैं, जो सबसे सटीक भविष्यवाणी करते हैं यदि हम केवल पहली विशेषता को जानते हैं। फिर हम दूसरी सबसे अच्छी विशेषता का पता लगाते हैं जो इन दो उपसमूहों के लिए शाखा का उपयोग कर सकती है, फिर से विभाजित करें, और इतने पर, जब तक कि पर्याप्त गुण लक्ष्य की जरूरतों को पूरा नहीं करते हैं।
यादृच्छिक वन कई निर्णय वृक्षों का औसत है, जिनमें से प्रत्येक निर्णय वृक्ष को यादृच्छिक डेटा नमूने के साथ प्रशिक्षित किया जाता है। यादृच्छिक वन में प्रत्येक पेड़ एक पूर्ण निर्णय वृक्ष की तुलना में कमजोर होता है, लेकिन सभी पेड़ों को एक साथ रखते हुए, हम विविधता के फायदे के कारण बेहतर समग्र प्रदर्शन प्राप्त कर सकते हैं।
यादृच्छिक वन आज मशीन सीखने में एक बहुत लोकप्रिय एल्गोरिथ्म है. यादृच्छिक वन को प्रशिक्षित करना आसान है, और यह काफी अच्छा प्रदर्शन करता है. इसका नुकसान यह है कि यादृच्छिक वन अन्य एल्गोरिथ्म की तुलना में अनुमानों को आउटपुट करने में धीमा हो सकता है, इसलिए जब तेजी से भविष्यवाणी की आवश्यकता होती है, तो यादृच्छिक वन का चयन नहीं किया जा सकता है।
ग्रेडिएंट बूस्टिंग, जैसे कि रैंडम फॉरेस्ट, कमजोरी वाले निर्णय लेने वाले पेड़ों से बना होता है। ग्रेडिएंट बूस्टिंग का सबसे बड़ा अंतर यह है कि ग्रेडिएंट बूस्टिंग में, पेड़ों को एक-एक करके प्रशिक्षित किया जाता है। प्रत्येक पीछे के पेड़ को मुख्य रूप से सामने के पेड़ द्वारा गलत डेटा की पहचान करने के लिए प्रशिक्षित किया जाता है। इससे ग्रेडिएंट बूस्टिंग आसानी से अनुमानित स्थितियों पर अधिक ध्यान केंद्रित करती है और कम कठिन स्थितियों पर अधिक ध्यान केंद्रित करती है।
ग्रेडिएंट अप करने का प्रशिक्षण भी तेज़ है और बहुत अच्छा प्रदर्शन करता है। हालांकि, प्रशिक्षण डेटासेट में छोटे बदलाव मॉडल में मौलिक परिवर्तन कर सकते हैं, इसलिए इसका परिणाम सबसे व्यवहार्य नहीं हो सकता है।
बड़े डेटा प्लेट से पुनर्प्रकाशित