मशीन लर्निंग के 3 बड़े वर्गीकरणों के 6 बड़े एल्गोरिदम के फायदे और नुकसान

लेखक:आविष्कारक मात्रा - छोटे सपने, बनाया गयाः 2017-10-30 12:01:59, अद्यतन किया गयाः 2017-11-08 13:55:03

मशीन लर्निंग के 3 बड़े वर्गीकरणों के 6 बड़े एल्गोरिदम के फायदे और नुकसान

मशीन लर्निंग में, लक्ष्य या तो पूर्वानुमान (prediction) या क्लस्टरिंग (clustering) है। इस लेख का ध्यान पूर्वानुमान (prediction) पर केंद्रित है। पूर्वानुमान (prediction) एक इनपुट चर के एक सेट से आउटपुट चर के मूल्य का अनुमान लगाने की प्रक्रिया है। उदाहरण के लिए, एक विशेषताओं के एक सेट को प्राप्त करने के लिए, हम इसके बिक्री मूल्य का अनुमान लगा सकते हैं। पूर्वानुमान समस्याओं को दो श्रेणियों में विभाजित किया जा सकता हैः यह समझते हुए, चलिए मशीन लर्निंग में सबसे प्रमुख और सबसे अधिक उपयोग किए जाने वाले एल्गोरिदम को देखते हैं। हम उन्हें तीन श्रेणियों में विभाजित करते हैंः रैखिक मॉडल, पेड़-आधारित मॉडल और तंत्रिका नेटवर्क, और मुख्य रूप से छह आम उपयोग किए जाने वाले एल्गोरिदम पर ध्यान केंद्रित करते हैंः

全解机器学习3大分类6大算法的优势和劣势

एक, रैखिक मॉडल एल्गोरिथ्मः रैखिक मॉडल सरल सूत्रों का उपयोग करता है, जो डेटा बिंदुओं के एक सेट के माध्यम से सबसे अच्छा फिट बैठता है। यह विधि 200 से अधिक वर्षों से चली आ रही है और सांख्यिकी और मशीन सीखने दोनों क्षेत्रों में व्यापक रूप से उपयोग की जाती है। इसकी सादगी के कारण, यह सांख्यिकी के लिए उपयोगी है। जो चर आप भविष्यवाणी करना चाहते हैं उसे चर के समीकरण के रूप में दर्शाया जाता है जिसे आप पहले से ही जानते हैं (स्व-परिवर्तन), इसलिए भविष्यवाणी करना केवल एक समस्या है जिसमें आप स्वयं को एक चर दर्ज करते हैं और फिर समीकरण के उत्तरों को हल करते हैं।

  • ### ## 1. रैखिक प्रतिगमन

रैखिक पुनरावृत्ति, या अधिक सटीक रूप से कहा जाता है कि सबसे कम दो गुना पुनरावृत्ति पुनरावृत्ति, रैखिक मॉडल का सबसे मानक रूप है। पुनरावृत्ति समस्याओं के लिए, रैखिक पुनरावृत्ति सबसे सरल रैखिक मॉडल है। इसका नुकसान यह है कि मॉडल आसानी से ओवरफैट हो जाता है, यानी मॉडल पूरी तरह से प्रशिक्षित डेटा के लिए अनुकूलित होता है, नए डेटा में प्रसारित करने की क्षमता का त्याग करता है। इसलिए, मशीन सीखने में रैखिक पुनरावृत्ति (और लॉजिकल पुनरावृत्ति, जिसके बारे में हम बाद में बात करेंगे) अक्सर रैखिक रूप से अनुकूलित होती है, जिसका अर्थ है कि मॉडल को ओवरफैट होने से रोकने के लिए कुछ दंड होता है।

रैखिक मॉडलों का एक और नुकसान यह है कि वे बहुत सरल होने के कारण, अधिक जटिल व्यवहार की भविष्यवाणी करना आसान नहीं है जब इनपुट चर स्वतंत्र नहीं होते हैं।

  • ####### 2. तर्क के लिए वापसी

तार्किक पुनरावृत्ति वर्गीकरण समस्या के लिए रैखिक पुनरावृत्ति का अनुकूलन है। तार्किक पुनरावृत्ति के नुकसान रैखिक पुनरावृत्ति के समान हैं। तार्किक कार्य वर्गीकरण समस्या के लिए बहुत अच्छे हैं क्योंकि यह थ्रेशोल्ड प्रभाव को पेश करता है।

दूसरा, पेड़ मॉडल एल्गोरिदम

  • #######################################################################################################################

निर्णय वृक्ष निर्णय के प्रत्येक संभावित परिणाम का चित्रण है जो शाखा पद्धति का उपयोग करके दिखाया गया है। उदाहरण के लिए, आप एक सलाद के लिए आदेश देने का निर्णय लेते हैं, और आपका पहला निर्णय शायद कच्चे सब्जियों की किस्म है, फिर पकवान, फिर सलाद की किस्म। हम एक निर्णय वृक्ष में सभी संभावित परिणामों को दर्शा सकते हैं।

निर्णय वृक्ष को प्रशिक्षित करने के लिए, हमें प्रशिक्षण डेटासेट का उपयोग करने की आवश्यकता होती है और यह पता लगाना होता है कि लक्ष्य के लिए कौन सा गुण सबसे उपयोगी है। उदाहरण के लिए, धोखाधड़ी के परीक्षण के उपयोग के उदाहरण में, हम पा सकते हैं कि देश धोखाधड़ी के जोखिम की भविष्यवाणी करने के लिए सबसे अधिक प्रभावशाली गुण है। पहली विशेषता के साथ शाखा के बाद, हमें दो उपसमूह मिलते हैं, जो सबसे सटीक भविष्यवाणी करते हैं यदि हम केवल पहली विशेषता को जानते हैं। फिर हम दूसरी सबसे अच्छी विशेषता का पता लगाते हैं जो इन दो उपसमूहों के लिए शाखा का उपयोग कर सकती है, फिर से विभाजित करें, और इतने पर, जब तक कि पर्याप्त गुण लक्ष्य की जरूरतों को पूरा नहीं करते हैं।

  • ###### 2########################################################################################################################################################################################################################################################

यादृच्छिक वन कई निर्णय वृक्षों का औसत है, जिनमें से प्रत्येक निर्णय वृक्ष को यादृच्छिक डेटा नमूने के साथ प्रशिक्षित किया जाता है। यादृच्छिक वन में प्रत्येक पेड़ एक पूर्ण निर्णय वृक्ष की तुलना में कमजोर होता है, लेकिन सभी पेड़ों को एक साथ रखते हुए, हम विविधता के फायदे के कारण बेहतर समग्र प्रदर्शन प्राप्त कर सकते हैं।

यादृच्छिक वन आज मशीन सीखने में एक बहुत लोकप्रिय एल्गोरिथ्म है. यादृच्छिक वन को प्रशिक्षित करना आसान है, और यह काफी अच्छा प्रदर्शन करता है. इसका नुकसान यह है कि यादृच्छिक वन अन्य एल्गोरिथ्म की तुलना में अनुमानों को आउटपुट करने में धीमा हो सकता है, इसलिए जब तेजी से भविष्यवाणी की आवश्यकता होती है, तो यादृच्छिक वन का चयन नहीं किया जा सकता है।

  • ######################################################

ग्रेडिएंट बूस्टिंग, जैसे कि रैंडम फॉरेस्ट, कमजोरी वाले निर्णय लेने वाले पेड़ों से बना होता है। ग्रेडिएंट बूस्टिंग का सबसे बड़ा अंतर यह है कि ग्रेडिएंट बूस्टिंग में, पेड़ों को एक-एक करके प्रशिक्षित किया जाता है। प्रत्येक पीछे के पेड़ को मुख्य रूप से सामने के पेड़ द्वारा गलत डेटा की पहचान करने के लिए प्रशिक्षित किया जाता है। इससे ग्रेडिएंट बूस्टिंग आसानी से अनुमानित स्थितियों पर अधिक ध्यान केंद्रित करती है और कम कठिन स्थितियों पर अधिक ध्यान केंद्रित करती है।

ग्रेडिएंट अप करने का प्रशिक्षण भी तेज़ है और बहुत अच्छा प्रदर्शन करता है। हालांकि, प्रशिक्षण डेटासेट में छोटे बदलाव मॉडल में मौलिक परिवर्तन कर सकते हैं, इसलिए इसका परिणाम सबसे व्यवहार्य नहीं हो सकता है।

3. तंत्रिका नेटवर्क एल्गोरिदमः तंत्रिका नेटवर्क एक जैविक घटना है जिसमें तंत्रिकाओं को आपस में जुड़े हुए तंत्रिकाओं से मिलकर मस्तिष्क में एक दूसरे के साथ सूचनाओं का आदान-प्रदान करना होता है। यह विचार अब मशीन सीखने के क्षेत्र में लागू किया गया है और इसे एएनएन कहा जाता है। डीप लर्निंग कई परतों वाले तंत्रिका नेटवर्क हैं। एएनएन मॉडल की एक श्रृंखला है जो सीखने के माध्यम से मानव मस्तिष्क के समान संज्ञानात्मक क्षमताओं को प्राप्त करती है। तंत्रिका नेटवर्क बहुत जटिल कार्यों को संभालते समय अच्छा प्रदर्शन करते हैं, जैसे कि छवि पहचान। लेकिन, मानव मस्तिष्क की तरह, मॉडल को प्रशिक्षित करना बहुत समय लेने वाला है और बहुत अधिक ऊर्जा की आवश्यकता होती है।

बड़े डेटा प्लेट से पुनर्प्रकाशित


अधिक जानकारी