हम मशीन सीखने की समस्याओं को समझते हैं जिन्हें हमें हल करने की आवश्यकता है।http://machinelearningmastery.com/practical-machine-learning-problems/इसके बाद, हम सोच सकते हैं कि हमें किस डेटा को इकट्ठा करने की आवश्यकता है और हम किस एल्गोरिदम का उपयोग कर सकते हैं। इस लेख में हम सबसे लोकप्रिय मशीन सीखने के एल्गोरिदम पर एक नज़र डालेंगे, जो कि उपयोगी हैं। मशीन लर्निंग के क्षेत्र में बहुत सारे एल्गोरिदम हैं, और फिर प्रत्येक एल्गोरिथ्म के कई विस्तार हैं, इसलिए किसी विशेष समस्या के लिए सही एल्गोरिथ्म को कैसे निर्धारित किया जाए, यह मुश्किल है। इस लेख में मैं आपको वास्तविकता में आने वाले एल्गोरिदम को समेटने के दो तरीके देना चाहता हूं।
एल्गोरिदम को विभिन्न प्रकारों में विभाजित किया जाता है, यह देखते हुए कि वे अनुभव, वातावरण या किसी भी डेटा को कैसे संसाधित करते हैं जिसे हम इनपुट कहते हैं। मशीन सीखने और एआई पाठ्यपुस्तकों में आमतौर पर पहले विचार किया जाता है कि एल्गोरिदम किस तरह से अनुकूलित हो सकता है।
यहाँ केवल कुछ मुख्य सीखने की शैलियों या सीखने के मॉडल पर चर्चा की गई है, और कुछ बुनियादी उदाहरण दिए गए हैं। यह वर्गीकरण या संगठन का तरीका अच्छा है क्योंकि यह आपको इनपुट डेटा के भूमिकाओं और मॉडल तैयार करने के प्रक्रिया के बारे में सोचने के लिए मजबूर करता है, और फिर सबसे अच्छा परिणाम प्राप्त करने के लिए एक एल्गोरिथ्म चुनता है जो आपके प्रश्न के लिए सबसे उपयुक्त है।
मॉनिटरिंग लर्निंगः इनपुट किए गए डेटा को प्रशिक्षण डेटा कहा जाता है और इसके ज्ञात परिणाम या चिह्नित होते हैं, जैसे कि एक ईमेल स्पैम है या नहीं, या एक समय के दौरान शेयर की कीमत। मॉडल भविष्यवाणी करता है, अगर यह गलत है तो इसे सही किया जाता है, और यह प्रक्रिया तब तक जारी रहती है जब तक कि यह प्रशिक्षण डेटा के लिए कुछ सही मानदंडों को पूरा नहीं करता है। समस्या उदाहरणों में वर्गीकरण और प्रतिगमन समस्याएं शामिल हैं, एल्गोरिथ्म उदाहरणों में तार्किक प्रतिगमन और रिवर्स तंत्रिका नेटवर्क शामिल हैं। बिना पर्यवेक्षण के सीखनाः इनपुट डेटा को चिह्नित नहीं किया जाता है और कोई निश्चित परिणाम नहीं होता है। मॉडल डेटा की संरचना और संख्यात्मक मानों को समाहित करता है। समस्या उदाहरणों में एसोसिएशन नियम सीखने और समूह समस्याएं शामिल हैं। एल्गोरिथ्म उदाहरणों में एप्रिओरी एल्गोरिथ्म और के-औसत एल्गोरिथ्म शामिल हैं। अर्ध-पर्यवेक्षण सीखनेः इनपुट डेटा चिह्नित और चिह्नित डेटा का मिश्रण है, कुछ पूर्वानुमान समस्याएं हैं लेकिन मॉडल को डेटा के संरचना और संरचना को भी सीखना होगा। समस्या उदाहरणों में वर्गीकरण और प्रतिगमन समस्याएं शामिल हैं, एल्गोरिथम उदाहरण अनिवार्य रूप से गैर-पर्यवेक्षण सीखने वाले एल्गोरिदम का विस्तार हैं। संवर्धित सीखनाः इनपुट डेटा मॉडल को उत्तेजित कर सकता है और मॉडल को प्रतिक्रिया करने के लिए प्रेरित कर सकता है। प्रतिक्रिया न केवल सीखने की प्रक्रिया से प्राप्त होती है, बल्कि पर्यावरण में पुरस्कार या दंड से भी प्राप्त होती है। समस्या का उदाहरण रोबोट नियंत्रण है, एल्गोरिथम उदाहरणों में Q-learning और Temporal difference learning शामिल हैं।
जब डेटा को एकीकृत करने के लिए व्यावसायिक निर्णय लेने के लिए, अधिकांश लोग पर्यवेक्षित सीखने और गैर-पर्यवेक्षित सीखने के तरीकों का उपयोग करते हैं। अगला गर्म विषय अर्ध-पर्यवेक्षित सीखने है, जैसे कि छवि वर्गीकरण समस्या, जिसमें एक बड़ा डेटाबेस है, लेकिन केवल एक छोटा सा हिस्सा चित्रों को चिह्नित करता है। संवर्धित सीखने का अधिकांश हिस्सा रोबोट नियंत्रण और अन्य नियंत्रण प्रणालियों के विकास में भी उपयोग किया जाता है।
एल्गोरिदम मूल रूप से फ़ंक्शन या रूप के आधार पर वर्गीकृत किए जाते हैं; उदाहरण के लिए, पेड़-आधारित एल्गोरिदम, तंत्रिका नेटवर्क एल्गोरिदम; यह एक उपयोगी वर्गीकरण तरीका है, लेकिन यह सही नहीं है; क्योंकि कई एल्गोरिदम आसानी से दो श्रेणियों में विभाजित किए जा सकते हैं, जैसे कि लर्निंग वेक्टर क्वांटिज़ेशन, जो एक ही समय में तंत्रिका नेटवर्क श्रेणी के एल्गोरिदम और उदाहरण-आधारित तरीके हैं। जैसे कि मशीन सीखने वाले एल्गोरिदम में खुद के लिए कोई सही मॉडल नहीं है, इसलिए एल्गोरिदम के वर्गीकरण का तरीका भी सही नहीं है।
इस भाग में मैंने वर्गीकरण के लिए एल्गोरिदम सूचीबद्ध किए हैं जो मुझे लगता है कि सबसे सहज तरीके हैं. मैं सभी एल्गोरिदम या वर्गीकरण के तरीकों को समाप्त नहीं कर रहा हूं, लेकिन मुझे लगता है कि पाठकों को एक सामान्य समझ देने के लिए बहुत मददगार है। यदि आप जानते हैं कि मैं क्या सूचीबद्ध नहीं किया है, तो कृपया टिप्पणी साझा करें। अब हम शुरू करते हैं!
Regression (वापसी विश्लेषण) चर के बीच संबंधों के बारे में है। यह सांख्यिकीय तरीकों का उपयोग करता है, जिसमें कुछ एल्गोरिदम उदाहरण शामिल हैंः
साधारण न्यूनतम वर्ग लॉजिस्टिक प्रतिगमन चरणबद्ध प्रतिगमन मल्टीवेरिएट एडाप्टिव रिग्रेशन स्प्लिन्स (MARS) स्थानीय रूप से अनुमानित स्कैटरग्राफ स्मूथिंग (LOESS)
उदाहरण-आधारित सीखने (Instance based learning) एक निर्णय लेने की समस्या का अनुकरण करता है, जिसमें उपयोग किए जाने वाले उदाहरण या उदाहरण मॉडल के लिए बहुत महत्वपूर्ण होते हैं। यह दृष्टिकोण मौजूदा डेटा पर एक डेटाबेस बनाता है और फिर नए डेटा को जोड़ता है, फिर एक समानता माप विधि का उपयोग करता है ताकि डेटाबेस में सबसे अच्छा मिलान हो सके और भविष्यवाणी की जा सके। इस कारण से, इस दृष्टिकोण को विजेता-राजा विधि और मेमोरी-आधारित विधि के रूप में भी जाना जाता है। वर्तमान में ध्यान संग्रहीत डेटा के प्रदर्शन के रूप और समानता माप विधि पर केंद्रित है।
k-नज़दीकी पड़ोसी (kNN) लर्निंग वेक्टर क्वांटिज़ेशन (LVQ) स्व-संगठित मानचित्र (एसओएम)
यह अन्य तरीकों का एक विस्तार है (आमतौर पर एक प्रतिगमन विधि) जो कि सरल मॉडल के लिए अधिक फायदेमंद है और इनपुट करने में बेहतर है। मैं इसे यहां सूचीबद्ध करता हूं क्योंकि यह लोकप्रिय और शक्तिशाली है।
रिज प्रतिगमन न्यूनतम पूर्ण संकुचन और चयन ऑपरेटर (LASSO) लोचदार जाल
Decision tree methods (निर्णय वृक्ष पद्धति) एक ऐसा मॉडल है जो डेटा में वास्तविक मूल्य के आधार पर निर्णय लेता है।
वर्गीकरण और प्रतिगमन वृक्ष (CART) पुनरावर्ती डिकोटोमाइज़र 3 (ID3) C4.5 ची-स्क्वायर स्वचालित इंटरैक्शन डिटेक्शन (CHAID) निर्णय का तिल आकस्मिक वन मल्टीवेरिएट अनुकूलन प्रतिगमन स्प्लिन्स (MARS) ग्रेडिएंट बूस्टिंग मशीनें (GBM)
बेयिसियन विधि (Bayesian method) वर्गीकरण और प्रतिगमन समस्याओं को हल करने में बेयिसियन प्रमेय का उपयोग करती है।
भोले बेयज़ औसत एक-निर्भरता अनुमानक (AODE) बेजियन विश्वास नेटवर्क (बीबीएन)
Kernel Method में से सबसे प्रसिद्ध Support Vector Machines है जो इनपुट डेटा को उच्च आयामों में मैप करता है और कुछ वर्गीकरण और प्रतिगमन समस्याओं को अधिक आसानी से मॉडलिंग करता है।
समर्थन वेक्टर मशीनें (एसवीएम) रेडियल बेस फंक्शन (आरबीएफ) रैखिक विभेदक विश्लेषण (एलडीए)
क्लस्टरिंग (Clustering) अपने आप में समस्या और विधि का वर्णन करता है। क्लस्टरिंग विधि को आमतौर पर मॉडलिंग द्वारा वर्गीकृत किया जाता है। सभी क्लस्टरिंग विधियां डेटा को एक समान डेटा संरचना का उपयोग करके व्यवस्थित करती हैं ताकि प्रत्येक समूह में सबसे अधिक समानता हो।
के-मध्यम अपेक्षा अधिकतम (ईएम)
एसोसिएशन नियम सीखना (अंग्रेज़ीः Association rule learning) एक विधि है जिसका उपयोग डेटा के बीच नियमों को निकालने के लिए किया जाता है, जिनके माध्यम से बड़ी मात्रा में बहुआयामी स्थानिक डेटा के बीच संबंध पाए जा सकते हैं, जो संगठनों द्वारा उपयोग किए जा सकते हैं।
पूर्वानुमान एल्गोरिथ्म इक्लाट एल्गोरिथ्म
कृत्रिम तंत्रिका नेटवर्क (एएनएन) जैविक तंत्रिका नेटवर्क की संरचना और कार्य से प्रेरित है। यह पैटर्न मिलान की श्रेणी में आता है और अक्सर पुनरावृत्ति और वर्गीकरण समस्याओं के लिए उपयोग किया जाता है, लेकिन इसमें सैकड़ों एल्गोरिदम और विविधताएं शामिल हैं। इनमें से कुछ क्लासिक लोकप्रिय एल्गोरिदम हैं (मैं गहराई से सीखने को अलग से बताता हूं):
पर्सेप्ट्रोन बैक-प्रोपेगेशन हॉपफील्ड नेटवर्क स्व-संगठित मानचित्र (एसओएम) लर्निंग वेक्टर क्वांटिज़ेशन (LVQ)
डीप लर्निंग (डीप लर्निंग) पद्धति एक आधुनिक अद्यतन है जो एक कृत्रिम तंत्रिका नेटवर्क है। पारंपरिक तंत्रिका नेटवर्क की तुलना में, इसमें अधिक जटिल नेटवर्क संरचनाएं हैं, और कई तरीके अर्ध-निरीक्षण सीखने के बारे में हैं। इस तरह के सीखने के मुद्दों में बहुत अधिक डेटा है, लेकिन इनमें से बहुत कम डेटा चिह्नित है।
प्रतिबंधित बोल्त्ज़मैन मशीन (आरबीएम) गहरे विश्वास नेटवर्क (डीबीएन) घुमावदार नेटवर्क स्टैक्ड ऑटो-एन्कोडर
आयाम में कमी (Dimension reduction) - समूह पद्धति की तरह, डेटा में एक समान संरचना का पीछा और उपयोग करता है, लेकिन यह कम जानकारी के साथ डेटा को समाहित और वर्णित करता है। यह डेटा को देखने या डेटा को सरल बनाने के लिए उपयोगी है।
मुख्य घटक विश्लेषण (पीसीए) आंशिक न्यूनतम वर्ग प्रतिगमन (पीएलएस) सैमोन मानचित्रण बहुआयामी स्केलिंग (MDS) प्रक्षेपण का पीछा
Ensemble methods (संयोजन पद्धति) कई छोटे मॉडल से बनी होती है, जो स्वतंत्र रूप से प्रशिक्षित होते हैं, स्वतंत्र निष्कर्ष निकालते हैं, और अंततः एक समग्र भविष्यवाणी बनाते हैं। बहुत सारे शोध इस बात पर केंद्रित होते हैं कि किस मॉडल का उपयोग किया जाता है और ये मॉडल कैसे संयोजित होते हैं। यह एक बहुत ही शक्तिशाली और लोकप्रिय तकनीक है।
उत्तेजना बूटस्ट्रैप्ड एग्रीगेशन (बैगिंग) एडाबूस्ट स्टैक्ड सामान्यीकरण (मिश्रण) ग्रेडिएंट बूस्टिंग मशीनें (GBM) आकस्मिक वन
यह एक उदाहरण है जो एक संयोजन विधि का उपयोग करके अनुकूलित किया गया है (विकि से), प्रत्येक अग्निशमन विधि को ग्रे में दर्शाया गया है, और अंतिम संश्लेषित अंतिम पूर्वानुमान लाल में है।
इस मशीन सीखने के एल्गोरिदम के दौरे का उद्देश्य आपको यह बताना है कि कौन से एल्गोरिदम हैं और कौन से उपकरण हैं।
नीचे कुछ अन्य संसाधन दिए गए हैं, कृपया बहुत ज्यादा मत सोचो, अधिक एल्गोरिदम जानने से आपके लिए बेहतर होगा, लेकिन कुछ एल्गोरिदम के बारे में गहराई से जानना भी उपयोगी होगा।
बेले के स्तंभ / विशाल उड़ान पायथन डेवलपर्स से पुनर्प्रकाशित