हम मशीन सीखने की समस्याओं को समझते हैं जिन्हें हमें हल करने की आवश्यकता है।http://machinelearningmastery.com/practical-machine-learning-problems/)之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。मशीन लर्निंग के क्षेत्र में बहुत सारे एल्गोरिदम हैं, और फिर प्रत्येक एल्गोरिथ्म के कई विस्तार हैं, इसलिए किसी विशेष समस्या के लिए सही एल्गोरिथ्म को कैसे निर्धारित किया जाए, यह मुश्किल है। इस लेख में मैं आपको वास्तविकता में आने वाले एल्गोरिदम को समेटने के दो तरीके देना चाहता हूं।
एल्गोरिदम को विभिन्न प्रकारों में विभाजित किया जाता है, यह देखते हुए कि वे अनुभव, वातावरण या किसी भी डेटा को कैसे संसाधित करते हैं जिसे हम इनपुट कहते हैं। मशीन सीखने और एआई पाठ्यपुस्तकों में आमतौर पर पहले विचार किया जाता है कि एल्गोरिदम किस तरह से अनुकूलित हो सकता है।
यहाँ केवल कुछ मुख्य सीखने की शैलियों या सीखने के मॉडल पर चर्चा की गई है, और कुछ बुनियादी उदाहरण दिए गए हैं। यह वर्गीकरण या संगठन का तरीका अच्छा है क्योंकि यह आपको इनपुट डेटा के भूमिकाओं और मॉडल तैयार करने के प्रक्रिया के बारे में सोचने के लिए मजबूर करता है, और फिर सबसे अच्छा परिणाम प्राप्त करने के लिए एक एल्गोरिथ्म चुनता है जो आपके प्रश्न के लिए सबसे उपयुक्त है।
मॉनिटरिंग लर्निंगः इनपुट किए गए डेटा को प्रशिक्षण डेटा कहा जाता है और इसके ज्ञात परिणाम या चिह्नित होते हैं, जैसे कि एक ईमेल स्पैम है या नहीं, या एक समय के दौरान शेयर की कीमत। मॉडल भविष्यवाणी करता है, अगर यह गलत है, तो इसे सही किया जाता है, और यह प्रक्रिया तब तक जारी रहती है जब तक कि यह प्रशिक्षण डेटा के लिए कुछ सही मानदंडों को पूरा नहीं करता है। समस्या उदाहरणों में वर्गीकरण और प्रतिगमन समस्याएं शामिल हैं, एल्गोरिथ्म उदाहरणों में तार्किक प्रतिगमन और रिवर्स तंत्रिका नेटवर्क शामिल हैं। अनसुनिरीकृत सीखनाः इनपुट डेटा को चिह्नित नहीं किया जाता है और कोई निश्चित परिणाम नहीं होता है। मॉडल डेटा की संरचना और संख्यात्मक मानों को समाहित करता है। समस्या उदाहरणों में एसोसिएशन नियम सीखना और समूह समस्याएं शामिल हैं। एल्गोरिथ्म उदाहरणों में एप्रियोरी एल्गोरिथ्म और के-औसत एल्गोरिथ्म शामिल हैं। अर्ध-पर्यवेक्षित सीखनाः इनपुट डेटा चिह्नित और अनचिह्नित डेटा का एक मिश्रण है, कुछ पूर्वानुमान समस्याएं हैं लेकिन मॉडल को डेटा के संरचना और संरचना को भी सीखना होगा। समस्या उदाहरणों में वर्गीकरण और प्रतिगमन समस्याएं शामिल हैं, एल्गोरिथम उदाहरण अनिवार्य रूप से गैर-पर्यवेक्षित सीखने वाले एल्गोरिदम का विस्तार हैं। संवर्धित सीखनाः इनपुट डेटा मॉडल को उत्तेजित कर सकता है और मॉडल को प्रतिक्रिया करने के लिए प्रेरित कर सकता है। प्रतिक्रिया न केवल सीखने की प्रक्रिया से प्राप्त होती है, बल्कि पर्यावरण में पुरस्कार या दंड से भी प्राप्त होती है। समस्या का उदाहरण रोबोट नियंत्रण है, एल्गोरिथम उदाहरणों में Q-learning और Temporal difference learning शामिल हैं।
जब डेटा को एकीकृत करने के लिए व्यावसायिक निर्णय लेने के लिए, अधिकांश लोग पर्यवेक्षित सीखने और गैर-पर्यवेक्षित सीखने के तरीकों का उपयोग करते हैं। अगला गर्म विषय अर्ध-पर्यवेक्षित सीखने है, जैसे कि छवि वर्गीकरण समस्या, जिसमें एक बड़ा डेटाबेस है, लेकिन केवल एक छोटा सा हिस्सा चित्रों को चिह्नित करता है। संवर्धित सीखने का अधिकांश हिस्सा रोबोट नियंत्रण और अन्य नियंत्रण प्रणालियों के विकास में भी उपयोग किया जाता है।
एल्गोरिदम मूल रूप से फ़ंक्शन या रूप के आधार पर वर्गीकृत किए जाते हैं; उदाहरण के लिए, पेड़-आधारित एल्गोरिदम, तंत्रिका नेटवर्क एल्गोरिदम; यह एक उपयोगी वर्गीकरण तरीका है, लेकिन यह सही नहीं है; क्योंकि कई एल्गोरिदम आसानी से दो श्रेणियों में विभाजित किए जा सकते हैं, जैसे कि लर्निंग वेक्टर क्वांटिज़ेशन, जो एक ही समय में तंत्रिका नेटवर्क श्रेणी के एल्गोरिदम और उदाहरण-आधारित तरीके हैं। जैसे कि मशीन सीखने वाले एल्गोरिदम में खुद के लिए कोई सही मॉडल नहीं है, इसलिए एल्गोरिदम के वर्गीकरण का तरीका भी सही नहीं है।
इस भाग में मैंने वर्गीकरण के लिए एल्गोरिदम सूचीबद्ध किए हैं जो मुझे लगता है कि सबसे सहज तरीके हैं. मैं सभी एल्गोरिदम या वर्गीकरण के तरीकों को समाप्त नहीं कर रहा हूं, लेकिन मुझे लगता है कि पाठकों को एक सामान्य समझ देने के लिए बहुत मददगार है। यदि आप जानते हैं कि मैं क्या सूचीबद्ध नहीं किया है, तो कृपया टिप्पणी साझा करें। अब हम शुरू करते हैं!
Regression (वापसी विश्लेषण) चर के बीच संबंधों के बारे में है। यह सांख्यिकीय तरीकों का उपयोग करता है, जिसमें कुछ एल्गोरिदम उदाहरण शामिल हैंः
साधारण न्यूनतम वर्ग लॉजिस्टिक प्रतिगमन चरणबद्ध प्रतिगमन मल्टीवेरिएट अनुकूलन प्रतिगमन स्प्लिन्स (MARS) स्थानीय रूप से अनुमानित स्कैटरप्लॉट चिकनाई (LOESS)
उदाहरण-आधारित सीखने (Instance based learning) एक निर्णय लेने की समस्या का अनुकरण करता है, जिसमें उपयोग किए जाने वाले उदाहरण या उदाहरण मॉडल के लिए बहुत महत्वपूर्ण होते हैं। यह दृष्टिकोण मौजूदा डेटा पर एक डेटाबेस बनाता है और फिर नए डेटा को जोड़ता है, फिर एक समानता माप विधि का उपयोग करता है ताकि डेटाबेस में सबसे अच्छा मिलान हो सके और भविष्यवाणी की जा सके। इस कारण से, इस दृष्टिकोण को विजेता-राजा विधि और मेमोरी-आधारित विधि के रूप में भी जाना जाता है। वर्तमान में ध्यान संग्रहीत डेटा के प्रदर्शन के रूप और समानता माप विधि पर केंद्रित है।
k-नज़दीकी पड़ोसी (kNN) लर्निंग वेक्टर क्वांटिज़ेशन (LVQ) स्व-संगठित मानचित्र (एसओएम)
यह अन्य तरीकों का एक विस्तार है (आमतौर पर एक प्रतिगमन विधि) जो कि सरल मॉडल के लिए अधिक फायदेमंद है और इनपुट करने में बेहतर है। मैं इसे यहां सूचीबद्ध करता हूं क्योंकि यह लोकप्रिय और शक्तिशाली है।
रिज प्रतिगमन न्यूनतम पूर्ण संकुचन और चयन ऑपरेटर (LASSO) लोचदार जाल
Decision tree methods (निर्णय वृक्ष पद्धति) एक ऐसा मॉडल है जो डेटा में वास्तविक मूल्य के आधार पर निर्णय लेता है।
वर्गीकरण और प्रतिगमन वृक्ष (CART) पुनरावर्ती डिकोटोमाइज़र 3 (ID3) C4.5 ची-स्क्वायर स्वचालित इंटरैक्शन डिटेक्शन (CHAID) निर्णय का तिल आकस्मिक वन मल्टीवेरिएट अनुकूलन प्रतिगमन स्प्लिन्स (MARS) ग्रेडिएंट बूस्टिंग मशीनें (GBM)
बेयिसियन विधि (Bayesian method) वर्गीकरण और प्रतिगमन समस्याओं को हल करने में बेयिसियन प्रमेय का उपयोग करती है।
भोले बेयज़ औसत एक-निर्भरता अनुमानक (AODE) बेजियन विश्वास नेटवर्क (बीबीएन)
Kernel Method में से सबसे प्रसिद्ध Support Vector Machines है जो इनपुट डेटा को उच्च आयामों में मैप करता है और कुछ वर्गीकरण और प्रतिगमन समस्याओं को अधिक आसानी से मॉडलिंग करता है।
समर्थन वेक्टर मशीनें (एसवीएम) रेडियल बेस फंक्शन (आरबीएफ) रैखिक विभेदक विश्लेषण (एलडीए)
क्लस्टरिंग (Clustering) अपने आप में समस्या और विधि का वर्णन करता है। क्लस्टरिंग विधि को आमतौर पर मॉडलिंग द्वारा वर्गीकृत किया जाता है। सभी क्लस्टरिंग विधियां डेटा को एक समान डेटा संरचना का उपयोग करके व्यवस्थित करती हैं ताकि प्रत्येक समूह में सबसे अधिक समानता हो।
के-मध्यम अपेक्षा अधिकतमकरण (ईएम)
एसोसिएशन नियम सीखना (अंग्रेज़ीः Association rule learning) एक विधि है जिसका उपयोग डेटा के बीच नियमों को निकालने के लिए किया जाता है, जिनके माध्यम से बड़ी मात्रा में बहुआयामी स्थानिक डेटा के बीच संबंध पाए जा सकते हैं, जो संगठनों द्वारा उपयोग किए जा सकते हैं।
अग्रिम एल्गोरिथ्म इक्लाट एल्गोरिथ्म
कृत्रिम तंत्रिका नेटवर्क (एएनएन) जैविक तंत्रिका नेटवर्क की संरचना और कार्य से प्रेरित है। यह पैटर्न मिलान की श्रेणी में आता है और अक्सर पुनरावृत्ति और वर्गीकरण समस्याओं के लिए उपयोग किया जाता है, लेकिन इसमें सैकड़ों एल्गोरिदम और विविधताएं शामिल हैं। इनमें से कुछ क्लासिक लोकप्रिय एल्गोरिदम हैं (मैं गहराई से सीखने को अलग से बताता हूं):
पर्सेप्ट्रोन बैक-प्रोपेगेशन हॉपफील्ड नेटवर्क स्व-संगठित मानचित्र (एसओएम) लर्निंग वेक्टर क्वांटिज़ेशन (LVQ)
डीप लर्निंग (डीप लर्निंग) पद्धति एक आधुनिक अद्यतन है जो एक कृत्रिम तंत्रिका नेटवर्क है। पारंपरिक तंत्रिका नेटवर्क की तुलना में, इसमें अधिक जटिल नेटवर्क संरचनाएं हैं, और कई तरीके अर्ध-निरीक्षण सीखने के बारे में हैं। इस तरह के सीखने के मुद्दों में बहुत अधिक डेटा है, लेकिन इनमें से बहुत कम डेटा चिह्नित है।
प्रतिबंधित बोल्त्ज़मैन मशीन (आरबीएम) गहरे विश्वास नेटवर्क (डीबीएन) घुमावदार नेटवर्क स्टैक्ड ऑटो-एन्कोडर
आयाम में कमी (Dimension reduction) - समूह पद्धति की तरह, डेटा में एक समान संरचना का पीछा और उपयोग करता है, लेकिन यह कम जानकारी के साथ डेटा को समाहित और वर्णित करता है। यह डेटा को देखने या डेटा को सरल बनाने के लिए उपयोगी है।
मुख्य घटक विश्लेषण (पीसीए) आंशिक न्यूनतम वर्ग प्रतिगमन (पीएलएस) सैमोन मानचित्रण बहुआयामी स्केलिंग (MDS) प्रक्षेपण का पीछा
Ensemble methods (संयोजन पद्धति) कई छोटे मॉडल से बनी होती है, जो स्वतंत्र रूप से प्रशिक्षित होते हैं, स्वतंत्र निष्कर्ष निकालते हैं, और अंततः एक समग्र भविष्यवाणी बनाते हैं। बहुत सारे शोध इस बात पर केंद्रित होते हैं कि किस मॉडल का उपयोग किया जाता है और ये मॉडल कैसे संयोजित होते हैं। यह एक बहुत ही शक्तिशाली और लोकप्रिय तकनीक है।
उत्तेजना बूटस्ट्रैप्ड एग्रीगेशन (बैगिंग) एडाबूस्ट स्टैक्ड सामान्यीकरण (मिश्रण) ग्रेडिएंट बूस्टिंग मशीनें (GBM) आकस्मिक वन
यह एक उदाहरण है जो एक संयोजन विधि का उपयोग करके अनुकूलित किया गया है (विकि से), प्रत्येक अग्निशमन विधि को ग्रे में दर्शाया गया है, और अंतिम संश्लेषित अंतिम पूर्वानुमान लाल में है।
इस मशीन सीखने के एल्गोरिदम के दौरे का उद्देश्य आपको यह बताना है कि कौन से एल्गोरिदम हैं और कौन से उपकरण हैं।
नीचे कुछ अन्य संसाधन दिए गए हैं, कृपया बहुत ज्यादा मत सोचो, अधिक एल्गोरिदम जानने से आपके लिए बेहतर होगा, लेकिन कुछ एल्गोरिदम के बारे में गहराई से जानना भी उपयोगी होगा।
बेले के स्तंभ / विशाल उड़ान पायथन डेवलपर्स से पुनर्प्रकाशित