एक व्यक्ति के रूप में जो अक्सर गैर-पेशेवरों को मशीन सीखने की व्याख्या करता है, मैंने निम्नलिखित दस बिंदुओं को मशीन सीखने के कुछ स्पष्टीकरण के रूप में संकलित किया हैः
मशीन लर्निंग को इस तरह से प्रचारित नहीं किया गया है कि आप सही सीखने वाले एल्गोरिदम को सही प्रशिक्षण डेटा प्रदान करके अनगिनत समस्याओं को हल कर सकते हैं। इसे AI कहें, अगर यह आपके AI सिस्टम को बेचने में मदद करता है। लेकिन आपको पता होना चाहिए कि AI केवल एक फैशनेबल शब्द है, जो केवल लोगों की अपेक्षाओं को दर्शाता है।
मशीन लर्निंग एल्गोरिदम में विशेष रूप से डीप लर्निंग में प्रगति के बारे में बहुत सारी रोमांचक बातें हैं। लेकिन डेटा मशीन लर्निंग को संभव बनाने के लिए एक महत्वपूर्ण कारक है। मशीन लर्निंग जटिल एल्गोरिदम के बिना हो सकता है, लेकिन अच्छे डेटा के बिना नहीं।
मशीन लर्निंग डेटा में पैटर्न के आधार पर मॉडल को प्रशिक्षित करता है, और पैरामीटर द्वारा परिभाषित संभावित मॉडल के स्थान का पता लगाता है। यदि पैरामीटर स्पेस बहुत बड़ा है, तो यह प्रशिक्षण डेटा के लिए अति-फिट हो जाता है, और एक मॉडल को प्रशिक्षित करता है जो खुद को सामान्य नहीं कर सकता है। यदि इसे विस्तृत रूप से समझाया जाए, तो अधिक गणितीय गणना की आवश्यकता होती है, और आपको इसे एक दिशानिर्देश के रूप में लेना चाहिए, अपने मॉडल को यथासंभव सरल रखें।
यह कहावत है कि जब आप कंप्यूटर में कचरे का ढेर भरते हैं, तो यह निश्चित रूप से कचरे का ढेर भरता है, हालांकि यह वाक्यांश मशीन सीखने से पहले दिखाई देता है, लेकिन यह वास्तव में मशीन सीखने की एक महत्वपूर्ण सीमा है। मशीन सीखने केवल प्रशिक्षण डेटा में मौजूद पैटर्न का पता लगा सकता है। मशीन सीखने के कार्यों की निगरानी के लिए, उदाहरण के लिए, वर्गीकरण, आपको एक मजबूत, अच्छी तरह से चिह्नित और समृद्ध प्रशिक्षण डेटासेट की आवश्यकता है।
जैसा कि निविदा में चेतावनी दी गई है, पिछले प्रदर्शन भविष्य के परिणामों की गारंटी नहीं देता है। मशीन सीखने को एक समान चेतावनी देनी चाहिएः यह केवल उसी डेटा के आधार पर काम कर सकता है जो प्रशिक्षण डेटा के समान वितरित है। इसलिए, प्रशिक्षण डेटा और उत्पादन डेटा के बीच विचलन के लिए सतर्क रहें और मॉडल को नियमित रूप से दोहराएं ताकि यह सुनिश्चित हो सके कि यह पुराना नहीं होगा।
आप सोच सकते हैं कि मशीन लर्निंग तकनीक के प्रचार के साथ, यह मुख्य रूप से एल्गोरिदम को चुनने और समायोजित करने के लिए किया जाता है। लेकिन वास्तविकता यह है कि आपका अधिकांश समय और ऊर्जा डेटा की सफाई और विशेषताओं के इंजीनियरिंग में खर्च की जाएगी, अर्थात्, मूल विशेषताओं को उन विशेषताओं में बदलना जो डेटा को बेहतर तरीके से प्रदर्शित करते हैं।
क्योंकि मशीन सीखने को कई क्षेत्रों में लागू किया गया है और विकसित किया गया है, इसलिए गहरी सीखने को भी प्रचारित किया गया है। इसके अलावा, गहरी सीखने ने कुछ पारंपरिक रूप से विशेषताओं के माध्यम से किए गए कार्यों को स्वचालित करने के लिए प्रेरित किया है, विशेष रूप से छवि और वीडियो डेटा के लिए। लेकिन गहरी सीखना एक जादू की दवा नहीं है। आपके लिए कोई तैयार नहीं है, आपको अभी भी डेटा को साफ करने और बदलने के लिए बहुत अधिक प्रयास करने की आवश्यकता है।
एनआरए से माफी मांगते हुए कहा कि मशीन लर्निंग एल्गोरिदम लोगों को नहीं मारते हैं, वे लोगों को मारते हैं। जब मशीन लर्निंग सिस्टम में खराबी आती है, तो यह शायद ही कभी मशीन लर्निंग एल्गोरिदम के साथ समस्या के कारण होता है। यह अधिक संभावना है कि मानव त्रुटि को प्रशिक्षण डेटा में पेश किया गया है, जिससे विचलन या अन्य सिस्टम त्रुटियां उत्पन्न होती हैं। हमें हमेशा संदेह के साथ रहना चाहिए और सॉफ्टवेयर इंजीनियरिंग के लिए उपयुक्त तरीके से मशीन लर्निंग का उपयोग करना चाहिए।
मशीन सीखने के कई अनुप्रयोगों में, आज आप जो निर्णय लेते हैं, वह कल के प्रशिक्षण डेटा को प्रभावित करता है। एक बार जब मशीन सीखने की प्रणाली ने विचलन को मॉडल में शामिल कर लिया है, तो यह नए प्रशिक्षण डेटा उत्पन्न करना जारी रख सकता है, जो विचलन द्वारा बढ़ाया गया है। इसके अलावा, कुछ विचलन लोगों के जीवन को बर्बाद कर सकते हैं। कृपया एक जिम्मेदारी लेंः आत्म-पूर्ति भविष्यवाणियां न बनाएं।
काफी लोगों को लगता है कि आर्टिफिशियल इंटेलिजेंस के बारे में अवधारणा विज्ञान कथा फिल्मों से मिली है। हमें विज्ञान कथा से प्रेरणा लेनी चाहिए, लेकिन हम कल्पना को वास्तविकता के रूप में गलत नहीं समझ सकते। जागरूक दुष्ट मानव से लेकर अचेतन विचलित मशीन सीखने वाले मॉडल तक, बहुत सारी वास्तविकता और खतरे हैं जिनकी चिंता करने की आवश्यकता है। इसलिए आप स्काईनेट और सुपर इंटेलिजेंस के बारे में चिंता नहीं कर सकते।
मशीन लर्निंग के बारे में मेरे द्वारा बताए गए दस बिंदुओं से कहीं अधिक है। उम्मीद है कि इन परिचयात्मक सामग्री को गैर-विशेषज्ञों के लिए उपयोगी माना जाएगा।
विश्वव्यापी कृत्रिम बुद्धिमत्ता, बड़े डेटा के मैदान से साभार