मशीन सीखने के 8 बड़े एल्गोरिदम की तुलना

लेखक:आविष्कारक मात्रा - छोटे सपने, बनाया गयाः 2016-12-05 10:42:02, अद्यतन किया गयाः

मशीन सीखने के 8 बड़े एल्गोरिदम की तुलना


इस लेख में मुख्य रूप से निम्नलिखित सामान्य रूप से उपयोग किए जाने वाले एल्गोरिदम के अनुकूलन परिदृश्यों और उनके फायदे और नुकसान की समीक्षा की गई है!

बहुत सारे मशीन लर्निंग एल्गोरिदम हैं, वर्गीकरण, प्रतिगमन, वर्गीकरण, अनुशंसा, छवि पहचान आदि क्षेत्रों में, एक उपयुक्त एल्गोरिथ्म ढूंढना वास्तव में आसान नहीं है, इसलिए व्यावहारिक अनुप्रयोगों में, हम आमतौर पर प्रेरित सीखने के तरीके का उपयोग करके प्रयोग करते हैं।

सामान्य तौर पर, हम सबसे पहले सामान्य रूप से स्वीकृत एल्गोरिदम चुनते हैं, जैसे कि एसवीएम, जीबीडीटी, एडाबॉस्ट, जो अब डीपी लर्निंग के लिए गर्म हैं, और तंत्रिका नेटवर्क भी एक अच्छा विकल्प है।

यदि आप सटीकता के बारे में चिंतित हैं, तो सबसे अच्छा तरीका यह है कि प्रत्येक एल्गोरिथ्म को क्रॉस-वैलिडेशन के माध्यम से व्यक्तिगत रूप से परीक्षण किया जाए, तुलना की जाए, और फिर पैरामीटर को समायोजित किया जाए ताकि प्रत्येक एल्गोरिथ्म को सर्वोत्तम प्राप्त हो सके, और अंत में सबसे अच्छा चुनें।

लेकिन अगर आप सिर्फ एक ऐसे एल्गोरिथ्म की तलाश कर रहे हैं जो आपकी समस्या को हल करने के लिए पर्याप्त रूप से अच्छा है, या यहां कुछ युक्तियां दी गई हैं, तो नीचे दिए गए एल्गोरिथ्म के फायदे और नुकसान का विश्लेषण करने के लिए, एल्गोरिथ्म के फायदे और नुकसान के आधार पर इसे चुनना आसान है।

  • ## विकृति और असमानता सांख्यिकी में, एक मॉडल अच्छा है या बुरा है, यह विचलन और अंतर के आधार पर मापा जाता है, इसलिए हम पहले विचलन और अंतर को आम करने जा रहे हैंः

विचलनः यह अनुमानित मूल्य के अपेक्षित E और वास्तविक मूल्य Y के बीच के अंतर का वर्णन करता है। विचलन जितना बड़ा होगा, वास्तविक डेटा से उतना ही अधिक होगा।

机器学习8大算法比较

अंतरः यह वर्णन करता है कि अनुमानित मूल्य P में परिवर्तन का दायरा, विखंडन, अनुमानित मूल्य का अंतर है, यानी इसकी अपेक्षित मूल्य E से दूरी।

机器学习8大算法比较

मॉडल की वास्तविक त्रुटि दोनों का योग है, जैसा कि चित्र में दिखाया गया हैः

机器学习8大算法比较

यदि यह एक छोटा प्रशिक्षण सेट है, तो उच्च-अवरोध/निम्न-अवरोध वर्गीकरणकर्ता (जैसे, सरल बेयर्स एनबी) कम-अवरोध/उच्च-अवरोध वर्गीकरण (जैसे, केएनएन) की तुलना में अधिक लाभप्रद है क्योंकि बाद वाला अधिक फिट होता है।

हालांकि, जैसे-जैसे आपका प्रशिक्षण सेट बढ़ता है, मॉडल मूल डेटा के लिए बेहतर भविष्यवाणी करने में सक्षम होता है, विचलन कम हो जाता है, जिसके बाद कम विचलन/उच्च विचलन वर्गीकरणकर्ता धीरे-धीरे अपने लाभों का प्रदर्शन करते हैं (क्योंकि उनके पास कम समीकरण त्रुटि है) और उच्च विचलन वर्गीकरणकर्ता अब सटीक मॉडल प्रदान करने के लिए पर्याप्त नहीं है।

बेशक, आप यह भी सोच सकते हैं कि यह जनरेटिंग मॉडल (NB) और निर्णय मॉडल (KNN) के बीच का अंतर है।

  • ## क्यों कहते हैं कि बेयर्स की सादगी उच्च विकृति कम विकृति है?

निम्नलिखित सामग्री के बारे में सूचित करेंः

सबसे पहले, मान लीजिए कि आप प्रशिक्षण सेट और परीक्षण सेट के बीच संबंध जानते हैं. सरल शब्दों में, हम प्रशिक्षण सेट पर एक मॉडल सीखना चाहते हैं, और फिर परीक्षण सेट का उपयोग करने के लिए, परिणाम या तो परीक्षण सेट के त्रुटि दर के आधार पर मापा जाता है.

लेकिन कई बार, हम केवल यह मान सकते हैं कि परीक्षण सेट और प्रशिक्षण सेट एक ही डेटा वितरण के अनुरूप हैं, लेकिन वास्तविक परीक्षण डेटा प्राप्त नहीं करते हैं।

क्योंकि प्रशिक्षण के नमूने बहुत कम हैं (कम से कम पर्याप्त नहीं हैं), इसलिए प्रशिक्षण सेट द्वारा प्राप्त मॉडल हमेशा सही नहीं होते हैं. यहां तक कि प्रशिक्षण सेट पर 100% सटीकता भी यह नहीं कह सकती कि यह वास्तविक डेटा वितरण को चित्रित करता है, यह जानना कि वास्तविक डेटा वितरण को चित्रित करना हमारा उद्देश्य है, न कि केवल प्रशिक्षण सेट के सीमित डेटा बिंदुओं को चित्रित करना) ।

और, वास्तव में, प्रशिक्षण नमूनों में अक्सर कुछ शोर त्रुटि होती है, इसलिए यदि प्रशिक्षण सेट पर पूर्णता का बहुत अधिक प्रयास किया जाता है, तो एक बहुत ही जटिल मॉडल का उपयोग करके, मॉडल को प्रशिक्षण सेट में सभी त्रुटियों को वास्तविक डेटा वितरण विशेषता के रूप में प्रस्तुत करना पड़ता है, जिससे गलत डेटा वितरण अनुमान प्राप्त होता है।

इस प्रकार, वास्तविक परीक्षण सेटों पर गलतियां हो जाती हैं, लेकिन बहुत सरल मॉडल का उपयोग नहीं किया जा सकता है, क्योंकि यदि डेटा वितरण अधिक जटिल है, तो मॉडल डेटा वितरण को चित्रित करने के लिए पर्याप्त नहीं है।

अति-अनुरूपता का अर्थ है कि मॉडल वास्तविक डेटा वितरण की तुलना में अधिक जटिल है, जबकि अनुरूपता का अर्थ है कि मॉडल वास्तविक डेटा वितरण की तुलना में सरल है।

सांख्यिकीय सीखने के ढांचे में, जब हम मॉडल की जटिलता को चित्रित करते हैं, तो यह विचार होता है कि त्रुटि = पूर्वाग्रह + भिन्नता। यहाँ त्रुटि को शायद मॉडल की भविष्यवाणी की त्रुटि दर के रूप में समझा जा सकता है, जो दो भागों से बना है, एक भाग में अनुमानों का गलत हिस्सा (Bias) जो मॉडल के बहुत सरल होने के कारण होता है, और दूसरा भाग जो मॉडल के बहुत जटिल होने के कारण अधिक परिवर्तन स्थान और अनिश्चितता (Variance) होता है।

इस प्रकार, यह सरल बेयर्स का विश्लेषण करना आसान है; यह एक बहुत ही सरल मॉडल है, जो कि डेटा के बीच असंबद्धता की एक सरल धारणा को मानता है; इसलिए, इस तरह के एक सरल मॉडल के लिए, अधिकांश मामलों में, Bias भाग भिन्नता भाग से बड़ा होगा, यानी उच्च विचलन और निम्न विचलन।

वास्तव में, त्रुटि को कम से कम करने के लिए, हमें मॉडल चुनने के दौरान व्यस और भिन्नता के अनुपात को संतुलित करने की आवश्यकता होती है, यानी ओवर-फिटिंग और अंडर-फिटिंग को संतुलित करना।

विचलन और अंतर के मॉडल जटिलता के संबंध को निम्न चित्र का उपयोग करके स्पष्ट किया गया हैः

机器学习8大算法比较

जैसा कि मॉडल की जटिलता बढ़ जाती है, विचलन धीरे-धीरे कम हो जाता है, जबकि विचलन धीरे-धीरे बढ़ जाता है।

  • आम एल्गोरिदम के फायदे और नुकसान

    • ### 1. सरल बेयर्स

    सरल बेयर्स जनरेटिव मॉडल से संबंधित हैं (जनरेटिव मॉडल और निर्धारक मॉडल के बारे में, या मुख्य रूप से संयुक्त वितरण की आवश्यकता है या नहीं) बहुत सरल है, आप बस एक ढेर गिनती करते हैं।

    यदि आप एक सशर्त स्वतंत्रता परिकल्पना (एक सख्त शर्त) पर भरोसा करते हैं, तो एक सरल बेयर्स वर्गीकरणकर्ता का संकुचन गति एक तर्कसंगत प्रतिगमन के रूप में मॉडल को परिभाषित करने की तुलना में तेज होगी, इसलिए आपको कम प्रशिक्षण डेटा की आवश्यकता होगी।

    इसका मुख्य दोष यह है कि यह विशेषताओं के बीच बातचीत का अध्ययन नहीं कर सकता है, एमआरएमआर में आर के रूप में, यह विशेषताओं की आवश्यकता से अधिक है। उदाहरण के लिए, यदि आप ब्रैड पिट और टॉम क्रूज़ की फिल्मों को पसंद करते हैं, तो यह उन फिल्मों को नहीं सीख सकता है जिन्हें आप पसंद नहीं करते हैं।

    लाभः

    सरल बेयर्स मॉडल शास्त्रीय गणितीय सिद्धांतों से उत्पन्न होता है, जिसमें एक ठोस गणितीय आधार होता है और स्थिर वर्गीकरण दक्षता होती है। छोटे पैमाने पर डेटा के लिए अच्छा प्रदर्शन, बहु-वर्ग के कार्यों को संभाल सकता है, जो वृद्धिशील प्रशिक्षण के लिए उपयुक्त है; यह खोए हुए डेटा के प्रति संवेदनशील नहीं है, और एल्गोरिदम अपेक्षाकृत सरल है, जिसे अक्सर पाठ वर्गीकरण के लिए उपयोग किया जाता है। कमियांः

    एक पूर्वानुमान की गणना की आवश्यकता है; वर्गीकृत निर्णयों में त्रुटि की दर है; इनपुट डेटा के अभिव्यक्ति के रूप के प्रति संवेदनशील है।

    • ### 2. तर्क प्रतिगमन

    यह एक विशिष्ट मॉडल है, जिसमें कई विधि हैं (L0, L1, L2, आदि) और आपको यह चिंता करने की ज़रूरत नहीं है कि आपके लक्षण प्रासंगिक हैं या नहीं, जैसा कि सरल बेयर्स के साथ होता है।

    आपको निर्णय वृक्षों और एसवीएम मशीनों की तुलना में एक अच्छी संभावना व्याख्या भी मिलती है, और आप नए डेटा का उपयोग करके मॉडल को आसानी से अपडेट कर सकते हैं (ऑनलाइन ग्रेडिएंट डिसेंट एल्गोरिदम का उपयोग करके) ।

    यदि आपको एक संभावना संरचना की आवश्यकता है (उदाहरण के लिए, केवल वर्गीकरण थ्रेशोल्ड को समायोजित करने के लिए, अनिश्चितता को इंगित करने के लिए, या विश्वास सीमा प्राप्त करने के लिए), या आप बाद में अधिक प्रशिक्षण डेटा को तेजी से मॉडल में एकीकृत करना चाहते हैं, तो इसका उपयोग करें।

    Sigmoid फ़ंक्शन:

    机器学习8大算法比较

    लाभः सरल और व्यापक रूप से औद्योगिक मुद्दों पर लागू किया जा सकता है; वर्गीकरण के दौरान बहुत कम गणना, तेज गति और कम भंडारण संसाधन; एक सुविधाजनक अवलोकन नमूना संभावना स्कोर; तर्कसंगत प्रतिगमन के लिए, बहुआयामी सह-रेखाबद्धता कोई समस्या नहीं है, जिसे L2 नियमितकरण के साथ हल किया जा सकता है; कमियांः जब विशेषता स्थान बहुत बड़ा होता है, तो तार्किक प्रतिगमन का प्रदर्शन अच्छा नहीं होता है; आसानी से अनुचित फिट, सामान्य रूप से कम सटीकता बड़ी संख्या में गुणों या चरों को अच्छी तरह से संभालने में असमर्थ; केवल दो वर्गीकरण समस्याओं (इस आधार पर व्युत्पन्न सॉफ्टमैक्स बहु-वर्गों के लिए उपयोग किया जा सकता है) को संभाल सकता है और रैखिक रूप से विभाज्य होना चाहिए; गैर-रैखिक विशेषताओं के लिए, रूपांतरण की आवश्यकता होती है;

    • ### 3. रैखिक प्रतिगमन

    Linear regression का उपयोग regression के लिए किया जाता है, जबकि Logistic regression का उपयोग classification के लिए किया जाता है। इसका मूल विचार gradient descent method का उपयोग करके न्यूनतम द्विगुणन के रूप में त्रुटि कार्यों का अनुकूलन करना है।

    机器学习8大算法比较

    जबकि LWLR (स्थानीय भारित रैखिक प्रतिगमन) में, पैरामीटर का गणना अभिव्यक्ति हैः

    机器学习8大算法比较

    इस प्रकार, एलडब्ल्यूएलआर एलआर से अलग है, एलडब्ल्यूएलआर एक गैर-पैरामीट्री मॉडल है, क्योंकि प्रत्येक पुनरावृत्ति गणना के लिए प्रशिक्षण नमूने को कम से कम एक बार जाना पड़ता है।

    लाभः सरल कार्यान्वयन, सरल गणना;

    नुकसानः गैर-रैखिक डेटा को फिट नहीं कर सकता।

    • ### 4. हाल ही में पड़ोस एल्गोरिथ्म

    केएनएन, निकटतम पड़ोसी एल्गोरिथ्म, इसकी मुख्य प्रक्रियाएं हैंः

       1. 计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);
    
       2. 对上面所有的距离值进行排序;
    
       3. 选前k个最小距离的样本;
    
       4. 根据这k个样本的标签进行投票,得到最后的分类类别;
    

    डेटा पर निर्भर करता है कि एक इष्टतम के-वैल्यू का चयन कैसे किया जाता है; सामान्य तौर पर, वर्गीकरण के दौरान एक बड़ा के-वैल्यू शोर के प्रभाव को कम कर सकता है; लेकिन श्रेणियों के बीच की सीमाओं को धुंधला कर सकता है।

    एक बेहतर K मान को विभिन्न प्रेरित तकनीकों के माध्यम से प्राप्त किया जा सकता है, जैसे कि क्रॉस-प्रूफिंग। इसके अलावा, शोर और असंबद्धता विशेषता वैक्टर की उपस्थिति K निकटवर्ती एल्गोरिदम की सटीकता को कम कर देती है।

    समीपवर्ती एल्गोरिदम के परिणाम अधिक सुसंगत होते हैं. डेटा अनंत होने के साथ, एल्गोरिदम गारंटी देता है कि त्रुटि की दर बेयिस एल्गोरिथ्म की त्रुटि की दर से दो गुना से अधिक नहीं होगी. कुछ अच्छे K-मूल्यों के लिए, K-समीपवर्ती गारंटी देता है कि त्रुटि की दर बेयिस सैद्धांतिक त्रुटि से अधिक नहीं होगी।

    केएनएन एल्गोरिदम के फायदे

    सिद्धांत परिपक्व है, विचार सरल है, और इसे वर्गीकरण और प्रतिगमन दोनों के लिए इस्तेमाल किया जा सकता है। गैर-रैखिक वर्गीकरण के लिए उपयोग किया जा सकता है; प्रशिक्षण समय जटिलता O ((n) है; डेटा के लिए कोई धारणा नहीं, उच्च सटीकता, आउटलीयर के प्रति संवेदनशील नहीं; कमियां

    यह बहुत बड़ा है। नमूना असंतुलन समस्या (यानी कुछ श्रेणियों में बहुत सारे नमूने हैं, जबकि अन्य में बहुत कम); यह बहुत बड़ी मेमोरी की आवश्यकता है।

    • ### 5. निर्णय पेड़

    व्याख्या करना आसान है. यह तनाव मुक्त रूप से विशेषताओं के बीच के संबंधों को संभालता है और गैर-पैरामीटर है, इसलिए आपको चिंता करने की ज़रूरत नहीं है कि असामान्य मान या डेटा रैखिक रूप से विभाजित है (उदाहरण के लिए, निर्णय पेड़ आसानी से किसी विशेषताओं के आयाम x के अंत में श्रेणी A को संभालता है, बीच में श्रेणी B, और फिर श्रेणी A विशेषता आयाम x के सामने दिखाई देती है) ।

    इसके कमियों में से एक यह है कि यह ऑनलाइन सीखने का समर्थन नहीं करता है, इसलिए नए नमूने आने के बाद निर्णय पेड़ को पूरी तरह से फिर से बनाना होगा।

    एक और कमजोरी यह है कि अनुकूलन में आसानी होती है, लेकिन यह एक अंतर बिंदु है जो एकीकरण के तरीकों जैसे कि रैंडम फॉरेस्ट आरएफ (या पेड़ को बढ़ावा देने वाले पेड़) में प्रवेश करता है।

    इसके अलावा, रैंडम फॉरेस्ट अक्सर कई वर्गीकरण समस्याओं का विजेता होता है (आमतौर पर समर्थित वेक्टर मशीन से थोड़ा बेहतर), यह तेजी से प्रशिक्षित होता है और समायोजित किया जा सकता है, और आपको समर्थित वेक्टर मशीन की तरह कई पैरामीटर समायोजित करने की चिंता नहीं करनी चाहिए, इसलिए यह पहले से ही लोकप्रिय है।

    निर्णय वृक्ष में एक महत्वपूर्ण बात यह है कि एक विशेषता का चयन करने के लिए शाखाओं, इसलिए ध्यान देना चाहिए सूचना वृद्धि के लिए गणना सूत्र और इसे गहराई से समझने के लिए है ।

    जानकारी की कुंजी के लिए गणना सूत्र इस प्रकार हैः

    机器学习8大算法比较

    इनमें से n के लिए n वर्गीकरण श्रेणियां हैं (जैसे कि मान लीजिए कि यह 2 श्रेणियों की समस्या है, तो n = 2) । इन दो श्रेणियों के नमूने के कुल नमूने में होने की संभावनाओं p1 और p2 को अलग-अलग गणना करें, ताकि अनचेक किए गए गुणों के विभक्त होने से पहले सूचना की मात्रा की गणना की जा सके ।

    अब एक विशेषता xxi का चयन किया जाता है जिसका उपयोग शाखाओं को करने के लिए किया जाता है, इस समय शाखाओं के नियम हैंः यदि x = vxi = v, तो नमूने को पेड़ के एक शाखा में विभाजित करें; यदि यह समान नहीं है, तो दूसरे शाखा में जाएं।

    यह स्पष्ट है कि शाखाओं में नमूने में दो श्रेणियां शामिल होने की संभावना है, और दोनों शाखाओं के लिए H1 और H2 की गणना की जाती है, और शाखाओं के बाद कुल सूचना H1 = p1 H1 + p2 H2 की गणना की जाती है, तो सूचना वृद्धि ΔH = H - H2 है। सूचना वृद्धि के सिद्धांत के अनुसार, सभी गुणों को एक तरफ रखा जाता है, और सबसे अधिक वृद्धि करने वाली विशेषता को इस शाखा की विशेषता के रूप में चुना जाता है।

    निर्णय वृक्ष के फायदे

    सरल, समझने में आसान और व्याख्या करने में सक्षम; अनुपलब्ध गुणों वाले नमूनों की तुलना करना; यह एक बहुत ही महत्वपूर्ण विषय है, और यह एक बहुत ही महत्वपूर्ण विषय है। बड़े डेटा स्रोतों पर अपेक्षाकृत कम समय में व्यवहार्य और प्रभावी परिणाम प्राप्त करने में सक्षम। कमियां

    यह भी कहा जाता है कि यह एक बहुत ही जटिल समस्या है, क्योंकि यह एक बहुत ही जटिल समस्या है। इस तरह के आंकड़ों के बीच की प्रासंगिकता को नजरअंदाज कर दिया गया है। उन आंकड़ों के लिए जिनके विभिन्न श्रेणियों के नमूने की संख्या असंगत है, निर्णय वृक्ष में, सूचना वृद्धि के परिणाम अधिक संख्यात्मक गुणों के लिए पक्षपाती होते हैं (जब भी सूचना वृद्धि का उपयोग किया जाता है, तो यह नुकसान होता है, जैसे कि आरएफ) ।

    • 5.1 अनुकूलन

    Adaboost एक योग मॉडल है, जिसमें प्रत्येक मॉडल पिछले मॉडल की त्रुटि दर के आधार पर बनाया गया है, गलत वर्गीकृत नमूनों पर बहुत अधिक ध्यान देने के बजाय सही वर्गीकृत नमूनों पर कम ध्यान देने के साथ, एक अपेक्षाकृत बेहतर मॉडल प्राप्त करने के लिए एक बार फिर से पुनरावृत्ति के बाद। यह एक विशिष्ट बूस्टिंग एल्गोरिथ्म है। इसके फायदे और नुकसान नीचे संक्षेप में बताए गए हैं।

    फायदे

    adaboost एक बहुत ही सटीक वर्गीकरण उपकरण है। विभिन्न तरीकों से एक उप वर्गीकरण का निर्माण किया जा सकता है, ढांचा एडाबोस्ट एल्गोरिथ्म द्वारा प्रदान किया जाता है। जब सरल वर्गीकरण का उपयोग किया जाता है, तो गणना किए गए परिणाम समझ में आते हैं, और कमजोर वर्गीकरण का निर्माण बेहद सरल होता है। यह सरल है, इसमें फ़ीचर फ़िल्टरिंग की आवश्यकता नहीं है। इस तरह की घटनाओं में बहुत कम लोग शामिल होते हैं। रैंडम फॉरेस्ट और जीबीडीटी जैसे संयोजन एल्गोरिदम के बारे में, इस लेख को देखेंः मशीन लर्निंग - संयोजन एल्गोरिदम सारांश

    कमजोरीः आउटलीयर के प्रति संवेदनशील

    • ### 6. एसवीएम वेक्टर मशीन का समर्थन करता है

    उच्च सटीकता, अति-अनुरूपता से बचने के लिए एक अच्छा सैद्धांतिक आश्वासन प्रदान करती है, और जब तक यह एक उपयुक्त कोर फ़ंक्शन देता है, तब तक यह अच्छी तरह से काम करता है, भले ही डेटा मूल विशेषता स्थान में रैखिक रूप से अविभाज्य हो।

    यह विशेष रूप से गतिशील अल्ट्रा-उच्च आयामी पाठ वर्गीकरण समस्याओं में लोकप्रिय है। दुर्भाग्य से, मेमोरी का उपयोग करना बहुत कठिन है, इसे समझना मुश्किल है, और इसे चलाने और समायोजित करने में कुछ परेशानी भी है, जबकि रैंडम वन इन कमियों से बच गया है, जो कि व्यावहारिक है।

    फायदे यह उच्च आयामी समस्याओं को हल कर सकता है, अर्थात् बड़े विशेषता स्थानों को। यह गैर-रैखिक विशेषताओं के साथ बातचीत को संभाल सकता है। यह डेटा के पूरे सेट पर निर्भर नहीं करता है। यह व्यापक क्षमता को बढ़ा सकता है।

    कमियां जब बहुत सारे नमूने देखे जाते हैं, तो प्रभावशीलता बहुत अधिक नहीं होती है। गैर-रैखिक समस्याओं के लिए कोई सामान्य समाधान नहीं है और कभी-कभी एक उपयुक्त नाभिक फ़ंक्शन खोजना मुश्किल होता है। खोए हुए डेटा के प्रति संवेदनशील; नाभिक के चयन के लिए भी सरल है (libsvm में चार नाभिक फ़ंक्शन हैंः रैखिक नाभिक, बहुपद नाभिक, आरबीएफ और सिग्मोइड नाभिक):

    सबसे पहले, यदि नमूना संख्या लक्षण संख्या से कम है, तो गैर-रैखिक नाभिकों का चयन करना आवश्यक नहीं है, सरल रैखिक नाभिकों का उपयोग करना पर्याप्त है;

    दूसरा, यदि नमूने की संख्या लक्षणों की संख्या से अधिक है, तो नमूना को उच्च आयामों में मानचित्रित करने के लिए एक गैर-रैखिक नाभिक का उपयोग किया जा सकता है, जो आम तौर पर बेहतर परिणाम देता है।

    तीसरा, यदि नमूना संख्या और लक्षण संख्या समान हैं, तो इस स्थिति में एक गैर-रैखिक नाभिक का उपयोग किया जा सकता है, सिद्धांत रूप में दूसरे के समान।

    पहले मामले में, डेटा को पहले कम किया जा सकता है और फिर एक गैर-रैखिक कोर का उपयोग किया जा सकता है, जो एक तरीका है।

    • ### 7. ए.एन.वी. के फायदे और नुकसान

    एक आर्टिफिशियल न्यूरोनेट के फायदेः वर्गीकरण की उच्च सटीकता; यह एक बहुत ही मजबूत, समान रूप से वितरित प्रसंस्करण, वितरित भंडारण और सीखने की क्षमता है। शोर तंत्रिकाओं के लिए मजबूत लचीलापन और त्रुटि-सहिष्णुता, जो जटिल गैर-रैखिक संबंधों के लिए पर्याप्त रूप से करीब है; यह एक बहुत ही उपयोगी और उपयोगी उपकरण है।

    यह एक बहुत ही अच्छा तरीका है कि हम अपने स्वयं के नेटवर्क का उपयोग कर सकते हैं। तंत्रिका नेटवर्क को बहुत सारे पैरामीटर की आवश्यकता होती है, जैसे कि नेटवर्क टोपोलॉजी संरचना, वजन और थ्रेशोल्ड के प्रारंभिक मान; अवलोकन के बीच सीखने की प्रक्रिया, आउटपुट परिणामों की व्याख्या करना मुश्किल है, जो परिणामों की विश्वसनीयता और स्वीकार्यता को प्रभावित करता है; बहुत अधिक समय तक अध्ययन करना, और शायद अध्ययन के उद्देश्य तक नहीं पहुंचना।

    • ### 8 K-Means समूह

    K-Means समूह के बारे में पहले एक लेख लिखा था, ब्लॉग लिंकः मशीन सीखने के एल्गोरिदम - K-means समूह; K-Means के बारे में अनुमान, जिसमें बहुत मजबूत ईएम विचार हैं।

    फायदे एल्गोरिदम सरल और लागू करने में आसान है; यह एल्गोरिथ्म बड़े डेटासेट के लिए अपेक्षाकृत स्केलेबल और कुशल है क्योंकि इसकी जटिलता लगभग O ((nkt) है, जहां n सभी ऑब्जेक्टों की संख्या है, k तालिकाओं की संख्या है, और t पुनरावृत्ति की संख्या है। एल्गोरिथ्म सबसे कम वर्ग त्रुटि फ़ंक्शन मान वाले k विभाजनों को खोजने का प्रयास करता है। समूह प्रभाव तब बेहतर होता है जब कण घने, गोलाकार या गुच्छेदार होते हैं और कण और कण के बीच स्पष्ट अंतर होता है।

    कमियां डेटा प्रकार के लिए उच्च आवश्यकताएं, संख्यात्मक डेटा के लिए उपयुक्त; स्थानीय न्यूनतम के लिए अभिसरण हो सकता है, बड़े पैमाने पर डेटा पर धीमा अभिसरण K मान का चयन करना मुश्किल है; आरंभिक मानों के लिए संवेदनशील, विभिन्न आरंभिक मानों के लिए अलग-अलग समूह परिणाम हो सकते हैं; अलंकारों के लिए उपयुक्त नहीं है, या आकार में बहुत अंतर है। इस प्रकार के आंकड़ों का एक छोटा सा हिस्सा औसत पर बहुत प्रभाव डाल सकता है।

    एल्गोरिथ्म संदर्भ चुनता है

    एक लेख में एक सरल एल्गोरिथ्म चयन युक्तियाँ दी गई हैं:

    सबसे पहले, लॉजिकल रिग्रेशन को चुना जाना चाहिए, और यदि इसका प्रभाव अच्छा नहीं है, तो इसके परिणामों को अन्य एल्गोरिदम के साथ आधार पर तुलना करने के लिए एक संदर्भ के रूप में लिया जा सकता है।

    फिर निर्णय वृक्ष (रैंडम फ़ॉरेस्ट) का परीक्षण करें और देखें कि क्या यह आपके मॉडल के प्रदर्शन में काफी सुधार कर सकता है। यहां तक कि अगर आप इसे अंतिम मॉडल के रूप में समाप्त नहीं करते हैं, तो आप रैंडम फ़ॉरेस्ट का उपयोग शोर चर को हटाने और विशेषता चयन करने के लिए कर सकते हैं।

    यदि लक्षणों की संख्या और अवलोकन नमूने विशेष रूप से अधिक हैं, तो जब संसाधन और समय पर्याप्त हैं (यह एक महत्वपूर्ण शर्त है) तो एसवीएम का उपयोग करना एक विकल्प है।

    सामान्य तौर परः GBDT>=SVM>=RF>=Adaboost>=Other... ओह, अब गहरी शिक्षा बहुत लोकप्रिय है, कई क्षेत्रों में उपयोग किया जाता है, यह तंत्रिका नेटवर्क पर आधारित है, वर्तमान में मैं खुद भी सीख रहा हूं, लेकिन सैद्धांतिक ज्ञान बहुत मोटा नहीं है, समझने के लिए पर्याप्त गहराई नहीं है, इसलिए यहां परिचय नहीं है।

    एल्गोरिदम महत्वपूर्ण हैं, लेकिन अच्छे डेटा अच्छे एल्गोरिदम से बेहतर होते हैं, और अच्छे गुणों को डिजाइन करना बहुत फायदेमंद होता है। यदि आपके पास एक बहुत बड़ा डेटासेट है, तो आपके द्वारा उपयोग किए जाने वाले किसी भी एल्गोरिथ्म का वर्गीकरण प्रदर्शन पर बहुत अधिक प्रभाव नहीं पड़ सकता है (इस समय गति और उपयोग में आसानी के आधार पर विकल्प चुन सकते हैं) ।

  • संदर्भ


अधिक जानकारी