इस लेख में regression analysis के बारे में बताया गया है और इसके फायदे बताए गए हैं। इस लेख में सात सबसे आम regression techniques का सारांश दिया गया है, जिनमें linear regression, logical regression, polynomial regression, step regression, tangent regression, query regression, ElasticNet regression और उनके महत्वपूर्ण तत्व शामिल हैं। ** ** कम्पाइलर के बटन पर पुनरावृत्ति विश्लेषण डेटा के मॉडलिंग और विश्लेषण के लिए एक महत्वपूर्ण उपकरण है। इस लेख में पुनरावृत्ति विश्लेषण के अर्थ और इसके लाभों की व्याख्या की गई है, जिसमें सात सबसे आम पुनरावृत्ति तकनीकों जैसे कि रैखिक पुनरावृत्ति, तार्किक पुनरावृत्ति, बहुपद पुनरावृत्ति, क्रमिक पुनरावृत्ति, कम्पाइलर पुनरावृत्ति, सूचक पुनरावृत्ति, ElasticNet पुनरावृत्ति और उनके महत्वपूर्ण तत्वों पर ध्यान केंद्रित किया गया है। अंत में, सही पुनरावृत्ति मॉडल का चयन करने के लिए महत्वपूर्ण तत्वों का परिचय दिया गया है।
प्रतिगमन विश्लेषण एक पूर्वानुमानात्मक मॉडलिंग तकनीक है जो कारण चर (लक्ष्य) और स्वयं चर (पूर्वानुमानकर्ता) के बीच संबंधों का अध्ययन करती है। यह तकनीक आमतौर पर पूर्वानुमान विश्लेषण, समय अनुक्रम मॉडल और पाए गए चर के बीच कारण संबंध के लिए उपयोग की जाती है। उदाहरण के लिए, ड्राइवरों के लापरवाह ड्राइविंग और सड़क यातायात दुर्घटनाओं की संख्या के बीच संबंध, सबसे अच्छा अध्ययन का तरीका प्रतिगमन है।
रिग्रेशन एनालिटिक्स डेटा मॉडलिंग और विश्लेषण के लिए एक महत्वपूर्ण उपकरण है। यहाँ, हम इन डेटा बिंदुओं को फिट करने के लिए एक वक्र / रेखा का उपयोग करते हैं, इस तरह, वक्र या रेखा से डेटा बिंदु तक की दूरी में अंतर न्यूनतम है। मैं इसे अगले भाग में विस्तार से समझाऊंगा।
जैसा कि ऊपर उल्लेख किया गया है, प्रतिगमन विश्लेषण दो या अधिक चरों के बीच संबंधों का अनुमान लगाता है। नीचे, आइए इसे समझने के लिए एक सरल उदाहरण देंः
उदाहरण के लिए, वर्तमान आर्थिक परिस्थितियों में, यदि आप किसी कंपनी के बिक्री वृद्धि का अनुमान लगाना चाहते हैं। अब, आपके पास कंपनी के नवीनतम डेटा हैं, जो दिखाता है कि बिक्री वृद्धि लगभग 2.5 गुना आर्थिक वृद्धि है। तो, regression analysis का उपयोग करके, हम वर्तमान और अतीत की जानकारी के आधार पर भविष्य की कंपनी के बिक्री का अनुमान लगा सकते हैं।
regression analysis का उपयोग करने के कई फायदे हैं।
यह स्वयं चर और कारण चर के बीच एक महत्वपूर्ण संबंध दर्शाता है;
यह कई स्व-परिवर्तनों के प्रभाव की तीव्रता को दर्शाता है।
regression analysis हमें विभिन्न पैमाने पर मापने वाले चरों के बीच परस्पर प्रभावों की तुलना करने की अनुमति देता है, जैसे कि मूल्य परिवर्तन और प्रचार गतिविधियों की संख्या के बीच संबंध। ये बाजार शोधकर्ताओं, डेटा विश्लेषकों और डेटा वैज्ञानिकों को भविष्यवाणी मॉडल बनाने के लिए उपयोग किए जाने वाले सर्वोत्तम चरों को बाहर निकालने और अनुमानित करने में मदद करते हैं।
पूर्वानुमान के लिए विभिन्न प्रकार की पुनरावृत्ति तकनीकें उपयोग की जाती हैं। इन तकनीकों में मुख्य रूप से तीन माप होते हैं (स्व-परिवर्तन की संख्या, चर के प्रकार और पुनरावृत्ति रेखा के आकार के कारण) । हम नीचे दिए गए भागों में विस्तार से चर्चा करेंगे।
रचनात्मक लोगों के लिए, यदि आपको लगता है कि उपरोक्त पैरामीटर के संयोजन का उपयोग करना आवश्यक है, तो आप एक अप्रयुक्त प्रतिगमन मॉडल भी बना सकते हैं। लेकिन शुरू करने से पहले, सबसे अधिक उपयोग किए जाने वाले प्रतिगमन तरीकों के बारे में जानेंः
यह सबसे अच्छी तरह से ज्ञात मॉडलिंग तकनीकों में से एक है। रैखिक प्रतिगमन आमतौर पर पूर्वानुमान मॉडल सीखने के लिए पसंदीदा तकनीकों में से एक है। इस तकनीक में, चूंकि चर निरंतर हैं, स्वयं चर निरंतर या असतत हो सकते हैं, और प्रतिगमन रेखाओं की प्रकृति रैखिक है।
रैखिक पुनरावृत्ति का उपयोग सबसे अच्छी तरह से फिट होने वाली सीधी रेखाओं (यानी पुनरावृत्ति रेखाओं) का उपयोग करके किया जाता है, जो कारक चर (Y) और एक या एक से अधिक स्वयं चर (X) के बीच संबंध स्थापित करती है।
इसे एक समीकरण द्वारा दर्शाया जाता है, यानि Y = a + b * X + e, जहां a अंतर को दर्शाता है, b रेखा की ढलान को दर्शाता है, और e त्रुटि बिंदु है। यह समीकरण दिए गए पूर्वानुमान चर (s) के आधार पर लक्ष्य चर के मान को अनुमानित कर सकता है।
एको-रेखीय प्रतिगमन और बहु-रेखीय प्रतिगमन में अंतर यह है कि बहु-रेखीय प्रतिगमन में एक से अधिक चर होता है, जबकि एको-रेखीय प्रतिगमन में आमतौर पर केवल एक से अधिक चर होता है। अब सवाल यह है कि हम एक इष्टतम अनुरूप रेखा कैसे प्राप्त करते हैं?
सबसे अच्छा फिट लाइन (a और b का मान) कैसे प्राप्त करें?
यह समस्या न्यूनतम द्विगुणन का उपयोग करके आसानी से पूरी की जा सकती है. न्यूनतम द्विगुणन भी सबसे आम विधि है जो regression line को फिट करने के लिए उपयोग की जाती है. अवलोकन डेटा के लिए, यह प्रत्येक डेटा बिंदु से लाइन तक के ऊर्ध्वाधर विचलन वर्ग के योग को कम करके सबसे अच्छा फिट लाइन का गणना करता है. क्योंकि जोड़ने में, विचलन पहले वर्ग है, इसलिए सकारात्मक और नकारात्मक दोनों का ऑफसेट नहीं होता है।
हम मॉडल के प्रदर्शन का आकलन करने के लिए R-square indicators का उपयोग कर सकते हैं। इन indicators के बारे में विस्तृत जानकारी के लिए, आप पढ़ सकते हैंः Model Performance Indicators Part 1, Part 2.
एक बिंदुः
लॉजिकल रिजनरेशन का उपयोग कंक्रीट घटना = सफलता कंक्रीट और कंक्रीट घटना = विफलता कंक्रीट की संभावना की गणना करने के लिए किया जाता है। जब कारण चर का प्रकार द्विआधारी ((1/0, सच/झूठा, हाँ/नहीं) चर है, तो हमें लॉजिकल रिजनरेशन का उपयोग करना चाहिए। यहाँ, Y का मान 0 से 1 तक है, जिसे निम्नलिखित समीकरण द्वारा दर्शाया जा सकता है।
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
उपरोक्त सूत्रों में, p अभिव्यक्ति में एक विशेषता की संभावना होती है. आपको यह सवाल पूछना चाहिएः अरे, हम सूत्र में लॉगरिदम लॉग का उपयोग क्यों करते हैं? अरे.
चूंकि हम यहाँ द्विआधारी वितरण का उपयोग कर रहे हैं (वैकल्पिक के कारण), हमें इस वितरण के लिए सबसे अच्छा कनेक्शन फ़ंक्शन चुनने की आवश्यकता है। यह लॉगिट फ़ंक्शन है। उपरोक्त समीकरण में, पैरामीटर का चयन करने के लिए, उदाहरण के लिए, बहुत समान अनुमानित मानों को देखने के बजाय, वर्गों और त्रुटियों को कम करने के बजाय (सामान्य पुनरावृत्ति में उपयोग किए जाने वाले) ।
एक बिंदुः
एक पुनरावृत्ति समीकरण के लिए, यदि स्वयं चर का सूचकांक 1 से अधिक है, तो यह बहुपद पुनरावृत्ति समीकरण है।
y=a+b*x^2
इस regression तकनीक में, सबसे अच्छा फिट लाइन एक सीधी रेखा नहीं है, बल्कि एक वक्र है जिसका उपयोग डेटा बिंदुओं को फिट करने के लिए किया जाता है।
मुख्य बातः
जब हम कई स्व-परिवर्तनों के साथ काम करते हैं, तो हम इस प्रकार के प्रतिगमन का उपयोग कर सकते हैं। इस तकनीक में, स्व-परिवर्तनों का चयन एक स्वचालित प्रक्रिया में किया जाता है, जिसमें गैर-मानव संचालन शामिल होता है।
यह उपलब्धि महत्वपूर्ण चरों की पहचान करने के लिए है, जैसे कि आर-स्क्वायर, टी-स्टेट्स और एआईसी सूचक जैसे आंकड़ों के मानों को देखते हुए। चरणबद्ध प्रतिगमन मॉडल को एक साथ जोड़ने/हटाने के द्वारा मॉडल को फिट करने के लिए निर्धारित मानदंडों के आधार पर सह-परिवर्तकों को हटा देता है। नीचे कुछ सबसे आम चरणबद्ध प्रतिगमन विधियां दी गई हैंः
घन प्रतिगमन विश्लेषण एक ऐसी तकनीक है जिसका उपयोग बहु-समन्वित डेटा के लिए किया जाता है। बहु-समन्वित स्थितियों में, जबकि न्यूनतम द्विगुणन (ओएलएस) प्रत्येक चर के लिए उचित है, उनके अंतर इतने बड़े हैं कि अवलोकन मूल्य विचलित हो जाते हैं और वास्तविक मूल्य से दूर हो जाते हैं। घन प्रतिगमन मानक त्रुटि को कम करता है, जो कि regression के अनुमान में एक विचलन बढ़ाकर किया जाता है।
ऊपर, हम एक रैखिक प्रतिगमन समीकरण देखते हैं. याद है? यह कहा जा सकता हैः
y=a+ b*x
इस समीकरण में एक त्रुटि बिंदु भी है। पूर्ण समीकरण हैः
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
एक रैखिक समीकरण में, पूर्वानुमान त्रुटि को दो उप-घटकों में विभाजित किया जा सकता है; एक विचलन और एक अंतर है; पूर्वानुमान त्रुटि इन दो घटकों या दोनों में से किसी एक के कारण हो सकती है। यहाँ हम अंतर के कारण होने वाली संबंधित त्रुटियों पर चर्चा करेंगे।
बहुल संरेखण समस्या को हल करने के लिए घन प्रतिगमन को संकुचन पैरामीटर λ ((lambda) द्वारा हल किया जाता है; नीचे दिए गए सूत्र देखें।
इस सूत्र में दो घटक हैं. पहला सबसे छोटा द्विपद है, दूसरा β2 (β- वर्ग) का एक गुना है, जिसमें β संबंधित गुणक है. संकुचन पैरामीटर के लिए इसे सबसे छोटे द्विपद में जोड़कर बहुत कम वर्गफल मिलता है।
एक बिंदुः
यह रैक regression के समान है, जिसमें Lasso (Least Absolute Shrinkage and Selection Operator) भी regression coefficients के absolute value के आकार को दंडित करता है. इसके अतिरिक्त, यह परिवर्तन की डिग्री को कम कर सकता है और रैखिक regression मॉडल की सटीकता को बढ़ा सकता है. नीचे दिए गए सूत्र को देखेंः
लासो रिवर्सन रिज रिवर्सन से थोड़ा अलग है, इसका उपयोग करने वाला दंड फंक्शन वर्ग के बजाय पूर्ण है; इसका परिणाम यह होता है कि दंड (अथवा जो कि बाध्य अनुमान के पूर्ण मूल्य के योग के बराबर है) का मूल्य कुछ पैरामीटर के अनुमान के परिणाम को शून्य के बराबर कर देता है; इसका उपयोग करने वाले दंड के मूल्य के साथ, आगे का अनुमान शून्य के करीब घटता है; इसका परिणाम यह होगा कि हमें दिए गए n चरों में से एक को चुनना होगा।
एक बिंदुः
ElasticNet Lasso और Ridge regression technology का एक मिश्रण है. यह L1 का उपयोग प्रशिक्षण के लिए करता है और L2 को प्राथमिकता के रूप में नियमितकरण मैट्रिक्स के रूप में करता है. जब कई संबंधित विशेषताएं होती हैं, तो ElasticNet उपयोगी होता है. Lasso उनमें से एक को यादृच्छिक रूप से चुनता है, जबकि ElasticNet दो को चुनता है।
लासो और रिज के बीच का वास्तविक लाभ यह है कि यह एलास्टिकनेट को रिज की कुछ स्थिरता को लूपिंग में विरासत में देने की अनुमति देता है।
एक बिंदुः
कैसे एक वापसी मॉडल का सही चयन करने के लिए?
जब आप केवल एक या दो तकनीकों को जानते हैं, तो जीवन अक्सर सरल होता है। मुझे पता है कि एक प्रशिक्षण संस्थान ने अपने छात्रों को बताया कि यदि परिणाम निरंतर है, तो रैखिक पुनरावृत्ति का उपयोग करें। यदि द्विआधारी है, तो तार्किक पुनरावृत्ति का उपयोग करें! हालांकि, हमारे निपटान में, जितने अधिक विकल्प हैं, उतना ही सही चुनना मुश्किल है। इसी तरह के मामले में पुनरावृत्ति मॉडल में भी होता है।
बहुवर्गीय प्रतिगमन मॉडल में, स्व-परिवर्तन और परिवर्तन के प्रकार, डेटा के आयाम और डेटा के अन्य बुनियादी गुणों के आधार पर सबसे उपयुक्त तकनीक का चयन करना महत्वपूर्ण है।
डेटा अन्वेषण पूर्वानुमान मॉडल के निर्माण का एक अनिवार्य हिस्सा है। यह उपयुक्त मॉडल का चयन करने में प्राथमिकता का कदम होना चाहिए, जैसे कि चर के संबंधों और प्रभावों की पहचान करना।
विभिन्न मॉडलों के लिए उपयुक्त गुणों के लिए, हम विभिन्न संकेतकों के पैरामीटर का विश्लेषण कर सकते हैं, जैसे कि सांख्यिकीय अर्थ के पैरामीटर, आर-स्क्वायर, एडजस्टेड आर-स्क्वायर, एआईसी, बीआईसी और त्रुटि पैरामीटर, एक और मालोव्स क्लोन सीपी दिशानिर्देश। यह मुख्य रूप से आपके मॉडल में संभावित विचलन की जांच करने के लिए सभी संभावित उप-मॉडलों (या उन्हें सावधानीपूर्वक चुनने) के साथ मॉडल की तुलना करके किया जाता है।
क्रॉस-वेरिफिकेशन भविष्यवाणी मॉडल का मूल्यांकन करने का सबसे अच्छा तरीका है. यहाँ, अपने डेटासेट को दो भागों में विभाजित करें (एक प्रशिक्षण और एक सत्यापन) । अपने भविष्यवाणियों की सटीकता को मापने के लिए अवलोकन और भविष्यवाणियों के बीच एक सरल औसत अंतर का उपयोग करें।
यदि आपका डेटासेट कई मिश्रित चर है, तो आपको स्वचालित मॉडल चयन विधि का चयन नहीं करना चाहिए, क्योंकि आपको सभी चर को एक ही मॉडल में एक ही समय में नहीं रखना चाहिए।
यह आपके उद्देश्य पर भी निर्भर करेगा। ऐसी स्थिति हो सकती है कि एक कम शक्तिशाली मॉडल उच्च सांख्यिकीय महत्व वाले मॉडल की तुलना में अधिक आसानी से लागू हो।
पुनरावर्ती नियमन (Lasso, Ridge और ElasticNet) उच्च आयामों और डेटासेट चर के बीच कई सह-रेखागत स्थितियों में अच्छी तरह से काम करता है।
सीएसडीएन से अनुप्रेषित