وسائل لوڈ ہو رہے ہیں... لوڈنگ...

سات واپسی کی تکنیکیں جن پر آپ کو عبور حاصل ہونا چاہئے

مصنف:ایجاد کاروں کی مقدار - خواب, تخلیق: 2016-12-18 10:22:43, تازہ کاری: 2016-12-18 11:08:56

سات واپسی کی تکنیکیں جن پر آپ کو عبور حاصل ہونا چاہئے


اس مضمون میں regression analysis اور اس کے فوائد کی وضاحت کی گئی ہے۔ اس میں سب سے زیادہ استعمال ہونے والی سات regression techniques اور ان کے اہم عناصر کا خلاصہ کیا گیا ہے۔ ان میں linear regression، logical regression، polynomial regression، stepwise regression، tangent regression، query regression اور elasticnet regression شامل ہیں۔ آخر میں صحیح regression model کا انتخاب کرنے کے لئے اہم عوامل کا ذکر کیا گیا ہے۔ ** ** ہیکر کمپلٹر بٹن رجریشن تجزیہ ماڈلنگ اور تجزیہ کے لئے ایک اہم آلہ ہے۔ اس مضمون میں ریگریشن تجزیہ کے معنی اور فوائد کی وضاحت کی گئی ہے ، جس میں سب سے زیادہ استعمال ہونے والی سات رجریشن کی تکنیکوں ، جیسے لکیری رجریشن ، منطقی رجریشن ، کثیر مقصدی رجریشن ، تدریجی رجریشن ، ہیکر رجریشن ، سوچیج رجریشن ، ایلسٹک نیٹ رجریشن اور ان کے اہم عناصر پر توجہ دی گئی ہے ، اور آخر میں صحیح رجریشن ماڈل کا انتخاب کرنے کے لئے اہم عوامل کو متعارف کرایا گیا ہے۔

  • ریگریشن تجزیہ کیا ہے؟

    ریگریشن تجزیہ ایک پیش گوئی ماڈلنگ تکنیک ہے جو وجہ متغیر (مقصد) اور خود متغیر (پیش گوئی کرنے والا) کے مابین تعلقات کا مطالعہ کرتی ہے۔ یہ تکنیک عام طور پر پیش گوئی تجزیہ ، وقت کے سلسلے کے ماڈلنگ اور دریافت شدہ متغیرات کے مابین وجہ سے استعمال ہوتی ہے۔ مثال کے طور پر ، ڈرائیوروں کی لاپرواہ ڈرائیونگ اور سڑک پر ٹریفک حادثات کی تعداد کے مابین تعلقات کا بہترین طریقہ ریگریشن ہے۔

    رجعت تجزیہ ماڈلنگ اور تجزیہ کے لئے ایک اہم آلہ ہے. یہاں، ہم ان اعداد و شمار کے نقطہ نظر کو فٹ کرنے کے لئے وکر / لائن کا استعمال کرتے ہیں، اس طرح، وکر یا لائن سے اعداد و شمار کے نقطہ نظر تک فاصلے کا فرق کم سے کم ہے. میں اگلے حصے میں اس کی وضاحت کروں گا.

    img

  • ہم رجعت تجزیہ کیوں استعمال کرتے ہیں؟

    جیسا کہ اوپر بیان کیا گیا ہے، رجعت کا تجزیہ دو یا زیادہ متغیرات کے درمیان تعلقات کا اندازہ کرتا ہے۔ ذیل میں، آئیے اسے سمجھنے کے لئے ایک سادہ مثال دیتے ہیں:

    مثال کے طور پر، موجودہ معاشی حالات میں، آپ کو ایک کمپنی کی فروخت میں اضافے کا اندازہ لگانے کی ضرورت ہے۔ اب، آپ کے پاس کمپنی کے تازہ ترین اعداد و شمار ہیں جو ظاہر کرتے ہیں کہ فروخت میں اضافہ معاشی ترقی کے 2.5 گنا زیادہ ہے۔ پھر رجعت تجزیہ کا استعمال کرتے ہوئے، ہم موجودہ اور ماضی کی معلومات کے مطابق مستقبل کی کمپنی کی فروخت کی پیش گوئی کر سکتے ہیں۔

    ریگریشن تجزیہ کا استعمال کرنے کے بہت سے فوائد ہیں۔

    یہ خود متغیر اور وجہ متغیر کے درمیان ایک اہم تعلق ظاہر کرتا ہے؛

    یہ ایک متغیر پر متعدد خود متغیرات کے اثرات کی شدت کو ظاہر کرتا ہے۔

    رجعت تجزیہ ہمیں مختلف پیمانے پر متغیرات کے مابین باہمی اثرات کا موازنہ کرنے کی بھی اجازت دیتا ہے ، جیسے قیمتوں میں تبدیلی اور تشہیر کی تعداد کے مابین روابط۔ یہ مارکیٹ ریسرچرز ، ڈیٹا تجزیہ کاروں اور ڈیٹا سائنسدانوں کو پیش گوئی کرنے والے ماڈل کی تعمیر کے لئے متغیرات کے بہترین مجموعے کو خارج کرنے اور اندازہ کرنے میں مدد فراہم کرتے ہیں۔

  • ہمارے پاس کتنی واپسی کی ٹیکنالوجی ہے؟

    پیش گوئی کرنے کے لئے مختلف قسم کی رجعت کی تکنیکیں استعمال کی جاتی ہیں۔ ان میں بنیادی طور پر تین میٹرکس ہیں (خود متغیر کی تعداد ، متغیر کی قسم اور رجعت کی لکیر کی شکل کی وجہ سے) ۔ ہم ذیل میں سیکشن میں ان کے بارے میں تفصیل سے بات کریں گے۔

    img

    تخلیقی لوگوں کے لیے، اگر آپ کو مندرجہ بالا پیرامیٹرز کا کوئی مجموعہ استعمال کرنے کی ضرورت محسوس ہوتی ہے تو، آپ یہاں تک کہ ایک رجعت ماڈل بھی تشکیل دے سکتے ہیں جو پہلے استعمال نہیں کیا گیا ہے۔ لیکن شروع کرنے سے پہلے، سب سے زیادہ استعمال شدہ رجعت کے طریقوں کے بارے میں جانیں:

    • 1. لکیری رجعت لکیری رجعت

      یہ ماڈلنگ کی سب سے مشہور تکنیکوں میں سے ایک ہے۔ لکیری رجعت عام طور پر پیش گوئی کرنے والے ماڈل سیکھنے میں لوگوں کی پسندیدہ تکنیکوں میں سے ایک ہے۔ اس تکنیک میں ، چونکہ متغیرات مسلسل ہیں ، لہذا خود متغیرات مسلسل یا متفرق ہوسکتے ہیں ، اور رجعت کی لکیر کی خصوصیات لکیری ہیں۔

      لکیری رجعت بہترین فٹ لائن (یعنی رجعت کی لائن) کا استعمال کرتے ہوئے وجہ متغیر (Y) اور ایک یا ایک سے زیادہ خود متغیر (X) کے درمیان ایک رشتہ قائم کرتی ہے۔

      اس کو ایک مساوات کے ساتھ ظاہر کیا جاتا ہے ، یعنی Y = a + b * X + e ، جہاں a کا مطلب ہے کہ اس کے درمیان کا فاصلہ ، b سیدھی لائن کا جھکاؤ ہے ، اور e غلطی کا عنصر ہے۔ یہ مساوات دی گئی پیش گوئی متغیر (s) کے مطابق ہدف متغیر کی قدر کی پیش گوئی کرسکتی ہے۔

      img

      یک سطحی ریگونیشن اور کثیر سطحی ریگونیشن میں فرق یہ ہے کہ کثیر سطحی ریگونیشن میں <= 1) ایک خود متغیر ہوتا ہے ، جبکہ یک سطحی ریگونیشن میں عام طور پر صرف ایک خود متغیر ہوتا ہے۔ اب سوال یہ ہے کہ ہم کس طرح بہترین فٹ لائن حاصل کرسکتے ہیں؟

      بہترین فٹ لائن (a اور b کی قیمت) کیسے حاصل کی جائے؟

      اس مسئلے کو سب سے کم دوگنا کے ساتھ آسانی سے حل کیا جاسکتا ہے۔ سب سے کم دوگنا بھی سب سے عام طریقہ ہے جس میں regression line fit کا استعمال کیا جاتا ہے۔ مشاہداتی اعداد و شمار کے ل it ، یہ ہر ڈیٹا پوائنٹ سے لائن تک عمودی انحراف کی مربع رقم کو کم سے کم کرکے بہترین فٹ لائن کا حساب لگاتا ہے۔ چونکہ جمع کے وقت ، انحراف پہلے مربع ہوتا ہے ، لہذا مثبت اور منفی قیمتوں کو آفسیٹ نہیں کیا جاتا ہے۔

      img

      ماڈل کی کارکردگی کا اندازہ کرنے کے لئے ہم R-square اشارے استعمال کرسکتے ہیں۔ ان اشارے کے بارے میں مزید معلومات کے لئے ، پڑھیں: ماڈل کی کارکردگی کے اشارے حصہ 1 ، حصہ 2۔

      اہم نکات:

      • خود متغیر اور اس کی وجہ متغیر کے درمیان ایک لکیری تعلقات ہونا ضروری ہے
      • کثیر الاضلاع میں متعدد ہم آہنگی ، خود وابستگی اور متضاد فرق ہے۔
      • لکیری رجعت غیر معمولی اقدار کے لئے بہت حساس ہے۔ اس سے رجعت کی لائن کو شدید طور پر متاثر کیا جاسکتا ہے اور آخر کار پیش گوئی کی قیمت کو متاثر کیا جاسکتا ہے۔
      • کثیر ہم آہنگی کوفیکٹر کی تخمینہ کی قیمتوں میں فرق بڑھاتا ہے ، جس سے ماڈل میں معمولی تبدیلیوں کے تحت تخمینہ انتہائی حساس ہوتا ہے۔ اس کا نتیجہ یہ ہوتا ہے کہ کوفیکٹر کی تخمینہ غیر مستحکم ہوتی ہے۔
      • متعدد خود متغیرات کی صورت میں، ہم سب سے اہم خود متغیر کا انتخاب کرنے کے لئے آگے کا انتخاب، پیچھے کی طرف ہٹانے اور مرحلہ وار فلٹرنگ کا استعمال کرسکتے ہیں۔
    • 2.Logistic Regression منطقی رجعت

      منطقی رجعت کا استعمال کیا جاتا ہے جب یہ حساب لگایا جاتا ہے کہ حلقہ واقعہ = کامیابی حلقہ اور حلقہ واقعہ = ناکامی حلقہ کا امکان ہے۔ جب اس وجہ سے کہ متغیر کی قسم دوہری ((1/0 ، سچ / غلط ، ہاں / نہیں) متغیر ہے تو ، ہمیں منطقی رجعت کا استعمال کرنا چاہئے۔ یہاں ، Y کی قدر 0 سے 1 تک ہے ، جسے مندرجہ ذیل مساوات کے ذریعہ بیان کیا جاسکتا ہے۔

      odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
      ln(odds) = ln(p/(1-p))
      logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
      

      مندرجہ بالا فارمولوں میں، p کے بیان میں کسی خاصیت کا امکان ہے۔ آپ کو یہ سوال پوچھنا چاہئے: ہم فارمولے میں لاگت کا استعمال کیوں کرتے ہیں؟

      چونکہ ہم یہاں دوہری تقسیم کا استعمال کر رہے ہیں (مختلف کی وجہ سے) ، ہمیں اس تقسیم کے لئے ایک بہترین کنکشن فنکشن کا انتخاب کرنے کی ضرورت ہے۔ یہ لاگٹ فنکشن ہے۔ مندرجہ بالا مساوات میں ، پیرامیٹرز کا انتخاب نمونے کے انتہائی متوقع تخمینوں کو دیکھ کر کیا جاتا ہے ، بجائے اس کے کہ مربع اور غلطی کو کم سے کم کیا جائے (جیسے عام واپسی میں استعمال ہوتا ہے) ۔

      img

      اہم نکات:

      • یہ بڑے پیمانے پر درجہ بندی کے مسائل میں استعمال ہوتا ہے۔
      • منطقی رجعت خود متغیر کی ضرورت نہیں ہے اور اس وجہ سے کہ متغیرات لکیری تعلقات ہیں۔ یہ مختلف اقسام کے تعلقات کو سنبھال سکتا ہے کیونکہ اس نے پیش گوئی کے لئے رشتہ دار رسک انڈیکس OR کے لئے غیر لکیری لاگ تبادلوں کا استعمال کیا ہے۔
      • اگر آپ کے پاس کوئی متبادل متبادل متبادل نہیں ہے تو ، آپ کو اس کا استعمال کرنے کی ضرورت نہیں ہے۔ اگر آپ کے پاس کوئی متبادل متبادل نہیں ہے تو ، آپ کو اس کا استعمال کرنے کی ضرورت ہے۔
      • اس کے لیے بڑے پیمانے پر نمونہ جات کی ضرورت ہوتی ہے کیونکہ چھوٹے پیمانے پر نمونوں کی صورت میں، بہت زیادہ مماثلت کا اندازہ لگایا جاتا ہے جو عام طور پر کم سے کم دو گنا سے بدتر ہوتا ہے۔
      • خود متغیرات کو آپس میں منسلک نہیں ہونا چاہئے، یعنی متعدد ہم آہنگی نہیں ہے۔ تاہم، تجزیہ اور ماڈلنگ میں، ہم درجہ بندی متغیرات کے تعامل کے اثرات کو شامل کرنے کا انتخاب کرسکتے ہیں۔
      • اگر کسی متغیر کی قدر ترتیب دینے والی متغیر ہے تو اسے ترتیب کے منطقی رجحان کہا جاتا ہے۔
      • اگر متغیر کی وجہ سے کثیر اقسام ہے تو اسے کثیر مقصود منطقی رجعت کہا جاتا ہے۔
    • 3. کثیر الثانیاتی رجعت

      اگر کسی regression equation کا انڈیکس 1 سے زیادہ ہے تو یہ ایک polynomial regression equation ہے۔

      y=a+b*x^2
      

      اس رجعت کی تکنیک میں ، بہترین فٹ لائن سیدھی نہیں ہے۔ یہ ایک منحنی خطوط ہے جو ڈیٹا پوائنٹس کو فٹ کرنے کے لئے استعمال ہوتا ہے۔

      img

      اہم نکات:

      • اگرچہ ایک حوصلہ افزائی ہوگی کہ ایک اعلی درجے کی کثیر الثانی کو فٹ کیا جاسکتا ہے اور کم غلطی حاصل کی جاسکتی ہے ، لیکن اس کی وجہ سے اوور فٹ ہوسکتا ہے۔ آپ کو اکثر فٹ ہونے کی صورتحال کو دیکھنے کے لئے تعلقات کا گراف تیار کرنے کی ضرورت ہوتی ہے ، اور اس بات کو یقینی بنانے پر توجہ مرکوز کرنا چاہئے کہ فٹ مناسب ہے ، نہ تو زیادہ فٹ ہے اور نہ ہی کم فٹ ہے۔ ذیل میں ایک مثال ہے جو سمجھنے میں مدد فراہم کرتی ہے:

      img

      • واضح طور پر دونوں اطراف میں منحنی خطوط تلاش کریں اور دیکھیں کہ آیا ان شکلوں اور رجحانات کا کوئی مطلب ہے۔ اعلی درجے کی کثیر الثانیات کے اختتام پر عجیب و غریب نتائج پیدا ہوسکتے ہیں۔
    • Stepwise Regression 4. مرحلہ وار رجعت

      جب ہم متعدد خود متغیرات کے ساتھ کام کرتے ہیں تو ، ہم اس طرح کی واپسی کا استعمال کرسکتے ہیں۔ اس تکنیک میں ، خود متغیر کا انتخاب ایک خودکار عمل میں کیا جاتا ہے ، جس میں غیر انسانی آپریشن شامل ہوتا ہے۔

      یہ کارنامہ اہم متغیرات کی نشاندہی کرنے کے لئے اعدادوشمار کی قدر جیسے آر اسکوائر ، ٹی اسٹیٹس اور اے آئی سی اشارے کو دیکھ کر کیا گیا ہے۔ ماڈل کو فٹ کرنے کے لئے مرحلہ وار واپسی کا طریقہ یہ ہے کہ ایک ہی وقت میں مخصوص معیار پر مبنی شریک متغیرات کو شامل / ہٹا دیا جائے۔ ذیل میں کچھ عام طور پر استعمال ہونے والے مرحلہ وار واپسی کے طریقے درج ہیں:

      • معیاری تخروپن دو چیزیں کرتا ہے۔ یعنی ہر قدم کے لئے مطلوبہ پیشن گوئی کو شامل اور خارج کرتا ہے۔
      • فارورڈ سلیکشن کا طریقہ ماڈل میں سب سے زیادہ نمایاں پیش گوئی سے شروع ہوتا ہے اور پھر ہر قدم کے لئے متغیر شامل ہوتا ہے۔
      • پیچھے ہٹانے کا طریقہ ماڈل کی تمام پیش گوئیوں کے ساتھ ساتھ شروع ہوتا ہے ، پھر ہر قدم پر سب سے کم نمایاں متغیر کو ختم کرتا ہے۔
      • اس طرح کی ماڈلنگ کی تکنیک کا مقصد پیش گوئی کرنے کی صلاحیت کو زیادہ سے زیادہ کرنے کے لئے کم سے کم تعداد میں پیش گوئی کرنے والے متغیرات کا استعمال کرنا ہے۔ یہ بھی اعلی جہتی ڈیٹا سیٹوں کے ساتھ کام کرنے کا ایک طریقہ ہے۔
    • 5۔ ریج رجسٹریشن کی واپسی

      ہوم رجحان تجزیہ ایک ایسی تکنیک ہے جو متعدد ہم آہنگی والے اعداد و شمار کے لئے استعمال ہوتی ہے۔ متعدد ہم آہنگی کی صورت میں ، اگرچہ کم سے کم دوگنا OLS ہر متغیر کے لئے منصفانہ ہے ، لیکن ان کا فرق اتنا بڑا ہے کہ مشاہداتی اقدار کو حقائق سے دور اور دور کردیا جاتا ہے۔ ہوم رجحان کو واپسی کے تخمینے میں ایک انحراف بڑھا کر معیاری غلطی کو کم کیا جاتا ہے۔

      اوپر، ہم نے لکیری رجعت مساوات دیکھا ہے۔ یاد رکھیں؟ یہ کہا جا سکتا ہے:

      y=a+ b*x
      

      اس مساوات میں بھی ایک خرابی کی شرط ہے۔ مکمل مساوات یہ ہے:

      y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
      => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
      

      ایک لکیری مساوات میں ، پیش گوئی کی غلطی کو دو ذیلی جزو جات میں تقسیم کیا جاسکتا ہے۔ ایک انحراف ہے اور دوسرا فرق ہے۔ پیش گوئی کی غلطی ان دو جزو یا ان دونوں میں سے کسی ایک کی وجہ سے ہوسکتی ہے۔ یہاں ہم فرق کی وجہ سے ہونے والی متعلقہ غلطیوں پر تبادلہ خیال کریں گے۔

      ہائیڈرو ریگولیشن متعدد ہم آہنگی کے مسائل کو کم کرنے والے پیرامیٹرز λ ((lambda) کے ذریعہ حل کرتی ہے۔ ذیل میں فارمولہ دیکھیں

      img

      اس فارمولے میں دو اجزاء ہیں۔ پہلا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔ دوسرا سب سے چھوٹا دوہرا ہے۔

      اہم نکات:

      • اس طرح کی واپسی کا فرض کم سے کم دو گنا واپسی کے مترادف ہے ، سوائے مستقل شرائط کے۔
      • یہ متعلقہ عوامل کی قدر کو کم کرتا ہے لیکن صفر تک نہیں پہنچتا ہے ، جس سے یہ ظاہر ہوتا ہے کہ اس میں خصوصیت کا انتخاب کرنے کی کوئی خصوصیت نہیں ہے۔
      • یہ ایک باقاعدگی کا طریقہ ہے اور L2 باقاعدگی کا استعمال کرتا ہے۔
    • 6. Lasso رجعت سوئیڈ ریگریشن

      اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب یہ ہے کہ اس کا مطلب

      img

      لاسو رجعت رِج رجعت سے تھوڑا مختلف ہے، اس نے سزا کی تقریب کو مربع کے بجائے مطلق قدر کے طور پر استعمال کیا ہے۔ اس کے نتیجے میں سزا ((یا اس کے برابر ہے کہ پابند اندازے کے مطلق قدر کا مجموعہ) کی قدر کچھ پیرامیٹرز کے تخمینے کے نتائج کو صفر کے برابر کردیتی ہے۔ سزا کی قدر کا استعمال کرتے ہوئے، مزید تخمینہ لگایا جاتا ہے جس سے قدر صفر کے قریب ہوتی ہے۔ اس کے نتیجے میں ہمیں دیئے گئے n متغیرات میں سے متغیر کا انتخاب کرنا پڑتا ہے۔

      اہم نکات:

      • اس طرح کی واپسی کا فرض کم سے کم دو گنا واپسی کے مترادف ہے ، سوائے مستقل شرائط کے۔
      • اس کا سکڑنے کا عنصر صفر کے قریب ہے (یعنی صفر) ، جو خصوصیت کے انتخاب میں مدد کرتا ہے۔
      • یہ ایک باقاعدگی کا طریقہ ہے جو L1 باقاعدگی کا استعمال کرتا ہے؛
      • اگر پیش گوئی کرنے والے متغیرات کا ایک مجموعہ انتہائی متعلقہ ہے تو ، لاسو ان میں سے ایک متغیر کا انتخاب کرتا ہے اور باقی کو صفر تک کم کرتا ہے۔
    • 7.ElasticNet回归

      ElasticNet Lasso اور Ridge regression کی تکنیک کا ایک مرکب ہے۔ یہ L1 کو تربیت دینے کے لئے استعمال کرتا ہے اور L2 کو باقاعدگی سے میٹرکس کے طور پر ترجیح دیتا ہے۔ جب متعدد متعلقہ خصوصیات موجود ہیں تو ، ElasticNet مفید ہے۔ Lasso ان میں سے ایک کو تصادفی طور پر منتخب کرتا ہے ، جبکہ ElasticNet دو کو منتخب کرتا ہے۔

      img

      لاسو اور رِج کے درمیان عملی فائدہ یہ ہے کہ اس سے ایلسٹک نیٹ کو رِج کے کچھ استحکام کو لوپ حالت میں وراثت میں حاصل کرنے کی اجازت ملتی ہے۔

      اہم نکات:

      • یہ ایک گروپ اثر پیدا کرتا ہے جب یہ انتہائی متعلقہ متغیرات کی صورت میں ہوتا ہے۔
      • منتخب متغیرات کی تعداد میں کوئی حد نہیں ہے۔
      • یہ دوہری سکڑنے کو برداشت کر سکتا ہے۔
      • ان سات سب سے زیادہ استعمال شدہ رجعت کی تکنیکوں کے علاوہ، آپ کو دیگر ماڈل جیسے بائیسیئن، ماحولیاتی اور مضبوط رجعت پر بھی نظر ڈالنا چاہئے.
    • کیا آپ کو معلوم ہے کہ کس طرح ایک واپسی ماڈل کا انتخاب کرنا ہے؟

      جب آپ صرف ایک یا دو تکنیکوں کو جانتے ہیں تو زندگی آسان ہوتی ہے۔ میں جانتا ہوں کہ ایک ٹریننگ ایجنسی نے اپنے طلباء کو بتایا کہ اگر نتیجہ مسلسل ہے تو ، لکیری رجعت کا استعمال کریں۔ اگر یہ دوہری ہے تو ، منطقی رجعت کا استعمال کریں۔ تاہم ، ہمارے انتظام میں ، زیادہ سے زیادہ انتخاب ہوتے ہیں ، صحیح انتخاب کرنا مشکل ہوتا ہے۔ اسی طرح کے حالات رجعت کے ماڈل میں بھی ہوتے ہیں۔

      کثیر طبقاتی رجعت کے ماڈل میں ، خود متغیر اور متغیر کی قسم ، اعداد و شمار کے طول و عرض اور اعداد و شمار کی دیگر بنیادی خصوصیات کی بنیاد پر ، بہترین تکنیک کا انتخاب کرنا بہت ضروری ہے۔ ذیل میں آپ کو صحیح رجعت ماڈل کا انتخاب کرنے کے لئے اہم عوامل ہیں:

      اعداد و شمار کی تلاش پیش گوئی کے ماڈل کی تعمیر کا ایک لازمی جزو ہے۔ یہ مناسب ماڈل کا انتخاب کرتے وقت ، جیسے کہ متغیرات کے تعلقات اور اثرات کی نشاندہی کرتے وقت ، اولین ترجیح ہونا چاہئے۔

      مختلف ماڈلوں کے فوائد کے مقابلے میں ، ہم مختلف اشارے کے پیرامیٹرز کا تجزیہ کرسکتے ہیں ، جیسے اعدادوشمار کے معنی کے پیرامیٹرز ، آر اسکوائر ، ایڈجسٹڈ آر اسکوائر ، اے آئی سی ، بی آئی سی اور غلطی کے مضامین ، اور دوسرا مالوز زیمون سی پی گائیڈ ہے۔ یہ بنیادی طور پر ماڈل کو تمام ممکنہ ذیلی ماڈلوں کے ساتھ موازنہ کرکے (یا ان کا احتیاط سے انتخاب کرکے) چیک کیا جاتا ہے کہ آپ کے ماڈل میں کیا انحراف ہوسکتا ہے۔

      کراس کی توثیق پیش گوئی کرنے والے ماڈل کی جانچ پڑتال کا بہترین طریقہ ہے۔ یہاں ، اپنے ڈیٹا سیٹ کو دو حصوں میں تقسیم کریں (ایک ٹریننگ اور دوسرا تصدیق) ۔ اپنی پیش گوئی کی درستگی کا اندازہ کرنے کے لئے مشاہدے کی قیمت اور پیش گوئی کی قیمت کے درمیان ایک سادہ اوسط فرق کا استعمال کریں۔

      اگر آپ کا ڈیٹا سیٹ ایک سے زیادہ مخلوط متغیرات کا ہے تو آپ کو خود کار طریقے سے ماڈل کے انتخاب کا طریقہ نہیں منتخب کرنا چاہئے کیونکہ آپ کو ایک ہی وقت میں تمام متغیرات کو ایک ہی ماڈل میں رکھنا نہیں چاہئے۔

      یہ آپ کے مقاصد پر بھی منحصر ہوگا۔ ایسی صورتیں ہوسکتی ہیں جہاں ایک کم طاقتور ماڈل انتہائی شماریاتی معنی رکھنے والے ماڈل کے مقابلے میں زیادہ قابل عمل ہے۔

      رجعت کی باقاعدگی کے طریقوں (Lasso، Ridge اور ElasticNet) اعلی طول و عرض اور ڈیٹا سیٹ متغیرات کے درمیان ایک سے زیادہ convexity کے ساتھ اچھی طرح کام کرتے ہیں.

CSDN سے نقل کیا گیا


مزید