আপনার যে ৭টি ব্যাকগ্রাউন্ড টেকনিক জানা উচিত

লেখক:উদ্ভাবকগণ - ক্যোটিফিকেশন - ছোট্ট স্বপ্ন, তৈরিঃ ২০১৬-১২-১৮ ১০ঃ২২ঃ৪৩, আপডেটঃ ২০১৬-১২-১৮ ১১ঃ০৮ঃ৫৬

আপনার যে ৭টি ব্যাকগ্রাউন্ড টেকনিক জানা উচিত


** এই নিবন্ধটি রেগনেশন বিশ্লেষণ এবং এর সুবিধাগুলি ব্যাখ্যা করে, যাঁরা সবচেয়ে বেশি ব্যবহৃত সাতটি রেগনেশন কৌশল এবং তাদের মূল উপাদানগুলির উপর গুরুত্ব দেয়, যেমনঃ লিনিয়ার রেগনেশন, লজিক্যাল রেগনেশন, মাল্টিপ্লেয়ার রেগনেশন, ধাপে ধাপে রেগনেশন, পিক রিগনেশন, সুইচ রেগনেশন, ইলাস্টিক নেট রেগনেশন এবং শেষ পর্যন্ত সঠিক রেগনেশন মডেল নির্বাচন করার মূল উপাদানগুলি। ** ** প্যাটার্ন কম্পাইলার বাটন রিগ্রেশন বিশ্লেষণ মডেলিং এবং বিশ্লেষণের জন্য একটি গুরুত্বপূর্ণ সরঞ্জাম। এই নিবন্ধটি প্যাটার্ন রিগ্রেশন বিশ্লেষণের অর্থ এবং এর সুবিধাগুলি ব্যাখ্যা করে, যা লিনিয়ার রিগ্রেশন, লজিক্যাল রিগ্রেশন, মাল্টিপ্লেয়ার রিগ্রেশন, ধাপে ধাপে রিগ্রেশন, প্যাটার্ন রিগ্রেশন, সুইচ রিগ্রেশন, ইলাস্টিক নেট রিগ্রেশন এবং তাদের মূল উপাদানগুলির মধ্যে সর্বাধিক ব্যবহৃত সাতটি রিগ্রেশন কৌশল এবং তাদের মূল উপাদানগুলির উপর গুরুত্ব দেয়। অবশেষে সঠিক রিগ্রেশন মডেলটি বেছে নেওয়ার মূল উপাদানগুলি সম্পর্কে অবহিত করা হয়।**

  • ### রিগ্রেশন অ্যানালিসিস কি?

রিগ্রেশন অ্যানালিসিস একটি পূর্বাভাস মডেলিং কৌশল যা কারণ ভেরিয়েবল (গ্রেড) এবং স্ব-ভেরিয়েবল (প্রাক্কলক) এর মধ্যে সম্পর্ক অধ্যয়ন করে। এই কৌশলটি সাধারণত পূর্বাভাস বিশ্লেষণ, সময়কালের ক্রম মডেল এবং আবিষ্কৃত ভেরিয়েবলগুলির মধ্যে কারণ সম্পর্কগুলির জন্য ব্যবহৃত হয়। উদাহরণস্বরূপ, ড্রাইভারের বেপরোয়া ড্রাইভিং এবং সড়ক ট্র্যাফিক দুর্ঘটনার সংখ্যার মধ্যে সম্পর্ক, সর্বোত্তম গবেষণা পদ্ধতি হল রিগ্রেশন।

রিগ্রেশন অ্যানালিসিস হল মডেলিং এবং বিশ্লেষণের জন্য একটি গুরুত্বপূর্ণ সরঞ্জাম। এখানে, আমরা কার্ভ/লাইন ব্যবহার করে এই ডেটা পয়েন্টগুলিকে ফিট করি, এইভাবে, কার্ভ বা লাইন থেকে ডেটা পয়েন্টের দূরত্বের পার্থক্য সর্বনিম্ন। আমি পরবর্তী বিভাগে এটি বিস্তারিতভাবে ব্যাখ্যা করব।

你应该掌握的七种回归技术

  • ### কেন আমরা রিগ্রেশনাল অ্যানালিটিক্স ব্যবহার করি?

উপরে উল্লিখিত হিসাবে, রিগ্রেশন অ্যানালিসিস দুই বা ততোধিক ভেরিয়েবলের মধ্যে সম্পর্ক অনুমান করে। নীচে, এটি বোঝার জন্য একটি সহজ উদাহরণ দেওয়া যাকঃ

উদাহরণস্বরূপ, বর্তমান অর্থনৈতিক পরিস্থিতিতে, আপনি একটি কোম্পানির বিক্রয় বৃদ্ধির অনুমান করতে চান। এখন, আপনার কাছে কোম্পানির সর্বশেষ তথ্য রয়েছে যা দেখায় যে বিক্রয় বৃদ্ধির পরিমাণ অর্থনৈতিক বৃদ্ধির তুলনায় প্রায় ২.৫ গুণ বেশি। তাহলে রিগ্রেশন বিশ্লেষণ ব্যবহার করে, আমরা বর্তমান এবং অতীতের তথ্যের ভিত্তিতে ভবিষ্যতের কোম্পানির বিক্রয় বৃদ্ধির পূর্বাভাস দিতে পারি।

রিগ্রেশন অ্যানালিসিসের অনেক সুবিধা রয়েছে।

এটি স্ব-ভেরিয়েবল এবং কারন-ভেরিয়েবলের মধ্যে উল্লেখযোগ্য সম্পর্ক দেখায়;

এটি একটি ভেরিয়েবলের উপর একাধিক স্ব-ভেরিয়েবলের প্রভাবের তীব্রতা নির্দেশ করে।

রিগ্রেশনাল অ্যানালিটিক্স আমাদের বিভিন্ন স্কেলের ভেরিয়েবলগুলির মধ্যে পারস্পরিক প্রভাবগুলির তুলনা করার অনুমতি দেয়, যেমন দামের পরিবর্তন এবং প্রচারের সংখ্যার মধ্যে সম্পর্ক। এগুলি বাজার গবেষক, ডেটা বিশ্লেষক এবং ডেটা বিজ্ঞানীকে পূর্বাভাস মডেল তৈরির জন্য সর্বোত্তম ভেরিয়েবলগুলির একটি সেট বাদ দিতে এবং অনুমান করতে সহায়তা করে।

  • ### আমাদের কাছে কতগুলি প্রত্যাবর্তন প্রযুক্তি আছে?

পূর্বাভাসের জন্য বিভিন্ন ধরণের রিগ্রেশন কৌশল রয়েছে। এই কৌশলগুলির প্রধানত তিনটি পরিমাপ রয়েছে (স্ব-ভেরিয়েবলের সংখ্যা, ভেরিয়েবলের ধরণ এবং রিগ্রেশন লাইনের আকৃতির কারণে) । আমরা নীচের বিভাগে তাদের বিস্তারিতভাবে আলোচনা করব।

你应该掌握的七种回归技术

সৃজনশীলদের জন্য, আপনি যদি উপরের প্যারামিটারগুলির সংমিশ্রণটি ব্যবহার করার প্রয়োজন বোধ করেন তবে আপনি একটি অব্যবহৃত রিগ্রেশন মডেলও তৈরি করতে পারেন। তবে আপনি শুরু করার আগে, এখানে সর্বাধিক ব্যবহৃত রিগ্রেশন পদ্ধতিগুলি সম্পর্কে জানুনঃ

  • 1. লিনিয়ার রিগ্রেশন

    এটি সবচেয়ে পরিচিত মডেলিং কৌশলগুলির মধ্যে একটি। লিনিয়ার রিগ্রেশন সাধারণত ভবিষ্যদ্বাণী মডেল শেখার সময় পছন্দের কৌশলগুলির মধ্যে একটি। এই পদ্ধতিতে, কারণ ভেরিয়েবলগুলি ধারাবাহিক, স্ব-ভেরিয়েবলগুলি ধারাবাহিক বা বিচ্ছিন্ন হতে পারে, রিগ্রেশন লাইনের বৈশিষ্ট্যগুলি লিনিয়ার।

    রৈখিক প্রত্যাবর্তন সর্বোত্তম ফিটিং রেখার (অর্থাৎ প্রত্যাবর্তন রেখার) ব্যবহার করে কার্যকরী ভেরিয়েবল (Y) এবং এক বা একাধিক স্ব-ভেরিয়েবল (X) এর মধ্যে একটি সম্পর্ক স্থাপন করে।

    এটি একটি সমীকরণ দ্বারা প্রতিনিধিত্ব করা হয়, যা Y = a + b * X + e, যেখানে a হ'ল ছেদ, b হ'ল একটি সরলরেখার ঢাল, এবং e হ'ল একটি ত্রুটির ক্রিয়া। এই সমীকরণটি প্রদত্ত পূর্বাভাস ভেরিয়েবল ((s) এর উপর ভিত্তি করে লক্ষ্য ভেরিয়েবলের মান পূর্বাভাস দিতে পারে।

    你应该掌握的七种回归技术

    একরৈখিক রেগ্রেসন এবং বহু-রৈখিক রেগ্রেসন এর পার্থক্য হল যে, বহু-রৈখিক রেগ্রেসন এর (<1) একটি স্ব-ভেরিয়েবল থাকে, যখন একরৈখিক রেগ্রেসন সাধারণত মাত্র একটি স্ব-ভেরিয়েবল থাকে। এখন প্রশ্ন হল কিভাবে আমরা একটি সর্বোত্তম ফিট লাইন পাব?

    কিভাবে সেরা ফিট লাইন (a এবং b এর মান) পাওয়া যায়?

    এই সমস্যাটি সহজেই সর্বনিম্ন দ্বিগুণের সাহায্যে সম্পন্ন করা যেতে পারে। সর্বনিম্ন দ্বিগুণ হল সবচেয়ে সাধারণ পদ্ধতি যা regression line-fitting-এর জন্য ব্যবহৃত হয়। পর্যবেক্ষণের জন্য, এটি প্রতিটি ডেটা পয়েন্ট থেকে লাইন পর্যন্ত উল্লম্ব বিচ্যুতির বর্গাকার যোগফলকে সর্বনিম্ন করে সর্বোত্তম ফিট লাইন গণনা করে। কারণ যোগ করার সময়, বিচ্যুতিটি প্রথম বর্গাকার হয়, তাই ধনাত্মক এবং নেতিবাচক মানগুলি অফসেট হয় না।

    你应该掌握的七种回归技术

    আমরা R-square ইন্ডিকেটর ব্যবহার করে মডেলের পারফরম্যান্স মূল্যায়ন করতে পারি। এই ইন্ডিকেটর সম্পর্কে বিস্তারিত জানতে, আপনি পড়তে পারেনঃ মডেল পারফরম্যান্স ইন্ডিকেটর পার্ট 1, পার্ট 2।

    পয়েন্টঃ

    • স্ব-ভেরিয়েবল এবং কার্ডিওভেরিয়েবলের মধ্যে একটি লিনিয়ার সম্পর্ক থাকতে হবে
    • মাল্টি-রেগনেশন একাধিক সিওলিনিয়ার, স্ব-সম্পর্কিততা এবং বিচ্ছিন্নতা রয়েছে।
    • লিনিয়ার রিগ্রেসন খুব অস্বাভাবিক মানের প্রতি সংবেদনশীল। এটি লিনিয়ার রিগ্রেসনকে মারাত্মকভাবে প্রভাবিত করে এবং শেষ পর্যন্ত পূর্বাভাসকে প্রভাবিত করে।
    • একাধিক সিনোলেনিটি কোয়ালিটি অনুমানের পার্থক্যকে বাড়িয়ে তোলে, যা মডেলের সামান্য পরিবর্তনের ক্ষেত্রে অনুমানকে অত্যন্ত সংবেদনশীল করে তোলে। ফলস্বরূপ, কোয়ালিটি অনুমানগুলি অস্থির হয়।
    • একাধিক স্ব-ভেরিয়েবলের ক্ষেত্রে, আমরা সবচেয়ে গুরুত্বপূর্ণ স্ব-ভেরিয়েবলগুলি নির্বাচন করতে অগ্রসর নির্বাচন, পিছনে বাদ দেওয়া এবং ধাপে ধাপে ফিল্টারিং ব্যবহার করতে পারি।
  • 2. লজিস্টিক রিগ্রেশন লজিক্যাল রিগ্রেশন

    লজিক্যাল রেগ্রেসন হল এমন একটি পদ্ধতি যার সাহায্যে আমরা হিসাব করতে পারি যে, হিসাবের সম্ভাবনা হল হিসাবের সংখ্যা = Success হিসাব এবং হিসাবের সংখ্যা = Failure হিসাব। এখানে, Y এর মান 0 থেকে 1 পর্যন্ত, এবং এটি নিম্নলিখিত সমীকরণ দ্বারা প্রকাশ করা যেতে পারে।

    odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
    ln(odds) = ln(p/(1-p))
    logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
    

    উপরের সূত্রের মধ্যে, p-র একটি নির্দিষ্ট বৈশিষ্ট্যের সম্ভাব্যতা রয়েছে। আপনি যদি প্রশ্ন করেন, তাহলে আমরা কেন log ব্যবহার করব?

    কারণ এখানে আমরা দ্বিপদী বন্টন ((ভেরিয়েবলের কারণে) ব্যবহার করছি, আমাদের একটি সংযোগ ফাংশন নির্বাচন করতে হবে যা এই বন্টনের জন্য সর্বোত্তম। এটি হল লগিট ফাংশন। উপরের সমীকরণে, প্যারামিটারটি বেছে নেওয়া হয়, যা একটি পর্যবেক্ষণের নমুনার অত্যন্ত অনুরূপ অনুমান দ্বারা নির্ধারিত হয়, বরং বর্গ এবং ত্রুটিকে হ্রাস করা হয় ((যেমন সাধারণ প্রত্যাবর্তনে ব্যবহৃত হয়) ।

    你应该掌握的七种回归技术

    পয়েন্টঃ

    • এটি ব্যাপকভাবে শ্রেণিবদ্ধকরণ সমস্যার জন্য ব্যবহৃত হয়।
    • লজিক্যাল রিগ্রেশন স্ব-ভেরিয়েবলের প্রয়োজন হয় না এবং কারণ ভেরিয়েবলটি একটি রৈখিক সম্পর্ক। এটি বিভিন্ন ধরণের সম্পর্ক পরিচালনা করতে পারে কারণ এটি ভবিষ্যদ্বাণী করা আপেক্ষিক ঝুঁকি সূচক OR এর জন্য একটি অ-রৈখিক লগ রূপান্তর ব্যবহার করে।
    • অত্যধিক ফিট এবং ফিট না হওয়ার জন্য, আমাদের সমস্ত গুরুত্বপূর্ণ ভেরিয়েবল অন্তর্ভুক্ত করা উচিত। এটি নিশ্চিত করার একটি ভাল উপায় হল ধাপে ধাপে ফিল্টারিং পদ্ধতি ব্যবহার করে লজিক্যাল রিগ্রেশন অনুমান করা।
    • এটির জন্য বড় পরিমাণে নমুনা প্রয়োজন, কারণ ছোট সংখ্যক নমুনার ক্ষেত্রে, খুব অনুরূপ অনুমানগুলি সাধারণ সর্বনিম্ন দ্বিগুণের চেয়ে খারাপ প্রভাব ফেলে।
    • স্বতন্ত্র ভেরিয়েবলগুলি একে অপরের সাথে সম্পর্কিত হওয়া উচিত নয়, অর্থাৎ একাধিক কো-লিনিয়ার নেই। তবে, বিশ্লেষণ এবং মডেলিংয়ে, আমরা শ্রেণিবদ্ধ ভেরিয়েবলগুলির মিথস্ক্রিয়া প্রভাবগুলি অন্তর্ভুক্ত করার বিকল্পটি বেছে নিতে পারি।
    • যদি ভেরিয়েবলের মানটি একটি অর্ডার করা ভেরিয়েবল হয়, তবে এটিকে অর্ডার লজিক্যাল রিগ্রেশন বলা হয়।
    • যদি ভেরিয়েবলের কারণে বহুবচন হয়, তবে এটিকে বহুবচন যৌক্তিক প্রত্যাবর্তন বলা হয়।
  • ৩. পলিনোমিয়াল রিগ্রেশন

    একটি প্রত্যাবর্তন সমীকরণের জন্য, যদি স্ব-ভেরিয়েবলের সূচক 1 এর চেয়ে বড় হয়, তবে এটি একটি বহুপদীয় প্রত্যাবর্তন সমীকরণ।

    y=a+b*x^2
    

    এই রিগ্রেশন প্রযুক্তিতে, সর্বোত্তম ফিট লাইনটি একটি সরলরেখা নয়; এটি একটি কার্ভ যা ডেটা পয়েন্টগুলিকে ফিট করার জন্য ব্যবহৃত হয়।

    你应该掌握的七种回归技术

    মূল বিষয়ঃ

    • যদিও একটি প্ররোচনা থাকবে যে একটি উচ্চতর বহুবচন ফর্মুলা ফিট করতে পারে এবং কম ত্রুটি পেতে পারে, তবে এটি ওভারফিট হতে পারে। আপনি প্রায়শই ফিটগুলি দেখতে সম্পর্কিত চার্টগুলি আঁকতে হবে এবং ফিটগুলি যুক্তিসঙ্গত, ওভারফিট বা অ-ফিট উভয়ই নিশ্চিত করার দিকে মনোনিবেশ করতে হবে। নীচে একটি চিত্র রয়েছে যা বোঝার জন্য সহায়তা করতে পারেঃ

    你应该掌握的七种回归技术

    • স্পষ্টতই উভয় প্রান্তে বক্ররেখা খুঁজুন এবং দেখুন যে এই আকার এবং প্রবণতাগুলি অর্থপূর্ণ কিনা; উচ্চতর বহুপদী শেষ পর্যন্ত অদ্ভুত ফলাফলের দিকে পরিচালিত করতে পারে।
  • 4. ধাপে ধাপে স্টেপওয়াইস রিগ্রেশন

    একাধিক স্বতন্ত্র ভেরিয়েবলের সাথে কাজ করার সময় আমরা এই ফর্মটি ব্যবহার করতে পারি। এই কৌশলটিতে, স্বতন্ত্র ভেরিয়েবল নির্বাচন একটি স্বয়ংক্রিয় প্রক্রিয়াতে সম্পন্ন হয়, যার মধ্যে অ-মানবিক অপারেশন অন্তর্ভুক্ত রয়েছে।

    এই কৃতিত্বটি হল পরিসংখ্যানের মানগুলি যেমন R-square, t-stats এবং AIC সূচকগুলি পর্যবেক্ষণ করে গুরুত্বপূর্ণ ভেরিয়েবলগুলি সনাক্ত করা। ধাপে ধাপে regression নির্দিষ্ট মানদণ্ডের উপর ভিত্তি করে একই সময়ে যোগ / অপসারণ সহ-ভেরিয়েবলগুলিকে মডেলের সাথে ফিট করে। নীচে কয়েকটি সর্বাধিক ব্যবহৃত ধাপে ধাপে regression পদ্ধতি তালিকাভুক্ত করা হয়েছেঃ

    • স্ট্যান্ডার্ড পিএসই রিগ্রেশন দুটি জিনিস করে; অর্থাৎ প্রতিটি ধাপে প্রয়োজনীয় পূর্বাভাস যোগ এবং অপসারণ করে।
    • ফরোয়ার্ড নির্বাচন পদ্ধতিটি মডেলের সবচেয়ে উল্লেখযোগ্য পূর্বাভাস দিয়ে শুরু করে এবং প্রতিটি ধাপের জন্য ভেরিয়েবল যুক্ত করে।
    • বিপরীতমুখী নির্মূল পদ্ধতিটি মডেলের সাথে সমস্ত পূর্বাভাসের সাথে একসাথে শুরু হয় এবং তারপরে প্রতিটি পদক্ষেপে সর্বনিম্ন উল্লেখযোগ্য ভেরিয়েবলগুলি বাদ দেয়।
    • এই মডেলিং কৌশলটির উদ্দেশ্য হল সর্বাধিক পূর্বাভাস দেওয়ার জন্য সর্বনিম্ন সংখ্যক পূর্বাভাস ভেরিয়েবল ব্যবহার করা। এটি উচ্চ মাত্রার ডেটাসেটগুলি পরিচালনা করার একটি উপায়।
  • ৫. রিজ রেগ্রেশন

    হিল রিগ্রেশন বিশ্লেষণ একটি প্রযুক্তি যা একাধিক সিনিলিনিক (ভেরিয়েবলের উচ্চতার সাথে সম্পর্কিত) ডেটা থাকার জন্য ব্যবহৃত হয়। একাধিক সিনিলিনিকের ক্ষেত্রে, যদিও সর্বনিম্ন দ্বিগুণ (ওএলএস) প্রতিটি ভেরিয়েবলের জন্য ন্যায়সঙ্গত, তবে তাদের পার্থক্য এত বেশি যে পর্যবেক্ষণের মানগুলি বিচ্যুত হয় এবং সত্যিকারের মান থেকে দূরে থাকে। হিল রিগ্রেশন হ্রাস করে স্ট্যান্ডার্ড ত্রুটি, রিগ্রেশন অনুমানকে একটি বিচ্যুতি বৃদ্ধি করে।

    উপরে, আমরা একটি লিনিয়ার রিগ্রেশন ইকুয়েশন দেখেছি। মনে আছে? এটা হতে পারেঃ

    y=a+ b*x
    

    এই সমীকরণের একটি ত্রুটিও রয়েছে।

    y=a+b*x+e (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value]
    => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
    

    একটি রৈখিক সমীকরণে, পূর্বাভাস ত্রুটি দুটি উপ-অংশে বিভক্ত করা যেতে পারে। একটি হল বিচ্যুতি এবং অন্যটি হল বিয়োগ। পূর্বাভাস ত্রুটিগুলি এই দুটি ভগ্নাংশ বা উভয়ই হতে পারে। এখানে আমরা বিয়োগের কারণে সংশ্লিষ্ট ত্রুটিগুলি নিয়ে আলোচনা করব।

    ল্যাম্বডা (λ) সংক্ষেপণ পরামিতির মাধ্যমে বহুগুণ সিনলাইন সমস্যা সমাধান করা হয়। নিচের সূত্রটি দেখুন।

    你应该掌握的七种回归技术

    এই সূত্রের দুটি উপাদান রয়েছে; প্রথমটি হল সর্বনিম্ন দ্বিগুণ, অন্যটি হল β2 ((β- বর্গ) এর গুণক λ, যেখানে β হল সংশ্লিষ্ট ক্রিয়াফল। সংকোচন পরামিতির জন্য এটিকে সর্বনিম্ন দ্বিগুণের মধ্যে যোগ করে একটি খুব কম ব্যাসার্ধ পাওয়া যায়।

    পয়েন্টঃ

    • ক্রমাগত পদ ব্যতীত, এই প্রত্যাবর্তনের অনুমানটি সর্বনিম্ন দ্বিগুণ প্রত্যাবর্তনের অনুরূপ;
    • এটি সংশ্লিষ্ট ফ্যাক্টরগুলির মানকে সঙ্কুচিত করে, কিন্তু শূন্যে পৌঁছায় না, যা দেখায় যে এটিতে বৈশিষ্ট্য নির্বাচন ফাংশন নেই
    • এটি একটি নিয়মিত পদ্ধতি এবং L2 নিয়মিত ব্যবহার করা হয়।
  • 6. লাসো রিগ্রেশন কোয়ালিটি রিগ্রেশন

    এটি হেক্টর রিগ্রেশন এর অনুরূপ, লাসো (Least Absolute Shrinkage and Selection Operator) এছাড়াও রিগ্রেশন কোয়ালিটি এর নিখুঁত মানের আকারকে শাস্তি দেয়। উপরন্তু, এটি পরিবর্তনের মাত্রা হ্রাস করতে এবং রৈখিক রিগ্রেশন মডেলের নির্ভুলতা উন্নত করতে সক্ষম। নিচের সূত্রটি দেখুনঃ

    你应该掌握的七种回归技术

    লাসো রিগ্রেশন রিজ রিগ্রেশনের থেকে কিছুটা আলাদা, এটির শাস্তি ফাংশনটি বর্গাকার নয়, তবে একটি নিখুঁত মান। এর ফলে শাস্তি (বা সীমাবদ্ধতা অনুমানগুলির নিখুঁত মানের যোগফলের সমান) মানগুলি কিছু পরামিতির অনুমানের ফলাফলকে শূন্য করে তোলে। শাস্তি মানগুলি ব্যবহার করা যত বড়, আরও অনুমানগুলি শূন্যের কাছাকাছি হ্রাস করে তোলে। এর ফলে আমাদের দেওয়া n টি ভেরিয়েবল থেকে ভেরিয়েবলগুলি বেছে নিতে হবে।

    পয়েন্টঃ

    • ক্রমাগত পদ ব্যতীত, এই প্রত্যাবর্তনের অনুমানটি সর্বনিম্ন দ্বিগুণ প্রত্যাবর্তনের অনুরূপ;
    • এটির সঙ্কুচিত কোয়ালিটি প্রায় শূন্য ((= শূন্য), যা বৈশিষ্ট্য নির্বাচনে সহায়তা করে;
    • এটি একটি নিয়মিত পদ্ধতি, যা L1 নিয়মিত ব্যবহার করে;
    • যদি একটি পূর্বাভাসের ভেরিয়েবল সেট অত্যন্ত প্রাসঙ্গিক হয়, তাহলে লাসো একটি ভেরিয়েবল বেছে নেবে এবং বাকিগুলোকে শূন্যে সঙ্কুচিত করবে।
  • 7.ElasticNet回归

    ইলাস্টিক নেট হল লাসো এবং রিজ রিগ্রেশন প্রযুক্তির একটি মিশ্রণ। এটি L1 ব্যবহার করে প্রশিক্ষণ দেয় এবং L2কে অগ্রাধিকার দেয়। যখন একাধিক সম্পর্কিত বৈশিষ্ট্য থাকে তখন ইলাস্টিক নেট দরকারী। লাসো তাদের মধ্যে একটিকে এলোমেলোভাবে বেছে নেয় এবং ইলাস্টিক নেট দুটি বেছে নেয়।

    你应该掌握的七种回归技术

    লাসো এবং রিজের মধ্যে বাস্তব সুবিধা হল যে এটি ইলাস্টিকনেটকে রিজের কিছু স্থিতিশীলতা লুপিং অবস্থায় উত্তরাধিকার করতে দেয়।

    পয়েন্টঃ

    • এটি উচ্চ-প্রাসঙ্গিক ভেরিয়েবলগুলির ক্ষেত্রে একটি গ্রুপ প্রভাব তৈরি করে;
    • কোন সীমাবদ্ধতা নেই।
    • এটি দ্বিগুণ সংকোচন সহ্য করতে পারে।
    • এই সাতটি সবচেয়ে বেশি ব্যবহৃত রিগ্রেশন প্রযুক্তি ছাড়াও, আপনি অন্যান্য মডেলগুলি যেমন বেয়েজিয়ান, ইকোলজিকাল এবং রোবস্ট রিগ্রেশন দেখতে পারেন।
  • কিভাবে সঠিকভাবে রিগ্রেশন মডেল নির্বাচন করবেন?

    আপনি যখন কেবলমাত্র একটি বা দুটি কৌশল জানেন তখন জীবনটি প্রায়শই সহজ হয়। আমি জানি একটি প্রশিক্ষণ সংস্থা তাদের শিক্ষার্থীদের বলেছিল যে ফলাফলটি ধারাবাহিক হলে রৈখিক রিগ্রেশন ব্যবহার করুন। যদি এটি দ্বৈত হয় তবে যৌক্তিক রিগ্রেশন ব্যবহার করুন! তবে আমাদের প্রক্রিয়াকরণে যত বেশি পছন্দ করা যায় ততই সঠিকটি বেছে নেওয়া কঠিন। অনুরূপ পরিস্থিতি রিগ্রেশন মডেলগুলিতেও ঘটে।

    মাল্টি-ক্লাস রিগ্রেশন মডেলের ক্ষেত্রে, স্ব-ভেরিয়েবল এবং ভেরিয়েবলের ধরণ, ডেটার মাত্রা এবং ডেটার অন্যান্য মৌলিক বৈশিষ্ট্যগুলির উপর ভিত্তি করে সবচেয়ে উপযুক্ত কৌশলটি বেছে নেওয়া অত্যন্ত গুরুত্বপূর্ণ। নিচে সঠিক রিগ্রেশন মডেলটি বেছে নেওয়ার জন্য গুরুত্বপূর্ণ বিষয়গুলি রয়েছেঃ

    ডেটা অন্বেষণ ভবিষ্যদ্বাণীমূলক মডেল নির্মাণের একটি অনিবার্য অংশ। এটি উপযুক্ত মডেল নির্বাচন করার সময়, যেমন ভেরিয়েবলের সম্পর্ক এবং প্রভাব সনাক্ত করার সময়, এটি একটি অগ্রাধিকার পদক্ষেপ হওয়া উচিত।

    বিভিন্ন মডেলের মধ্যে তুলনামূলকভাবে উপযুক্ত উপকারিতা হ'ল আমরা বিভিন্ন সূচক প্যারামিটার যেমন পরিসংখ্যানগত অর্থের প্যারামিটার, আর-স্কয়ার, অ্যাডজাস্টড আর-স্কয়ার, এআইসি, বিআইসি এবং ত্রুটি পয়েন্টগুলি বিশ্লেষণ করতে পারি, অন্যটি হল ম্যালাউস পিল সিপি নির্দেশিকা। এটি মূলত মডেলটি সমস্ত সম্ভাব্য উপমডেলের সাথে তুলনা করে (বা তাদের সাবধানে নির্বাচন করে) আপনার মডেলের মধ্যে সম্ভাব্য বিচ্যুতি পরীক্ষা করে।

    ক্রস-ভেরিফিকেশন হল পূর্বাভাস মডেলের মূল্যায়নের সর্বোত্তম পদ্ধতি। এখানে, আপনার ডেটাসেটকে দুটি ভাগে ভাগ করুন (একটি প্রশিক্ষণ এবং একটি যাচাইকরণ) । আপনার পূর্বাভাসের নির্ভুলতা পরিমাপ করতে পর্যবেক্ষণের মান এবং পূর্বাভাসের মানের মধ্যে একটি সহজ গড় পার্থক্য ব্যবহার করুন।

    যদি আপনার ডাটাসেটটি একাধিক মিশ্র ভেরিয়েবল হয়, তাহলে আপনি স্বয়ংক্রিয় মডেল নির্বাচন পদ্ধতিটি বেছে নেবেন না, কারণ আপনি একই সময়ে সমস্ত ভেরিয়েবলকে একই মডেলের মধ্যে রাখতে চান না।

    এটি আপনার উদ্দেশ্যের উপরও নির্ভর করবে। এমন পরিস্থিতিও হতে পারে যে একটি কম শক্তিশালী মডেল উচ্চ পরিসংখ্যানগত গুরুত্বের মডেলের তুলনায় বাস্তবায়ন করা সহজ।

    রেগ্রেশন রুলারাইজেশন পদ্ধতি (লাসো, রিজ এবং ইলাস্টিক নেট) উচ্চ মাত্রা এবং ডেটাসেট ভেরিয়েবলগুলির মধ্যে একাধিক সিওলিনিয়ারের ক্ষেত্রে ভাল কাজ করে।

সিএসডিএন থেকে পুনর্নির্দেশিত


আরও দেখুন