এই নিবন্ধটি রেগনেশন বিশ্লেষণ এবং এর সুবিধাগুলি ব্যাখ্যা করে, সর্বাধিক ব্যবহৃত সাতটি রেগনেশন কৌশল এবং তাদের মূল উপাদানগুলির উপর জোর দেয়, যেমন লিনিয়ার রেগনেশন, লজিক্যাল রেগনেশন, মাল্টিপ্লেয়ার রেগনেশন, ধাপে ধাপে রেগনেশন, অ্যালুমিনিয়াম রেগনেশন, সুইচ রেগনেশন, ইলাস্টিক নেট রেগনেশন এবং অবশেষে সঠিক রেগনেশন মডেলটি বেছে নেওয়ার মূল উপাদানগুলি। ** ** প্যাটার্ন কম্পাইলার বাটন রিগ্রেশন বিশ্লেষণ মডেলিং এবং বিশ্লেষণের জন্য একটি গুরুত্বপূর্ণ সরঞ্জাম। এই নিবন্ধটি প্যাটার্ন রিগ্রেশন বিশ্লেষণের অর্থ এবং এর সুবিধাগুলি ব্যাখ্যা করে, যা লিনিয়ার রিগ্রেশন, লজিক্যাল রিগ্রেশন, মাল্টিপ্লেয়ার রিগ্রেশন, ধাপে ধাপে রিগ্রেশন, প্যাটার্ন রিগ্রেশন, সুইচ রিগ্রেশন, ইলাস্টিক নেট রিগ্রেশন এবং এর মূল উপাদানগুলির মধ্যে সর্বাধিক ব্যবহৃত সাতটি রিগ্রেশন কৌশল এবং তাদের মূল উপাদানগুলির উপর জোর দেয়।
রিগ্রেশন অ্যানালিসিস একটি পূর্বাভাস মডেলিং কৌশল যা কারণ ভেরিয়েবল (গ্রেড) এবং স্ব-ভেরিয়েবল (প্রাক্কলক) এর মধ্যে সম্পর্ক অধ্যয়ন করে। এই কৌশলটি সাধারণত পূর্বাভাস বিশ্লেষণ, সময়কালের ক্রম মডেল এবং আবিষ্কৃত ভেরিয়েবলগুলির মধ্যে কারণ সম্পর্কগুলির জন্য ব্যবহৃত হয়। উদাহরণস্বরূপ, ড্রাইভারের বেপরোয়া ড্রাইভিং এবং সড়ক ট্র্যাফিক দুর্ঘটনার সংখ্যার মধ্যে সম্পর্ক, সর্বোত্তম গবেষণা পদ্ধতি হল রিগ্রেশন।
রিগ্রেশন অ্যানালিসিস হল মডেলিং এবং বিশ্লেষণের জন্য একটি গুরুত্বপূর্ণ সরঞ্জাম। এখানে, আমরা কার্ভ/লাইন ব্যবহার করে এই ডেটা পয়েন্টগুলিকে ফিট করি, এইভাবে, কার্ভ বা লাইন থেকে ডেটা পয়েন্টের দূরত্বের পার্থক্য সর্বনিম্ন। আমি পরবর্তী বিভাগে এটি বিস্তারিতভাবে ব্যাখ্যা করব।
উপরে উল্লিখিত হিসাবে, রিগ্রেশন অ্যানালিসিস দুই বা ততোধিক ভেরিয়েবলের মধ্যে সম্পর্ক অনুমান করে। নীচে, এটি বোঝার জন্য একটি সহজ উদাহরণ দেওয়া যাকঃ
উদাহরণস্বরূপ, বর্তমান অর্থনৈতিক পরিস্থিতিতে, আপনি একটি কোম্পানির বিক্রয় বৃদ্ধির অনুমান করতে চান। এখন, আপনার কাছে কোম্পানির সর্বশেষ তথ্য রয়েছে যা দেখায় যে বিক্রয় বৃদ্ধির পরিমাণ অর্থনৈতিক বৃদ্ধির তুলনায় প্রায় ২.৫ গুণ বেশি। তাহলে রিগ্রেশন বিশ্লেষণ ব্যবহার করে, আমরা বর্তমান এবং অতীতের তথ্যের ভিত্তিতে ভবিষ্যতের কোম্পানির বিক্রয় বৃদ্ধির পূর্বাভাস দিতে পারি।
রিগ্রেশন অ্যানালিসিসের অনেক সুবিধা রয়েছে।
এটি স্ব-ভেরিয়েবল এবং কারন-ভেরিয়েবলের মধ্যে উল্লেখযোগ্য সম্পর্ক দেখায়;
এটি একটি ভেরিয়েবলের উপর একাধিক স্ব-ভেরিয়েবলের প্রভাবের তীব্রতা নির্দেশ করে।
রিগ্রেশনাল অ্যানালিটিক্স আমাদের বিভিন্ন স্কেলের ভেরিয়েবলগুলির মধ্যে পারস্পরিক প্রভাবগুলির তুলনা করার অনুমতি দেয়, যেমন দামের পরিবর্তন এবং প্রচারের সংখ্যার মধ্যে সম্পর্ক। এগুলি বাজার গবেষক, ডেটা বিশ্লেষক এবং ডেটা বিজ্ঞানীকে পূর্বাভাস মডেল তৈরির জন্য সর্বোত্তম ভেরিয়েবলগুলির একটি সেট বাদ দিতে এবং অনুমান করতে সহায়তা করে।
পূর্বাভাসের জন্য বিভিন্ন ধরণের রিগ্রেশন কৌশল রয়েছে। এই কৌশলগুলির প্রধানত তিনটি পরিমাপ রয়েছে (স্ব-ভেরিয়েবলের সংখ্যা, ভেরিয়েবলের ধরণ এবং রিগ্রেশন লাইনের আকৃতির কারণে) । আমরা নীচের বিভাগে তাদের বিস্তারিতভাবে আলোচনা করব।
সৃজনশীলদের জন্য, আপনি যদি উপরের প্যারামিটারগুলির সংমিশ্রণটি ব্যবহার করার প্রয়োজন বোধ করেন তবে আপনি একটি অব্যবহৃত রিগ্রেশন মডেলও তৈরি করতে পারেন। তবে আপনি শুরু করার আগে, এখানে সর্বাধিক ব্যবহৃত রিগ্রেশন পদ্ধতিগুলি সম্পর্কে জানুনঃ
এটি সবচেয়ে পরিচিত মডেলিং কৌশলগুলির মধ্যে একটি। লিনিয়ার রিগ্রেশন সাধারণত ভবিষ্যদ্বাণী মডেল শেখার সময় পছন্দের কৌশলগুলির মধ্যে একটি। এই পদ্ধতিতে, কারণ ভেরিয়েবলগুলি ধারাবাহিক, স্ব-ভেরিয়েবলগুলি ধারাবাহিক বা বিচ্ছিন্ন হতে পারে, রিগ্রেশন লাইনের বৈশিষ্ট্যগুলি লিনিয়ার।
রৈখিক প্রত্যাবর্তন সর্বোত্তম ফিটিং রেখার (অর্থাৎ প্রত্যাবর্তন রেখার) ব্যবহার করে কার্যকরী ভেরিয়েবল (Y) এবং এক বা একাধিক স্ব-ভেরিয়েবল (X) এর মধ্যে একটি সম্পর্ক স্থাপন করে।
এটি একটি সমীকরণ দ্বারা প্রতিনিধিত্ব করা হয়, যা Y = a + b * X + e, যেখানে a হ'ল ছেদ, b হ'ল একটি সরলরেখার ঢাল, এবং e হ'ল একটি ত্রুটির ক্রিয়া। এই সমীকরণটি প্রদত্ত পূর্বাভাস ভেরিয়েবল ((s) এর উপর ভিত্তি করে লক্ষ্য ভেরিয়েবলের মান পূর্বাভাস দিতে পারে।
একরৈখিক রেগ্রেসন এবং বহু-রৈখিক রেগ্রেসন এর পার্থক্য হল যে, বহু-রৈখিক রেগ্রেসন এর (<1) একটি স্ব-ভেরিয়েবল থাকে, যখন একরৈখিক রেগ্রেসন সাধারণত মাত্র একটি স্ব-ভেরিয়েবল থাকে। এখন প্রশ্ন হল কিভাবে আমরা একটি সর্বোত্তম ফিট লাইন পাব?
কিভাবে সেরা ফিট লাইন (a এবং b এর মান) পাওয়া যায়?
এই সমস্যাটি সহজেই সর্বনিম্ন দ্বিগুণের সাহায্যে সম্পন্ন করা যেতে পারে। সর্বনিম্ন দ্বিগুণ হল সবচেয়ে সাধারণ পদ্ধতি যা regression line-fitting-এর জন্য ব্যবহৃত হয়। পর্যবেক্ষণের জন্য, এটি প্রতিটি ডেটা পয়েন্ট থেকে লাইন পর্যন্ত উল্লম্ব বিচ্যুতির বর্গাকার যোগফলকে সর্বনিম্ন করে সর্বোত্তম ফিট লাইন গণনা করে। কারণ যোগ করার সময়, বিচ্যুতিটি প্রথম বর্গাকার হয়, তাই ধনাত্মক এবং নেতিবাচক মানগুলি অফসেট হয় না।
আমরা R-square ইন্ডিকেটর ব্যবহার করে মডেলের পারফরম্যান্স মূল্যায়ন করতে পারি। এই ইন্ডিকেটর সম্পর্কে বিস্তারিত জানতে, আপনি পড়তে পারেনঃ মডেল পারফরম্যান্স ইন্ডিকেটর পার্ট 1, পার্ট 2।
পয়েন্টঃ
লজিক্যাল রেগ্রেসন হল এমন একটি পদ্ধতি যার সাহায্যে আমরা হিসাব করতে পারি যে, হিসাবের সম্ভাবনা হল হিসাবের সংখ্যা = Success হিসাব এবং হিসাবের সংখ্যা = Failure হিসাব। এখানে, Y এর মান 0 থেকে 1 পর্যন্ত, এবং এটি নিম্নলিখিত সমীকরণ দ্বারা প্রকাশ করা যেতে পারে।
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
উপরের সূত্রের মধ্যে, p-র একটি নির্দিষ্ট বৈশিষ্ট্যের সম্ভাব্যতা রয়েছে। আপনি যদি প্রশ্ন করেন, তাহলে আমরা কেন log ব্যবহার করব?
কারণ এখানে আমরা দ্বিপদী বন্টন ((ভেরিয়েবলের কারণে) ব্যবহার করছি, আমাদের একটি সংযোগ ফাংশন নির্বাচন করতে হবে যা এই বন্টনের জন্য সর্বোত্তম। এটি হল লগিট ফাংশন। উপরের সমীকরণে, প্যারামিটারটি বেছে নেওয়া হয়, যা একটি পর্যবেক্ষণের নমুনার অত্যন্ত অনুরূপ অনুমান দ্বারা নির্ধারিত হয়, বরং বর্গ এবং ত্রুটিকে হ্রাস করা হয় ((যেমন সাধারণ প্রত্যাবর্তনে ব্যবহৃত হয়) ।
পয়েন্টঃ
একটি প্রত্যাবর্তন সমীকরণের জন্য, যদি স্ব-ভেরিয়েবলের সূচক 1 এর চেয়ে বড় হয়, তবে এটি একটি বহুপদীয় প্রত্যাবর্তন সমীকরণ।
y=a+b*x^2
এই রিগ্রেশন প্রযুক্তিতে, সর্বোত্তম ফিট লাইনটি একটি সরলরেখা নয়; এটি একটি কার্ভ যা ডেটা পয়েন্টগুলিকে ফিট করার জন্য ব্যবহৃত হয়।
মূল বিষয়ঃ
একাধিক স্বতন্ত্র ভেরিয়েবলের সাথে কাজ করার সময় আমরা এই ফর্মটি ব্যবহার করতে পারি। এই কৌশলটিতে, স্বতন্ত্র ভেরিয়েবল নির্বাচন একটি স্বয়ংক্রিয় প্রক্রিয়াতে সম্পন্ন হয়, যার মধ্যে অ-মানবিক অপারেশন অন্তর্ভুক্ত রয়েছে।
এই কৃতিত্বটি হল পরিসংখ্যানের মানগুলি যেমন R-square, t-stats এবং AIC সূচকগুলি পর্যবেক্ষণ করে গুরুত্বপূর্ণ ভেরিয়েবলগুলি সনাক্ত করা। ধাপে ধাপে regression নির্দিষ্ট মানদণ্ডের উপর ভিত্তি করে একই সময়ে যোগ / অপসারণ সহ-ভেরিয়েবলগুলিকে মডেলের সাথে ফিট করে। নীচে কয়েকটি সর্বাধিক ব্যবহৃত ধাপে ধাপে regression পদ্ধতি তালিকাভুক্ত করা হয়েছেঃ
হিল রিগ্রেশন বিশ্লেষণ একটি প্রযুক্তি যা একাধিক সিনিলিনিক (ভেরিয়েবলের উচ্চতার সাথে সম্পর্কিত) ডেটা থাকার জন্য ব্যবহৃত হয়। একাধিক সিনিলিনিকের ক্ষেত্রে, যদিও সর্বনিম্ন দ্বিগুণ (ওএলএস) প্রতিটি ভেরিয়েবলের জন্য ন্যায়সঙ্গত, তবে তাদের পার্থক্য এত বেশি যে পর্যবেক্ষণের মানগুলি বিচ্যুত হয় এবং সত্যিকারের মান থেকে দূরে থাকে। হিল রিগ্রেশন হ্রাস করে স্ট্যান্ডার্ড ত্রুটি, রিগ্রেশন অনুমানকে একটি বিচ্যুতি বৃদ্ধি করে।
উপরে, আমরা একটি লিনিয়ার রিগ্রেশন ইকুয়েশন দেখেছি। মনে আছে? এটা হতে পারেঃ
y=a+ b*x
এই সমীকরণের একটি ত্রুটিও রয়েছে।
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
একটি রৈখিক সমীকরণে, পূর্বাভাস ত্রুটি দুটি উপ-অংশে বিভক্ত করা যেতে পারে। একটি হল বিচ্যুতি এবং অন্যটি হল বিয়োগ। পূর্বাভাস ত্রুটিগুলি এই দুটি ভগ্নাংশ বা উভয়ই হতে পারে। এখানে আমরা বিয়োগের কারণে সংশ্লিষ্ট ত্রুটিগুলি নিয়ে আলোচনা করব।
ল্যাম্বডা (λ) সংক্ষেপণ পরামিতির মাধ্যমে বহুগুণ সিনলাইন সমস্যা সমাধান করা হয়। নিচের সূত্রটি দেখুন।
এই সূত্রের দুটি উপাদান রয়েছে; প্রথমটি হল সর্বনিম্ন দ্বিগুণ, অন্যটি হল β2 ((β- বর্গ) এর গুণক λ, যেখানে β হল সংশ্লিষ্ট ক্রিয়াফল। সংকোচন পরামিতির জন্য এটিকে সর্বনিম্ন দ্বিগুণের মধ্যে যোগ করে একটি খুব কম ব্যাসার্ধ পাওয়া যায়।
পয়েন্টঃ
এটি হেক্টর রিগ্রেশন এর অনুরূপ, লাসো (Least Absolute Shrinkage and Selection Operator) এছাড়াও রিগ্রেশন কোয়ালিটি এর নিখুঁত মানের আকারকে শাস্তি দেয়। উপরন্তু, এটি পরিবর্তনের মাত্রা হ্রাস করতে এবং রৈখিক রিগ্রেশন মডেলের নির্ভুলতা উন্নত করতে সক্ষম। নিচের সূত্রটি দেখুনঃ
লাসো রিগ্রেশন রিজ রিগ্রেশনের থেকে কিছুটা আলাদা, এটির শাস্তি ফাংশনটি বর্গাকার নয়, তবে একটি নিখুঁত মান। এর ফলে শাস্তি (বা সীমাবদ্ধতা অনুমানগুলির নিখুঁত মানের যোগফলের সমান) মানগুলি কিছু পরামিতির অনুমানের ফলাফলকে শূন্য করে তোলে। শাস্তি মানগুলি ব্যবহার করা যত বড়, আরও অনুমানগুলি শূন্যের কাছাকাছি হ্রাস করে তোলে। এর ফলে আমাদের দেওয়া n টি ভেরিয়েবল থেকে ভেরিয়েবলগুলি বেছে নিতে হবে।
পয়েন্টঃ
ইলাস্টিক নেট হল লাসো এবং রিজ রিগ্রেশন প্রযুক্তির একটি মিশ্রণ। এটি L1 ব্যবহার করে প্রশিক্ষণ দেয় এবং L2কে অগ্রাধিকার দেয়। যখন একাধিক সম্পর্কিত বৈশিষ্ট্য থাকে তখন ইলাস্টিক নেট দরকারী। লাসো তাদের মধ্যে একটিকে এলোমেলোভাবে বেছে নেয় এবং ইলাস্টিক নেট দুটি বেছে নেয়।
লাসো এবং রিজের মধ্যে বাস্তব সুবিধা হল যে এটি ইলাস্টিকনেটকে রিজের কিছু স্থিতিশীলতা লুপিং অবস্থায় উত্তরাধিকার করতে দেয়।
পয়েন্টঃ
কিভাবে সঠিকভাবে রিগ্রেশন মডেল নির্বাচন করবেন?
আপনি যখন কেবলমাত্র একটি বা দুটি কৌশল জানেন তখন জীবনটি প্রায়শই সহজ হয়। আমি জানি একটি প্রশিক্ষণ সংস্থা তাদের শিক্ষার্থীদের বলেছিল যে ফলাফলটি ধারাবাহিক হলে রৈখিক রিগ্রেশন ব্যবহার করুন। যদি এটি দ্বৈত হয় তবে যৌক্তিক রিগ্রেশন ব্যবহার করুন! তবে আমাদের প্রক্রিয়াকরণে যত বেশি পছন্দ করা যায় ততই সঠিকটি বেছে নেওয়া কঠিন। অনুরূপ পরিস্থিতি রিগ্রেশন মডেলগুলিতেও ঘটে।
মাল্টি-ক্লাস রিগ্রেশন মডেলের ক্ষেত্রে, স্ব-ভেরিয়েবল এবং ভেরিয়েবলের ধরণ, ডেটার মাত্রা এবং ডেটার অন্যান্য মৌলিক বৈশিষ্ট্যগুলির উপর ভিত্তি করে সবচেয়ে উপযুক্ত কৌশলটি বেছে নেওয়া অত্যন্ত গুরুত্বপূর্ণ। নিচে সঠিক রিগ্রেশন মডেলটি বেছে নেওয়ার জন্য গুরুত্বপূর্ণ বিষয়গুলি রয়েছেঃ
ডেটা অন্বেষণ ভবিষ্যদ্বাণীমূলক মডেল নির্মাণের একটি অনিবার্য অংশ। এটি উপযুক্ত মডেল নির্বাচন করার সময়, যেমন ভেরিয়েবলের সম্পর্ক এবং প্রভাব সনাক্ত করার সময়, এটি একটি অগ্রাধিকার পদক্ষেপ হওয়া উচিত।
বিভিন্ন মডেলের মধ্যে তুলনামূলকভাবে উপযুক্ত উপকারিতা হ'ল আমরা বিভিন্ন সূচক প্যারামিটার যেমন পরিসংখ্যানগত অর্থের প্যারামিটার, আর-স্কয়ার, অ্যাডজাস্টড আর-স্কয়ার, এআইসি, বিআইসি এবং ত্রুটি পয়েন্টগুলি বিশ্লেষণ করতে পারি, অন্যটি হল ম্যালাউস পিল সিপি নির্দেশিকা। এটি মূলত মডেলটি সমস্ত সম্ভাব্য উপমডেলের সাথে তুলনা করে (বা তাদের সাবধানে নির্বাচন করে) আপনার মডেলের মধ্যে সম্ভাব্য বিচ্যুতি পরীক্ষা করে।
ক্রস-ভেরিফিকেশন হল পূর্বাভাস মডেলের মূল্যায়নের সর্বোত্তম পদ্ধতি। এখানে, আপনার ডেটাসেটকে দুটি ভাগে ভাগ করুন (একটি প্রশিক্ষণ এবং একটি যাচাইকরণ) । আপনার পূর্বাভাসের নির্ভুলতা পরিমাপ করতে পর্যবেক্ষণের মান এবং পূর্বাভাসের মানের মধ্যে একটি সহজ গড় পার্থক্য ব্যবহার করুন।
যদি আপনার ডাটাসেটটি একাধিক মিশ্র ভেরিয়েবল হয়, তাহলে আপনি স্বয়ংক্রিয় মডেল নির্বাচন পদ্ধতিটি বেছে নেবেন না, কারণ আপনি একই সময়ে সমস্ত ভেরিয়েবলকে একই মডেলের মধ্যে রাখতে চান না।
এটি আপনার উদ্দেশ্যের উপরও নির্ভর করবে। এমন পরিস্থিতিও হতে পারে যে একটি কম শক্তিশালী মডেল উচ্চ পরিসংখ্যানগত গুরুত্বের মডেলের তুলনায় বাস্তবায়ন করা সহজ।
রেগ্রেশন রুলারাইজেশন পদ্ধতি (লাসো, রিজ এবং ইলাস্টিক নেট) উচ্চ মাত্রা এবং ডেটাসেট ভেরিয়েবলগুলির মধ্যে একাধিক সিওলিনিয়ারের ক্ষেত্রে ভাল কাজ করে।
সিএসডিএন থেকে পুনর্নির্দেশিত