মেশিন লার্নিং-এ, লক্ষ্য হয় পূর্বাভাস (prediction) বা ক্লাস্টারিং (clustering) । এই নিবন্ধটি পূর্বাভাসের উপর দৃষ্টি নিবদ্ধ করে। পূর্বাভাস হ'ল ইনপুট ভেরিয়েবলগুলির একটি সেট থেকে আউটপুট ভেরিয়েবলের মান পূর্বাভাস দেওয়ার প্রক্রিয়া। উদাহরণস্বরূপ, একটি সম্পৃক্ত সম্পত্তির একটি সেট পেয়ে আমরা এর বিক্রয় মূল্য পূর্বাভাস দিতে পারি। পূর্বাভাস সমস্যা দুটি প্রধান বিভাগে বিভক্ত করা যেতে পারেঃ ১. রিগ্রেসন সমস্যাঃ যেখানে পূর্বাভাস দেওয়া ভেরিয়েবলগুলি সংখ্যাগত (যেমন একটি বাড়ির দাম); ২. শ্রেণিবদ্ধকরণ সমস্যাঃ যেখানে পূর্বাভাস দেওয়া ভেরিয়েবলগুলি হয় হ্যাঁ/না উত্তর (যেমন একটি সরঞ্জাম ব্যর্থ হবে কিনা) । এটি বোঝার পর, আসুন আমরা মেশিন লার্নিং এর সবচেয়ে গুরুত্বপূর্ণ এবং সাধারণভাবে ব্যবহৃত অ্যালগরিদমগুলি দেখি। আমরা এই অ্যালগরিদমগুলিকে তিনটি শ্রেণীতে ভাগ করেছিঃ লিনিয়ার মডেল, ট্রি-ভিত্তিক মডেল এবং নিউরাল নেটওয়ার্ক।
রৈখিক প্রত্যাবর্তন, বা আরও সঠিকভাবে বলা যায়, মেশিন লার্নিং এর সর্বনিম্ন দ্বিগুণ প্রত্যাবর্তন, রৈখিক মডেলের সবচেয়ে স্ট্যান্ডার্ড ফর্ম। রেগ্রেশন সমস্যার জন্য, রৈখিক প্রত্যাবর্তন হল সবচেয়ে সহজ রৈখিক মডেল। এর অসুবিধা হল যে মডেলটি সহজেই ওভারফিট হয়, অর্থাৎ মডেলটি পুরোপুরি প্রশিক্ষিত ডেটাতে অনুকূল হয়, নতুন ডেটাতে প্রসারিত করার ক্ষমতার বিনিময়ে। সুতরাং, মেশিন লার্নিং এর রৈখিক প্রত্যাবর্তন (এবং লজিক্যাল রিগ্রেশন যা আমরা পরে আলোচনা করব) প্রায়শই রৈখিকভাবে মেশিনযুক্ত হয়, যার অর্থ মডেলটি ওভারফিট প্রতিরোধ করার জন্য একটি নির্দিষ্ট শাস্তি রয়েছে।
লিনিয়ার মডেলগুলির আরেকটি অসুবিধা হল যেহেতু তারা খুব সহজ, তাই যখন ইনপুট ভেরিয়েবলগুলি স্বাধীন নয় তখন তারা সহজেই আরও জটিল আচরণ পূর্বাভাস দেয়।
লজিক্যাল রিগ্রেশন হল শ্রেণীবিভাজন সমস্যার জন্য লিনিয়ার রিগ্রেশনের একটি অভিযোজন। লজিক্যাল রিগ্রেশনের অসুবিধা হল লিনিয়ার রিগ্রেশনের মতো। লজিক্যাল ফাংশন শ্রেণীবিভাজন সমস্যার জন্য খুব ভাল, কারণ এটি থ্রেশহোল্ড প্রভাব প্রবর্তন করে।
সিদ্ধান্ত গাছ হল একটি শাখা পদ্ধতি ব্যবহার করে সিদ্ধান্তের প্রতিটি সম্ভাব্য ফলাফল প্রদর্শন করা। উদাহরণস্বরূপ, আপনি একটি সালাদ অর্ডার করার সিদ্ধান্ত নিয়েছেন এবং আপনার প্রথম সিদ্ধান্তটি সম্ভবত কাঁচা শাকসব্জির ধরণের, তারপরে স্বাদযুক্ত শাকসব্জি, তারপরে সালাদ পনিরগুলির ধরণের। আমরা একটি সিদ্ধান্ত গাছের মধ্যে সমস্ত সম্ভাব্য ফলাফল প্রদর্শন করতে পারি।
সিদ্ধান্তের গাছকে প্রশিক্ষণ দেওয়ার জন্য, আমাদের প্রশিক্ষণ ডেটাসেটটি ব্যবহার করতে হবে এবং লক্ষ্যের জন্য যে বৈশিষ্ট্যটি সবচেয়ে দরকারী তা খুঁজে বের করতে হবে। উদাহরণস্বরূপ, জালিয়াতি সনাক্তকরণের ব্যবহারের ক্ষেত্রে, আমরা দেখতে পাব যে দেশটি জালিয়াতির ঝুঁকি পূর্বাভাসের ক্ষেত্রে সবচেয়ে বেশি প্রভাব ফেলে। প্রথম বৈশিষ্ট্যটি দিয়ে শাখা করার পরে, আমরা দুটি উপসেট পাই, যা আমরা কেবলমাত্র প্রথম বৈশিষ্ট্যটি জানার পরে সবচেয়ে সঠিকভাবে পূর্বাভাস দিতে পারি। তারপরে আমরা দ্বিতীয়টি খুঁজে পাই যা এই দুটি উপসেটের সাথে শাখা করতে পারে, আবার বিভক্ত করুন, এবং তাই যতক্ষণ না পর্যাপ্ত বৈশিষ্ট্যগুলি লক্ষ্যের চাহিদা পূরণ করে।
এলোমেলো বন হল অনেকগুলি সিদ্ধান্ত গাছের গড়, যেখানে প্রতিটি সিদ্ধান্ত গাছকে এলোমেলো তথ্য নমুনার সাথে প্রশিক্ষণ দেওয়া হয়। এলোমেলো বনগুলির প্রতিটি গাছ একটি সম্পূর্ণ সিদ্ধান্ত গাছের চেয়ে দুর্বল, তবে সমস্ত গাছকে একসাথে রেখে, বৈচিত্র্যের সুবিধার কারণে আমরা আরও ভাল সামগ্রিক পারফরম্যান্স পেতে পারি।
র্যান্ডম ফরেস্ট আজ মেশিন লার্নিংয়ের একটি খুব জনপ্রিয় অ্যালগরিদম। র্যান্ডম ফরেস্টকে প্রশিক্ষণ দেওয়া সহজ এবং এটি বেশ ভাল পারফর্ম করে। এর অসুবিধাটি হ'ল অন্যান্য অ্যালগরিদমের তুলনায় র্যান্ডম ফরেস্ট আউটপুট পূর্বাভাসগুলি ধীর হতে পারে, তাই দ্রুত পূর্বাভাস প্রয়োজন হলে র্যান্ডম ফরেস্টটি বেছে নেওয়া হতে পারে না।
গ্রেডিয়েন্ট বুস্টিং (Gradient Boosting), যা র্যান্ডম ফরেস্টের মতো, দুর্বল চক্রের সিদ্ধান্তের গাছের সমন্বয়ে গঠিত। গ্রেডিয়েন্ট বুস্টিং এবং র্যান্ডম ফরেস্টের মধ্যে সবচেয়ে বড় পার্থক্য হ'ল গ্রেডিয়েন্ট বুস্টিং-এ গাছগুলি একের পর এক প্রশিক্ষিত হয়। প্রতিটি পিছনের গাছকে মূলত সামনের গাছটি ভুল তথ্য সনাক্ত করে প্রশিক্ষণ দেওয়া হয়। এটি গ্রেডিয়েন্ট বুস্টিংকে সহজেই ভবিষ্যদ্বাণীযোগ্য পরিস্থিতিতে বেশি মনোযোগ দেয় এবং কম কঠিন পরিস্থিতিতে বেশি মনোযোগ দেয়।
গ্রেডিয়েন্ট উত্তোলনের প্রশিক্ষণও দ্রুত এবং খুব ভাল। তবে, প্রশিক্ষণ ডেটাসেটের ক্ষুদ্র পরিবর্তনগুলি মডেলটিতে মৌলিক পরিবর্তন আনতে পারে, তাই এটির ফলাফলগুলি সম্ভবত সবচেয়ে কার্যকর নাও হতে পারে।
বিগ ডেটা প্ল্যাটফর্ম থেকে পুনর্নির্দেশিত