মেশিন লার্নিংয়ের প্রধান ৩টি শ্রেণীকরণের প্রধান ৬টি অ্যালগরিদমের সুবিধা ও অসুবিধা

লেখক:উদ্ভাবকগণ - ক্যোটিফিকেশন - ছোট্ট স্বপ্ন, তৈরিঃ 2017-10-30 12:01:59, আপডেটঃ 2017-11-08 13:55:03

মেশিন লার্নিংয়ের প্রধান ৩টি শ্রেণীকরণের প্রধান ৬টি অ্যালগরিদমের সুবিধা ও অসুবিধা

মেশিন লার্নিং-এ, লক্ষ্য হয় পূর্বাভাস (prediction) বা ক্লাস্টারিং (clustering) । এই নিবন্ধটি পূর্বাভাসের উপর দৃষ্টি নিবদ্ধ করে। পূর্বাভাস হ'ল ইনপুট ভেরিয়েবলগুলির একটি সেট থেকে আউটপুট ভেরিয়েবলের মান অনুমান করার প্রক্রিয়া। উদাহরণস্বরূপ, একটি সম্পৃক্ত সম্পত্তির একটি সেট পেয়ে আমরা এর বিক্রয় মূল্যের পূর্বাভাস দিতে পারি। পূর্বাভাস সমস্যা দুটি প্রধান শ্রেণিতে বিভক্ত হতে পারেঃ ১. রিগ্রেসন সমস্যাঃ যেখানে পূর্বাভাস দেওয়া ভেরিয়েবলগুলি সংখ্যাগত (যেমন একটি বাড়ির দাম); ২. শ্রেণিবদ্ধকরণ সমস্যাঃ যেখানে পূর্বাভাস দেওয়া ভেরিয়েবলগুলি যদি হয় / যদি না হয় উত্তর (যেমন একটি সরঞ্জাম ব্যর্থ হবে কিনা তা পূর্বাভাস) । এটি বোঝার পর, আসুন আমরা মেশিন লার্নিংয়ের সবচেয়ে গুরুত্বপূর্ণ এবং সবচেয়ে সাধারণ অ্যালগরিদমগুলি দেখি। আমরা এই অ্যালগরিদমগুলিকে তিনটি শ্রেণিতে ভাগ করেছিঃ রৈখিক মডেল, গাছ-ভিত্তিক মডেল এবং নিউরাল নেটওয়ার্ক।

全解机器学习3大分类6大算法的优势和劣势

প্রথমত, লিনিয়ার মডেল অ্যালগরিদমঃ লিনিয়ার মডেল একটি সহজ সূত্র ব্যবহার করে একটি সেট ডেটা পয়েন্টের মধ্য দিয়ে সবচেয়ে ভাল ফিট হওয়া পয়েন্টগুলি খুঁজে পায়। এই পদ্ধতিটি ২০০ বছরেরও বেশি সময় আগে থেকে পাওয়া যায় এবং এটি পরিসংখ্যান এবং মেশিন লার্নিং উভয় ক্ষেত্রেই ব্যাপকভাবে ব্যবহৃত হয়। এটির সরলতার কারণে এটি পরিসংখ্যানবিদদের জন্য দরকারী। আপনি যে ভেরিয়েবলটি (ভেরিয়েবলের কারণে) পূর্বাভাস দিতে চান তা ইতিমধ্যে পরিচিত ভেরিয়েবল (স্ব-ভেরিয়েবল) এর সমীকরণ হিসাবে প্রদর্শিত হয়, তাই পূর্বাভাসটি কেবল একটি ভেরিয়েবল ইনপুট করা এবং তারপরে সমীকরণের উত্তর গণনা করা একটি সমস্যা।

  • ##### ১. লিনিয়ার রিগ্রেশন

রৈখিক প্রত্যাবর্তন, বা আরও সঠিকভাবে বলা যায়, মেশিন লার্নিং এর সর্বনিম্ন দ্বিগুণ প্রত্যাবর্তন, রৈখিক মডেলের সবচেয়ে স্ট্যান্ডার্ড ফর্ম। রেগ্রেশন সমস্যার জন্য, রৈখিক প্রত্যাবর্তন হল সবচেয়ে সহজ রৈখিক মডেল। এর অসুবিধা হল যে মডেলটি সহজেই ওভারফিট হয়, অর্থাৎ মডেলটি পুরোপুরি প্রশিক্ষিত ডেটাতে অনুকূল হয়, নতুন ডেটাতে প্রসারিত করার ক্ষমতার বিনিময়ে। সুতরাং, মেশিন লার্নিং এর রৈখিক প্রত্যাবর্তন (এবং লজিক্যাল রিগ্রেশন যা আমরা পরে আলোচনা করব) প্রায়শই রৈখিকভাবে মেশিনযুক্ত হয়, যার অর্থ মডেলটি ওভারফিট প্রতিরোধ করার জন্য একটি নির্দিষ্ট শাস্তি রয়েছে।

লিনিয়ার মডেলগুলির আরেকটি অসুবিধা হল যেহেতু তারা খুব সহজ, তাই যখন ইনপুট ভেরিয়েবলগুলি স্বাধীন নয় তখন তারা সহজেই আরও জটিল আচরণ পূর্বাভাস দেয়।

  • ##### ২. লজিক্যাল রিগ্রেশন

লজিক্যাল রিগ্রেশন হল শ্রেণীবিভাজন সমস্যার জন্য লিনিয়ার রিগ্রেশনের একটি অভিযোজন। লজিক্যাল রিগ্রেশনের অসুবিধা হল লিনিয়ার রিগ্রেশনের মতো। লজিক্যাল ফাংশন শ্রেণীবিভাজন সমস্যার জন্য খুব ভাল, কারণ এটি থ্রেশহোল্ড প্রভাব প্রবর্তন করে।

২। গাছের মডেল অ্যালগরিদম

  • ########################################################################################################################################################

সিদ্ধান্ত গাছ হল একটি শাখা পদ্ধতি ব্যবহার করে সিদ্ধান্তের প্রতিটি সম্ভাব্য ফলাফল প্রদর্শন করা। উদাহরণস্বরূপ, আপনি একটি সালাদ অর্ডার করার সিদ্ধান্ত নিয়েছেন এবং আপনার প্রথম সিদ্ধান্তটি সম্ভবত কাঁচা শাকসব্জির ধরণের, তারপরে স্বাদযুক্ত শাকসব্জি, তারপরে সালাদ পনিরগুলির ধরণের। আমরা একটি সিদ্ধান্ত গাছের মধ্যে সমস্ত সম্ভাব্য ফলাফল প্রদর্শন করতে পারি।

সিদ্ধান্তের গাছকে প্রশিক্ষণ দেওয়ার জন্য, আমাদের প্রশিক্ষণ ডেটাসেটটি ব্যবহার করতে হবে এবং লক্ষ্যের জন্য যে বৈশিষ্ট্যটি সবচেয়ে দরকারী তা খুঁজে বের করতে হবে। উদাহরণস্বরূপ, জালিয়াতি সনাক্তকরণের ব্যবহারের ক্ষেত্রে, আমরা দেখতে পাব যে দেশটি জালিয়াতির ঝুঁকি পূর্বাভাসের ক্ষেত্রে সবচেয়ে বেশি প্রভাব ফেলে। প্রথম বৈশিষ্ট্যটি দিয়ে শাখা করার পরে, আমরা দুটি উপসেট পাই, যা আমরা কেবলমাত্র প্রথম বৈশিষ্ট্যটি জানার পরে সবচেয়ে সঠিকভাবে পূর্বাভাস দিতে পারি। তারপরে আমরা দ্বিতীয়টি খুঁজে পাই যা এই দুটি উপসেটের সাথে শাখা করতে পারে, আবার বিভক্ত করুন, এবং তাই যতক্ষণ না পর্যাপ্ত বৈশিষ্ট্যগুলি লক্ষ্যের চাহিদা পূরণ করে।

  • ##############################

এলোমেলো বন হল অনেকগুলি সিদ্ধান্ত গাছের গড়, যেখানে প্রতিটি সিদ্ধান্ত গাছকে এলোমেলো তথ্য নমুনার সাথে প্রশিক্ষণ দেওয়া হয়। এলোমেলো বনগুলির প্রতিটি গাছ একটি সম্পূর্ণ সিদ্ধান্ত গাছের চেয়ে দুর্বল, তবে সমস্ত গাছকে একসাথে রেখে, বৈচিত্র্যের সুবিধার কারণে আমরা আরও ভাল সামগ্রিক পারফরম্যান্স পেতে পারি।

র্যান্ডম ফরেস্ট আজ মেশিন লার্নিংয়ের একটি খুব জনপ্রিয় অ্যালগরিদম। র্যান্ডম ফরেস্টকে প্রশিক্ষণ দেওয়া সহজ এবং এটি বেশ ভাল পারফর্ম করে। এর অসুবিধাটি হ'ল অন্যান্য অ্যালগরিদমের তুলনায় র্যান্ডম ফরেস্ট আউটপুট পূর্বাভাসগুলি ধীর হতে পারে, তাই দ্রুত পূর্বাভাস প্রয়োজন হলে র্যান্ডম ফরেস্টটি বেছে নেওয়া হতে পারে না।

  • ####৩, গ্রেডিয়েন্ট বাড়ানো

গ্রেডিয়েন্ট বুস্টিং (Gradient Boosting), যা র্যান্ডম ফরেস্টের মতো, দুর্বল চক্রের সিদ্ধান্তের গাছের সমন্বয়ে গঠিত। গ্রেডিয়েন্ট বুস্টিং এবং র্যান্ডম ফরেস্টের মধ্যে সবচেয়ে বড় পার্থক্য হ'ল গ্রেডিয়েন্ট বুস্টিং-এ গাছগুলি একের পর এক প্রশিক্ষিত হয়। প্রতিটি পিছনের গাছকে মূলত সামনের গাছটি ভুল তথ্য সনাক্ত করে প্রশিক্ষণ দেওয়া হয়। এটি গ্রেডিয়েন্ট বুস্টিংকে সহজেই ভবিষ্যদ্বাণীযোগ্য পরিস্থিতিতে বেশি মনোযোগ দেয় এবং কম কঠিন পরিস্থিতিতে বেশি মনোযোগ দেয়।

গ্রেডিয়েন্ট উত্তোলনের প্রশিক্ষণও দ্রুত এবং খুব ভাল। তবে, প্রশিক্ষণ ডেটাসেটের ক্ষুদ্র পরিবর্তনগুলি মডেলটিতে মৌলিক পরিবর্তন আনতে পারে, তাই এটির ফলাফলগুলি সম্ভবত সবচেয়ে কার্যকর নাও হতে পারে।

তৃতীয়ত, নিউরাল নেটওয়ার্ক অ্যালগরিদমঃ নিউরাল নেটওয়ার্ক হল একটি জৈবিক ঘটনা যা মস্তিষ্কের মধ্যে নিউরনগুলির মধ্যে সম্পর্কিত হয় যা একে অপরের সাথে তথ্য বিনিময় করে। এই ধারণাটি এখন মেশিন লার্নিংয়ের ক্ষেত্রে প্রয়োগ করা হয়েছে, যা ANN নামে পরিচিত। গভীর শিক্ষা হ'ল একাধিক স্তরযুক্ত নিউরাল নেটওয়ার্ক যা একে অপরের সাথে overlapped। ANN হল এমন একটি মডেল যা শেখার মাধ্যমে মানুষের মস্তিষ্কের অনুরূপ জ্ঞানীয় ক্ষমতা অর্জন করে। খুব জটিল কাজগুলি যেমন চিত্র স্বীকৃতি পরিচালনা করার সময় নিউরাল নেটওয়ার্কগুলি ভাল সম্পাদন করে। তবে, মানুষের মস্তিষ্কের মতো, মডেলগুলি প্রশিক্ষণের জন্য খুব সময় এবং প্রচুর শক্তি প্রয়োজন।

বিগ ডেটা প্ল্যাটফর্ম থেকে পুনর্নির্দেশিত


আরও দেখুন