রিসোর্স লোড হচ্ছে... লোডিং...

আলফা কুকুরের কৌশলঃ মন্ট কার্লো অ্যালগরিদম, এটি দেখার পরে আপনি বুঝতে পারবেন!

লেখক:উদ্ভাবকগণ - ক্যোটিফিকেশন - ছোট্ট স্বপ্ন, তৈরিঃ ২০১৬-১১-০২ 13:03:০3, আপডেটঃ ২০১৬-১১-০২ 13:11:30

আলফা কুকুরের হাতিয়ারঃ মন্টকার্লো অ্যালগরিদম, দেখে নিন!

এই বছরের ৯-১৫ মার্চ, দক্ষিণ কোরিয়ার সিউলে পাঁচটি রাউন্ডের মানব-মেশিন যুদ্ধের একটি বড় ঘটনা ঘটেছে। এই প্রতিযোগিতার ফলাফলটি ছিল মানবিক পরাজয়, বিশ্ব গো-চ্যাম্পিয়ন লি সি-শট ১-৪ গোলে গুগলের কৃত্রিম বুদ্ধিমত্তা প্রোগ্রাম আলফা-গো-র কাছে পরাজিত হন। তাহলে আলফাগো কি এবং এর বিজয়ী হওয়ার মূল চাবিকাঠি কোথায়? এখানে আমরা একটি অ্যালগরিদম সম্পর্কে জানবঃ মন্টকার্লো অ্যালগরিদম।

  • আলফাগো এবং মন্ট কার্লো অ্যালগরিদম

চীনা সংবাদমাধ্যমের প্রতিবেদন অনুযায়ী, আলফাগো প্রোগ্রামটি গুগল কোম্পানির অন্তর্গত ডিপমাইন্ডের একটি দল দ্বারা নির্মিত একটি ম্যান-রোবট জুয়া খেলার প্রোগ্রাম, যা চীনা চ্যাম্পিয়নদের দ্বারা কৌতুকপূর্ণভাবে আলফা শাক্কাকে বলা হয়।

গত নিবন্ধে আমরা গুগলের একটি নিউরাল নেটওয়ার্ক অ্যালগরিদমের কথা উল্লেখ করেছি যা মেশিনকে স্বয়ংক্রিয়ভাবে শেখার অনুমতি দেয়।

চীনের অটোমেশন অ্যাসোসিয়েশনের সহ-সভাপতি, সম্পাদক ওয়াং ফেইয়ু বলেছেন যে প্রোগ্রামারদের গো-এর দক্ষতা থাকা দরকার না, কেবল গো-এর মৌলিক নিয়মগুলি জানা দরকার। আলফা-গোর পিছনে একটি বিশিষ্ট কম্পিউটার বিজ্ঞানী রয়েছেন, যথার্থ বলতে গেলে, মেশিন লার্নিংয়ের বিশেষজ্ঞ। বিজ্ঞানীরা নিউরাল নেটওয়ার্ক অ্যালগরিদম ব্যবহার করে, চ্যাম্পিয়নদের ম্যাচের রেকর্ডগুলি কম্পিউটারে ইনপুট করেন এবং কম্পিউটারটিকে নিজের সাথে প্রতিযোগিতা করতে দেন এবং এই প্রক্রিয়াতে ক্রমাগত প্রশিক্ষণ দেন। এক অর্থে বলতে গেলে, আলফা-গোর চ্যাম্পিয়নশিপটি বিকাশকারীরা এটি শেখায়নি, তবে এটি স্ব-শিক্ষিত প্রতিভা।

তাহলে আলফা-গোগুকে স্বশিক্ষিত করে তোলার মূল চাবিকাঠি কোথায়?

মন্ট কার্লো অ্যালগরিদম কি?মন্টকার্লো অ্যালগরিদমের একটি সাধারণ ব্যাখ্যা হলঃ যদি বাস্কেটে ১০০০টি আপেল থাকে এবং আপনি চোখ বন্ধ করে সবচেয়ে বড়টি বেছে নিতে পারেন, তবে আপনি কতবার বেছে নিতে পারবেন তা সীমাবদ্ধ নয়। সুতরাং আপনি চোখ বন্ধ করে এলোমেলোভাবে একটি বেছে নিতে পারেন, তারপরে প্রথমটির সাথে তুলনা করে একটি বড় রেখে দিতে পারেন, তারপরে এলোমেলোভাবে একটি বেছে নিতে পারেন, আগেরটির সাথে তুলনা করে, আবার বড় রাখতে পারেন। চক্রটি প্রায়শই পুনরাবৃত্তি করে, যত বেশি বার আপনি এটি বেছে নেবেন, ততই বৃহত্তম আপেলটি বেছে নেওয়ার সম্ভাবনা বেশি হবে, তবে আপনি যদি ১০০০টি আপেলের মধ্যে একটি বেছে না নেন তবে আপনি নিশ্চিত হতে পারবেন না যে শেষ পর্যন্ত কোনটি সবচেয়ে বড়।

অর্থাৎ, মন্ট কার্লো অ্যালগরিদম হল যে, যত বেশি নমুনা থাকবে, ততই সর্বোত্তম সমাধান পাওয়া যাবে, যদিও এটি সর্বশ্রেষ্ঠ হওয়ার নিশ্চয়তা দেয় না, কারণ যদি 10,000 আপেল থাকে, তবে সম্ভবত আরও বড় পাওয়া যাবে।

তার সাথে তুলনা করা যেতে পারে লাস ভেগাসের একটি অ্যালগরিদমঃ সাধারণভাবে বলা হয়, যদি একটি লক থাকে, তবে 1000 টি চাবি বেছে নেওয়া হয়, তবে কেবলমাত্র একটিই সঠিক হয়। সুতরাং প্রতিবার আপনি একটি চাবি বেছে নেওয়ার চেষ্টা করলে এটি খুলতে পারবেন না। যত বেশি চেষ্টা করা হবে, খোলার সর্বোত্তম সুযোগ তত বেশি হবে, তবে খোলার আগে ভুল কীগুলি কোনও কাজে আসবে না।

সুতরাং লাস ভেগাস অ্যালগরিদম হচ্ছে সর্বোত্তম সমাধান, কিন্তু তা খুঁজে পাওয়া সম্ভব নয়। ধরুন, ১০০০টি কী থেকে, কোনটিই লক খুলতে পারে না, আসল চাবিকাঠি হল ১০০১তম, কিন্তু নমুনায় ১০০১তম অ্যালগরিদম নেই, তাহলে লাস ভেগাস অ্যালগরিদম লক খুলতে পারে না।

আলফা-গো এর মন্ট কার্লো অ্যালগরিদমবিশেষ করে এআই-র জন্য গো-এর অসুবিধা অনেক বেশি, কারণ গো-এর অনেকগুলি ধাপ রয়েছে এবং কম্পিউটারগুলি এটি সনাক্ত করা কঠিন। প্রথমত, গো-এর প্রতিটি ধাপের সম্ভাব্যতা খুব বেশি। গো-এর প্রতিটি ধাপের সম্ভাব্যতা খুব বেশি, খেলোয়াড় যখন শুরু করে তখন 19 × 19 = 361 টি ক্যাডেট পছন্দ করে। এক রাউন্ডে 150 টি রাউন্ডের গো-এর সম্ভাব্য পরিস্থিতিতে 10,170 টিরও বেশি পরিস্থিতি দেখা দিতে পারে। দ্বিতীয়ত, নিয়মগুলি খুব সূক্ষ্ম, কিছু পরিমাণে ক্যাডেট পছন্দটি অভিজ্ঞতার উপর ভিত্তি করে গঠিত অন্তর্দৃষ্টির উপর নির্ভর করে। উপরন্তু, গো-এর চেহারাতে, কম্পিউটারগুলিকে এই চেহারাটির শক্তি এবং দুর্বলতা আলাদা করা কঠিন। অতএব, গো-এর চ্যালেঞ্জকে কৃত্রিম বুদ্ধিমত্তার ডু অ্যাপোলো পরিকল্পনা চ্যালেঞ্জ বলা হয়।

আলফাগো শুধু একটি মন্টকার্লো অ্যালগরিদম নয়, বরং এটি মন্টকার্লো অ্যালগরিদমের একটি আপগ্রেড।

আলফাগো মন্টে কার্লো ট্রি সার্চ অ্যালগরিদম এবং দুটি গভীর নিউরাল নেটওয়ার্কের সহযোগিতায় চেস্টা সম্পন্ন করেছে। লিজিস্টোনের বিরুদ্ধে লড়াইয়ের আগে, গুগল প্রথমে আলফা গো কুকুরের নিউরাল নেটওয়ার্ককে মানুষের বিরুদ্ধে প্রায় 30 মিলিয়ন পদক্ষেপে প্রশিক্ষণ দেয়, যাতে এটি মানব পেশাদার চেস্টারদের কীভাবে হারাবে তা ভবিষ্যদ্বাণী করতে পারে। আরও এগিয়ে, আলফাগোকে নিজের সাথে চেস্টা খেলতে দেয়, যার ফলে বিশাল আকারের একটি সম্পূর্ণ নতুন চেস্টা তৈরি হয়। গুগলের প্রকৌশলীরা দাবি করেছিলেন যে আলফাগো প্রতিদিন এক মিলিয়ন পদক্ষেপে চেষ্টা করতে পারে।

তাদের কাজ হল সহযোগিতামূলকভাবে আরও সম্ভাবনাময় পদক্ষেপগুলি বেছে নেওয়া, সুস্পষ্ট ভুলগুলি বাদ দেওয়া এবং কম্পিউটারগুলি যে পরিমাণ গণনা করতে পারে তার মধ্যে নিয়ন্ত্রণ করা। এটি মূলত মানব চ্যাম্পারদের মতোই।

চীনের বিজ্ঞান একাডেমির অটোমেশন ইনস্টিটিউটের গবেষক ইয়েং ইয়েং বলেন, প্রচলিত চেম্বারপ্লে সফটওয়্যার, সাধারণত গভীর নীল কম্পিউটার সহ সহিংস অনুসন্ধান ব্যবহার করে, এটি সমস্ত সম্ভাব্য ফলাফলের জন্য অনুসন্ধান গাছ তৈরি করে (প্রতিটি ফলাফল গাছের একটি ফল) এবং প্রয়োজন অনুসারে অনুসন্ধান করে। এই পদ্ধতিটি দাবা, ঝাঁকুনি ইত্যাদির ক্ষেত্রেও কার্যকর হতে পারে তবে গো-এর ক্ষেত্রে এটি সম্ভব নয়, কারণ গো-এর প্রতিটি 19 টি লাইন জুড়ে, ফলটির সম্ভাবনা এত বেশি যে কম্পিউটারটি এই গাছের ফলটি তৈরি করতে পারে না (অনেক বেশি) । আলফা গো একটি খুব বুদ্ধিমান পদ্ধতি গ্রহণ করে এবং এই সমস্যাটি নিখুঁতভাবে সমাধান করে। এর গভীর শেখার পদ্ধতিটি অনুসন্ধান গাছের জটিলতা হ্রাস করে এবং অনুসন্ধান স্থানটি কার্যকরভাবে হ্রাস পায়। উদাহরণস্বরূপ, কৌশলগত অনুসন্ধান নেটওয়ার্ক নির্দেশাবলী মানব কম্পিউটারের মতো উচ্চ দক্ষতার সাথে এই ফলকের অবস্থান নির্ধারণের জন্য দায়ী, এবং কম্পিউটার নেটওয়ার্কটি সম্ভাব্যতা নির্ধারণের জন্য দায়ী।

ডানগ্যাজি আরও ব্যাখ্যা করেন যে গভীর নিউরাল নেটওয়ার্কের সবচেয়ে মৌলিক ইউনিটটি আমাদের মানব মস্তিষ্কের মতো নিউরনগুলির মতো, অনেকগুলি স্তর সংযুক্ত রয়েছে যা মানুষের মস্তিষ্কের নিউরাল নেটওয়ার্কগুলির মতো। আলফা গোর দুটি নিউরাল নেটওয়ার্ক হ'ল কৌশল নেটওয়ার্ক এবং মূল্যায়ন নেটওয়ার্ক।

চ্যাচের কৌশল নেটওয়ার্ক মূলত ড্রপ কৌশল তৈরির জন্য ব্যবহৃত হয়। চ্যাচের সময়, এটি নিজের কী হওয়া উচিত তা বিবেচনা করে না, তবে এটি মানব দক্ষদের কী হবে তা চিন্তা করে। অর্থাৎ, এটি ইনপুট চ্যাচের বর্তমান অবস্থার উপর ভিত্তি করে ভবিষ্যদ্বাণী করে যে মানব চ্যাচের পরবর্তী পদক্ষেপটি কোথায় হবে, মানব চিন্তার সাথে সবচেয়ে সামঞ্জস্যপূর্ণ কয়েকটি কার্যকর পদক্ষেপের প্রস্তাব দেয়।

তবে, কৌশলগত নেটওয়ার্কগুলি জানে না যে তারা কী করতে চলেছে তা ভাল বা খারাপ, তারা কেবল জানে যে এটি মানুষের মতো কি না।

মন্টে কার্লো অ্যালগরিদম সিদ্ধান্ত নিয়েছে যে কৌশলগত নেটওয়ার্কটি কেবলমাত্র যেখানে জয়ের হার বেশি থাকে সেখানে অব্যাহত থাকবে, যাতে কিছু রুটকে বাদ দেওয়া যায় এবং কোনও রুটকে কালোতে গণনা করা যায় না।

আলফাগো এই দুটি সরঞ্জাম ব্যবহার করে পরিস্থিতি বিশ্লেষণ করে এবং প্রতিটি পরবর্তী কৌশলকে ভাল এবং খারাপ হিসাবে বিবেচনা করে, যেমন একজন মানব চেম্বার খেলোয়াড় বর্তমান পরিস্থিতি এবং ভবিষ্যতের পরিস্থিতি সম্পর্কে অনুমান করে। মন্টিক্যালো ট্রি অনুসন্ধান অ্যালগরিদম ব্যবহার করে বিশ্লেষণ করা হয়, উদাহরণস্বরূপ, ভবিষ্যতের ২০ টি পদক্ষেপের ক্ষেত্রে, যেখানে পরবর্তী জয়ের সম্ভাবনা বেশি।

তবে সন্দেহ নেই যে, মন্টকার্লো অ্যালগরিদম আলফা-গোর অন্যতম কেন্দ্রবিন্দু।

দুটি ছোট্ট পরীক্ষা শেষ পর্যন্ত, মন্টকার্লো অ্যালগরিদমের দুটি ছোট পরীক্ষা দেখুন।

  • 1.计算圆周率pi。

মূলনীতিঃ প্রথমে একটি বর্গক্ষেত্র আঁকুন, এর অভ্যন্তরীণ চেনাশোনা আঁকুন, তারপরে এই বর্গক্ষেত্রের অভ্যন্তরে একটি এলোমেলো অঙ্কন পয়েন্ট আঁকুন, এটি বৃত্তের অভ্যন্তরে পয়েন্টটি স্থাপন করুন, P = বৃত্তের আয়তন / বর্গক্ষেত্র। P= ((Pi)RR) / ((2R*2R) = Pi/4, অর্থাৎ Pi=4P

পদক্ষেপঃ ১. বৃত্তের কেন্দ্রকে মূল বিন্দুতে স্থাপন করা হলে, R কে ব্যাসার্ধ হিসাবে বৃত্তে পরিণত করা হলে, প্রথম চতুর্ভুজের এক চতুর্থাংশ বৃত্তের আয়তন Pi হবে।RR/4 ২. এই ১/৪টি বৃত্তের বাইরের অংশের বর্গক্ষেত্রটি করুন, যার স্থানাঙ্ক হল ((0,0) ((0,R) ((R,0) ((R,R), তাহলে এই বর্গক্ষেত্রের আয়তন হবে RR ৩. অবিলম্বে পয়েন্ট ((X,Y) নিন, যাতে 0 <= X <= R এবং 0 <= Y <= R, অর্থাৎ পয়েন্টটি বর্গক্ষেত্রের মধ্যে থাকে। ৪. এক্স এর মাধ্যমেএক্স+ওয়াইYR পয়েন্টটি 1/4 বৃত্তাকার হয় কিনা তা নির্ধারণ করে। ৫. সমস্ত পয়েন্টের সংখ্যা (যেমন পরীক্ষার সংখ্যা) N, এবং ১/৪ বৃত্তের মধ্যে অবস্থিত পয়েন্টের সংখ্যা (যেটি ধাপ ৪ পূরণ করে) M।

P=M/N তাই Pi=4*N/Mimgচিত্র ১

M_C ((10000) চালানোর ফলাফল হল 3.1424

  • 2.蒙特卡洛模拟求函数极值,可避免陷入局部极值

# [-2,2] পরিসরে একটি সংখ্যাকে এলোমেলোভাবে উৎপন্ন করা হয়, এর সাথে সংশ্লিষ্ট y খুঁজে বের করা হয়, এবং এর মধ্যে সবচেয়ে বড়টি [-2,2] এর উপর ফাংশনের সর্বাধিক মান বলে মনে করা হয়।imgচিত্র ২

১,০০০ বার অনুকরণ করার পর পাওয়া গেল ১৮৫.১২২৯২৮৩২৩৮৯৮৭৫ (খুব সঠিক)

আপনি এখানে দেখতে পাচ্ছেন, আপনি বুঝতে পেরেছেন। কোডটি হাতে লিখতে পারে, মজার! উইকিমিডিয়া পাবলিক থেকে পুনর্নির্দেশিত


আরো