এই বছরের ৯-১৫ মার্চ, দক্ষিণ কোরিয়ার সিউলে পাঁচটি রাউন্ডের মানব-মেশিন যুদ্ধের একটি বড় ঘটনা ঘটেছে। এই প্রতিযোগিতার ফলাফলটি ছিল মানবিক পরাজয়, বিশ্ব গো-চ্যাম্পিয়ন লি সি-শট ১-৪ গোলে গুগলের কৃত্রিম বুদ্ধিমত্তা প্রোগ্রাম আলফা-গো-র কাছে পরাজিত হন। তাহলে আলফাগো কি এবং এর বিজয়ী হওয়ার মূল চাবিকাঠি কোথায়? এখানে আমরা একটি অ্যালগরিদম সম্পর্কে জানবঃ মন্টকার্লো অ্যালগরিদম।
চীনা সংবাদমাধ্যমের প্রতিবেদন অনুযায়ী, আলফাগো প্রোগ্রামটি গুগল কোম্পানির অন্তর্গত ডিপমাইন্ডের একটি দল দ্বারা নির্মিত একটি ম্যান-রোবট জুয়া খেলার প্রোগ্রাম, যা চীনা চ্যাম্পিয়নদের দ্বারা কৌতুকপূর্ণভাবে আলফা শাক্কাকে বলা হয়।
গত নিবন্ধে আমরা গুগলের একটি নিউরাল নেটওয়ার্ক অ্যালগরিদমের কথা উল্লেখ করেছি যা মেশিনকে স্বয়ংক্রিয়ভাবে শেখার অনুমতি দেয়।
চীনের অটোমেশন অ্যাসোসিয়েশনের সহ-সভাপতি, সম্পাদক ওয়াং ফেইয়ু বলেছেন যে প্রোগ্রামারদের গো-এর দক্ষতা থাকা দরকার না, কেবল গো-এর মৌলিক নিয়মগুলি জানা দরকার। আলফা-গোর পিছনে একটি বিশিষ্ট কম্পিউটার বিজ্ঞানী রয়েছেন, যথার্থ বলতে গেলে, মেশিন লার্নিংয়ের বিশেষজ্ঞ। বিজ্ঞানীরা নিউরাল নেটওয়ার্ক অ্যালগরিদম ব্যবহার করে, চ্যাম্পিয়নদের ম্যাচের রেকর্ডগুলি কম্পিউটারে ইনপুট করেন এবং কম্পিউটারটিকে নিজের সাথে প্রতিযোগিতা করতে দেন এবং এই প্রক্রিয়াতে ক্রমাগত প্রশিক্ষণ দেন। এক অর্থে বলতে গেলে, আলফা-গোর চ্যাম্পিয়নশিপটি বিকাশকারীরা এটি শেখায়নি, তবে এটি স্ব-শিক্ষিত প্রতিভা।
তাহলে আলফা-গোগুকে স্বশিক্ষিত করে তোলার মূল চাবিকাঠি কোথায়?
মন্ট কার্লো অ্যালগরিদম কি?মন্টকার্লো অ্যালগরিদমের একটি সাধারণ ব্যাখ্যা হলঃ যদি বাস্কেটে ১০০০টি আপেল থাকে এবং আপনি চোখ বন্ধ করে সবচেয়ে বড়টি বেছে নিতে পারেন, তবে আপনি কতবার বেছে নিতে পারবেন তা সীমাবদ্ধ নয়। সুতরাং আপনি চোখ বন্ধ করে এলোমেলোভাবে একটি বেছে নিতে পারেন, তারপরে প্রথমটির সাথে তুলনা করে একটি বড় রেখে দিতে পারেন, তারপরে এলোমেলোভাবে একটি বেছে নিতে পারেন, আগেরটির সাথে তুলনা করে, আবার বড় রাখতে পারেন। চক্রটি প্রায়শই পুনরাবৃত্তি করে, যত বেশি বার আপনি এটি বেছে নেবেন, ততই বৃহত্তম আপেলটি বেছে নেওয়ার সম্ভাবনা বেশি হবে, তবে আপনি যদি ১০০০টি আপেলের মধ্যে একটি বেছে না নেন তবে আপনি নিশ্চিত হতে পারবেন না যে শেষ পর্যন্ত কোনটি সবচেয়ে বড়।
অর্থাৎ, মন্ট কার্লো অ্যালগরিদম হল যে, যত বেশি নমুনা থাকবে, ততই সর্বোত্তম সমাধান পাওয়া যাবে, যদিও এটি সর্বশ্রেষ্ঠ হওয়ার নিশ্চয়তা দেয় না, কারণ যদি 10,000 আপেল থাকে, তবে সম্ভবত আরও বড় পাওয়া যাবে।
তার সাথে তুলনা করা যেতে পারে লাস ভেগাসের একটি অ্যালগরিদমঃ সাধারণভাবে বলা হয়, যদি একটি লক থাকে, তবে 1000 টি চাবি বেছে নেওয়া হয়, তবে কেবলমাত্র একটিই সঠিক হয়। সুতরাং প্রতিবার আপনি একটি চাবি বেছে নেওয়ার চেষ্টা করলে এটি খুলতে পারবেন না। যত বেশি চেষ্টা করা হবে, খোলার সর্বোত্তম সুযোগ তত বেশি হবে, তবে খোলার আগে ভুল কীগুলি কোনও কাজে আসবে না।
সুতরাং লাস ভেগাস অ্যালগরিদম হচ্ছে সর্বোত্তম সমাধান, কিন্তু তা খুঁজে পাওয়া সম্ভব নয়। ধরুন, ১০০০টি কী থেকে, কোনটিই লক খুলতে পারে না, আসল চাবিকাঠি হল ১০০১তম, কিন্তু নমুনায় ১০০১তম অ্যালগরিদম নেই, তাহলে লাস ভেগাস অ্যালগরিদম লক খুলতে পারে না।
আলফা-গো এর মন্ট কার্লো অ্যালগরিদমবিশেষ করে এআই-র জন্য গো-এর অসুবিধা অনেক বেশি, কারণ গো-এর অনেকগুলি ধাপ রয়েছে এবং কম্পিউটারগুলি এটি সনাক্ত করা কঠিন। প্রথমত, গো-এর প্রতিটি ধাপের সম্ভাব্যতা খুব বেশি। গো-এর প্রতিটি ধাপের সম্ভাব্যতা খুব বেশি, খেলোয়াড় যখন শুরু করে তখন 19 × 19 = 361 টি ক্যাডেট পছন্দ করে। এক রাউন্ডে 150 টি রাউন্ডের গো-এর সম্ভাব্য পরিস্থিতিতে 10,170 টিরও বেশি পরিস্থিতি দেখা দিতে পারে। দ্বিতীয়ত, নিয়মগুলি খুব সূক্ষ্ম, কিছু পরিমাণে ক্যাডেট পছন্দটি অভিজ্ঞতার উপর ভিত্তি করে গঠিত অন্তর্দৃষ্টির উপর নির্ভর করে। উপরন্তু, গো-এর চেহারাতে, কম্পিউটারগুলিকে এই চেহারাটির শক্তি এবং দুর্বলতা আলাদা করা কঠিন। অতএব, গো-এর চ্যালেঞ্জকে কৃত্রিম বুদ্ধিমত্তার ডু অ্যাপোলো পরিকল্পনা চ্যালেঞ্জ বলা হয়।
আলফাগো শুধু একটি মন্টকার্লো অ্যালগরিদম নয়, বরং এটি মন্টকার্লো অ্যালগরিদমের একটি আপগ্রেড।
আলফাগো মন্টে কার্লো ট্রি সার্চ অ্যালগরিদম এবং দুটি গভীর নিউরাল নেটওয়ার্কের সহযোগিতায় চেস্টা সম্পন্ন করেছে। লিজিস্টোনের বিরুদ্ধে লড়াইয়ের আগে, গুগল প্রথমে আলফা গো কুকুরের নিউরাল নেটওয়ার্ককে মানুষের বিরুদ্ধে প্রায় 30 মিলিয়ন পদক্ষেপে প্রশিক্ষণ দেয়, যাতে এটি মানব পেশাদার চেস্টারদের কীভাবে হারাবে তা ভবিষ্যদ্বাণী করতে পারে। আরও এগিয়ে, আলফাগোকে নিজের সাথে চেস্টা খেলতে দেয়, যার ফলে বিশাল আকারের একটি সম্পূর্ণ নতুন চেস্টা তৈরি হয়। গুগলের প্রকৌশলীরা দাবি করেছিলেন যে আলফাগো প্রতিদিন এক মিলিয়ন পদক্ষেপে চেষ্টা করতে পারে।
তাদের কাজ হল সহযোগিতামূলকভাবে আরও সম্ভাবনাময় পদক্ষেপগুলি বেছে নেওয়া, সুস্পষ্ট ভুলগুলি বাদ দেওয়া এবং কম্পিউটারগুলি যে পরিমাণ গণনা করতে পারে তার মধ্যে নিয়ন্ত্রণ করা। এটি মূলত মানব চ্যাম্পারদের মতোই।
চীনের বিজ্ঞান একাডেমির অটোমেশন ইনস্টিটিউটের গবেষক ইয়েং ইয়েং বলেন, প্রচলিত চেম্বারপ্লে সফটওয়্যার, সাধারণত গভীর নীল কম্পিউটার সহ সহিংস অনুসন্ধান ব্যবহার করে, এটি সমস্ত সম্ভাব্য ফলাফলের জন্য অনুসন্ধান গাছ তৈরি করে (প্রতিটি ফলাফল গাছের একটি ফল) এবং প্রয়োজন অনুসারে অনুসন্ধান করে। এই পদ্ধতিটি দাবা, ঝাঁকুনি ইত্যাদির ক্ষেত্রেও কার্যকর হতে পারে তবে গো-এর ক্ষেত্রে এটি সম্ভব নয়, কারণ গো-এর প্রতিটি 19 টি লাইন জুড়ে, ফলটির সম্ভাবনা এত বেশি যে কম্পিউটারটি এই গাছের ফলটি তৈরি করতে পারে না (অনেক বেশি) । আলফা গো একটি খুব বুদ্ধিমান পদ্ধতি গ্রহণ করে এবং এই সমস্যাটি নিখুঁতভাবে সমাধান করে। এর গভীর শেখার পদ্ধতিটি অনুসন্ধান গাছের জটিলতা হ্রাস করে এবং অনুসন্ধান স্থানটি কার্যকরভাবে হ্রাস পায়। উদাহরণস্বরূপ, কৌশলগত অনুসন্ধান নেটওয়ার্ক নির্দেশাবলী মানব কম্পিউটারের মতো উচ্চ দক্ষতার সাথে এই ফলকের অবস্থান নির্ধারণের জন্য দায়ী, এবং কম্পিউটার নেটওয়ার্কটি সম্ভাব্যতা নির্ধারণের জন্য দায়ী।
ডানগ্যাজি আরও ব্যাখ্যা করেন যে গভীর নিউরাল নেটওয়ার্কের সবচেয়ে মৌলিক ইউনিটটি আমাদের মানব মস্তিষ্কের মতো নিউরনগুলির মতো, অনেকগুলি স্তর সংযুক্ত রয়েছে যা মানুষের মস্তিষ্কের নিউরাল নেটওয়ার্কগুলির মতো। আলফা গোর দুটি নিউরাল নেটওয়ার্ক হ'ল কৌশল নেটওয়ার্ক এবং মূল্যায়ন নেটওয়ার্ক।
চ্যাচের কৌশল নেটওয়ার্ক মূলত ড্রপ কৌশল তৈরির জন্য ব্যবহৃত হয়। চ্যাচের সময়, এটি নিজের কী হওয়া উচিত তা বিবেচনা করে না, তবে এটি মানব দক্ষদের কী হবে তা চিন্তা করে। অর্থাৎ, এটি ইনপুট চ্যাচের বর্তমান অবস্থার উপর ভিত্তি করে ভবিষ্যদ্বাণী করে যে মানব চ্যাচের পরবর্তী পদক্ষেপটি কোথায় হবে, মানব চিন্তার সাথে সবচেয়ে সামঞ্জস্যপূর্ণ কয়েকটি কার্যকর পদক্ষেপের প্রস্তাব দেয়।
তবে, কৌশলগত নেটওয়ার্কগুলি জানে না যে তারা কী করতে চলেছে তা ভাল বা খারাপ, তারা কেবল জানে যে এটি মানুষের মতো কি না।
মন্টে কার্লো অ্যালগরিদম সিদ্ধান্ত নিয়েছে যে কৌশলগত নেটওয়ার্কটি কেবলমাত্র যেখানে জয়ের হার বেশি থাকে সেখানে অব্যাহত থাকবে, যাতে কিছু রুটকে বাদ দেওয়া যায় এবং কোনও রুটকে কালোতে গণনা করা যায় না।
আলফাগো এই দুটি সরঞ্জাম ব্যবহার করে পরিস্থিতি বিশ্লেষণ করে এবং প্রতিটি পরবর্তী কৌশলকে ভাল এবং খারাপ হিসাবে বিবেচনা করে, যেমন একজন মানব চেম্বার খেলোয়াড় বর্তমান পরিস্থিতি এবং ভবিষ্যতের পরিস্থিতি সম্পর্কে অনুমান করে। মন্টিক্যালো ট্রি অনুসন্ধান অ্যালগরিদম ব্যবহার করে বিশ্লেষণ করা হয়, উদাহরণস্বরূপ, ভবিষ্যতের ২০ টি পদক্ষেপের ক্ষেত্রে, যেখানে পরবর্তী জয়ের সম্ভাবনা বেশি।
তবে সন্দেহ নেই যে, মন্টকার্লো অ্যালগরিদম আলফা-গোর অন্যতম কেন্দ্রবিন্দু।
দুটি ছোট্ট পরীক্ষা শেষ পর্যন্ত, মন্টকার্লো অ্যালগরিদমের দুটি ছোট পরীক্ষা দেখুন।
মূলনীতিঃ প্রথমে একটি বর্গক্ষেত্র আঁকুন, এর অভ্যন্তরীণ চেনাশোনা আঁকুন, তারপরে এই বর্গক্ষেত্রের অভ্যন্তরে একটি এলোমেলো অঙ্কন পয়েন্ট আঁকুন, এটি বৃত্তের অভ্যন্তরে পয়েন্টটি স্থাপন করুন, P = বৃত্তের আয়তন / বর্গক্ষেত্র। P= ((Pi)RR) / ((2R*2R) = Pi/4, অর্থাৎ Pi=4P
পদক্ষেপঃ ১. বৃত্তের কেন্দ্রকে মূল বিন্দুতে স্থাপন করা হলে, R কে ব্যাসার্ধ হিসাবে বৃত্তে পরিণত করা হলে, প্রথম চতুর্ভুজের এক চতুর্থাংশ বৃত্তের আয়তন Pi হবে।RR/4 ২. এই ১/৪টি বৃত্তের বাইরের অংশের বর্গক্ষেত্রটি করুন, যার স্থানাঙ্ক হল ((0,0) ((0,R) ((R,0) ((R,R), তাহলে এই বর্গক্ষেত্রের আয়তন হবে RR ৩. অবিলম্বে পয়েন্ট ((X,Y) নিন, যাতে 0 <= X <= R এবং 0 <= Y <= R, অর্থাৎ পয়েন্টটি বর্গক্ষেত্রের মধ্যে থাকে। ৪. এক্স এর মাধ্যমেএক্স+ওয়াইYR পয়েন্টটি 1/4 বৃত্তাকার হয় কিনা তা নির্ধারণ করে। ৫. সমস্ত পয়েন্টের সংখ্যা (যেমন পরীক্ষার সংখ্যা) N, এবং ১/৪ বৃত্তের মধ্যে অবস্থিত পয়েন্টের সংখ্যা (যেটি ধাপ ৪ পূরণ করে) M।
P=M/N তাই Pi=4*N/Mচিত্র ১
M_C ((10000) চালানোর ফলাফল হল 3.1424
# [-2,2] পরিসরে একটি সংখ্যাকে এলোমেলোভাবে উৎপন্ন করা হয়, এর সাথে সংশ্লিষ্ট y খুঁজে বের করা হয়, এবং এর মধ্যে সবচেয়ে বড়টি [-2,2] এর উপর ফাংশনের সর্বাধিক মান বলে মনে করা হয়।চিত্র ২
১,০০০ বার অনুকরণ করার পর পাওয়া গেল ১৮৫.১২২৯২৮৩২৩৮৯৮৭৫ (খুব সঠিক)
আপনি এখানে দেখতে পাচ্ছেন, আপনি বুঝতে পেরেছেন। কোডটি হাতে লিখতে পারে, মজার! উইকিমিডিয়া পাবলিক থেকে পুনর্নির্দেশিত