গত ৯-১৫ মার্চ, দক্ষিণ কোরিয়ার সিউলে পাঁচ রাউন্ডের মানব-মেশিন যুদ্ধের মাধ্যমে গো-ওয়ে বিশ্বকে একটি বড় ঘটনা দেখিয়েছিল। এই প্রতিযোগিতার ফলাফল ছিল একটি মানবিক পরাজয়, যেখানে বিশ্ব গোয়া চ্যাম্পিয়ন লি শি-শিকে গুগলের কৃত্রিম বুদ্ধিমত্তা প্রোগ্রাম আলফা গোকে ১-৪ গোলে পরাজিত করা হয়। সুতরাং, আলফাগো কী এবং এর বিজয়ী কী? এখানে আমরা একটি অ্যালগরিদম সম্পর্কে কথা বলবঃ মন্টেকার্লো অ্যালগরিদম।
আলফাগো হচ্ছে গুগল-এর ডিপমাইন্ড টিম কর্তৃক নির্মিত একটি কম্পিউটার-মানুষের মধ্যে গোই খেলার প্রোগ্রাম। চীনা খেলোয়াড়রা একে আলফা কুকুর বলে অভিহিত করে।
গত পোস্টে আমরা গুগলের তৈরি করা নিউরাল নেটওয়ার্ক অ্যালগরিদমের কথা বলেছিলাম, যা মেশিনকে স্বয়ংক্রিয়ভাবে শিখতে সাহায্য করবে, যেমন আলফাগো।
চীনা অটোমেশন অ্যাসোসিয়েশনের ভাইস প্রেসিডেন্ট ও সেক্রেটারি জেনারেল ওয়াং ফাইয়ুয়ে বলেন, প্রোগ্রামারদের গোগো খেলার ব্যাপারে দক্ষ হওয়ার প্রয়োজন নেই, শুধু গোগো খেলার মৌলিক নিয়মগুলো জানতে হবে। আলফা-গো এর পেছনে রয়েছেন একদল বিশিষ্ট কম্পিউটার বিজ্ঞানী, যারা মেশিন লার্নিংয়ের ক্ষেত্রে বিশেষজ্ঞ। বিজ্ঞানীরা নিউরাল নেটওয়ার্ক অ্যালগরিদম ব্যবহার করে কম্পিউটারে দাবা বিশেষজ্ঞদের ম্যাচের রেকর্ড ইনপুট করে এবং কম্পিউটারকে নিজের সাথে খেলতে দেয়, এই প্রক্রিয়ায় ক্রমাগত প্রশিক্ষণ দেয়। এক অর্থে বলা যেতে পারে, আলফা-গো এর দাবা কৌশলটি বিকাশকারী দ্বারা শেখানো হয়নি, বরং এটি স্ব-শিক্ষিত প্রতিভা।
সুতরাং, আলফা-গো-র স্ব-শিক্ষিত প্রতিভা তৈরির মূল চাবিকাঠি কোথায়? এটি মন্টেকার্লো অ্যালগরিদম।
মন্টে কার্লো অ্যালগরিদম কি? মন্টে কার্লো অ্যালগরিদমের ব্যাখ্যাঃ যদি একটি ঝুড়ির মধ্যে ১০০০টি আপেল থাকে, এবং আপনি প্রতিবার চোখ বন্ধ করে সবচেয়ে বড় আপেলটি খুঁজে বের করতে চান, তাহলে আপনি কোন সীমা নির্ধারণ করতে পারবেন না। সুতরাং আপনি চোখ বন্ধ করে এলোমেলোভাবে একটিকে বেছে নিতে পারেন, তারপর এলোমেলোভাবে অন্যটিকে তুলনা করতে পারেন, বড়টি রেখে, তারপর আরেকটি এলোমেলোভাবে, তারপর আগেরটির সাথে তুলনা করুন, তারপর বড়টি রেখে। এই চক্রটি এভাবেই চলতে থাকে, যত বেশি বার নেওয়া হয়, ততই সবচেয়ে বড় আপেলটি বেছে নেওয়ার সম্ভাবনা বাড়তে থাকে, কিন্তু যদি না আপনি ১০০০টি আপেলের মধ্যে থেকে একটি বেছে নেন, তাহলে আপনি নিশ্চিত হতে পারবেন না যে শেষ পর্যন্ত সবচেয়ে বড় আপেলটি বেছে নেবেন।
অর্থাৎ, মন্টে কার্লো অ্যালগরিদমের মতে, যত বেশি নমুনা, ততই ভালো সমাধান পাওয়া যায়, কিন্তু তা নিশ্চিত নয়, কারণ যদি ১০,০০০টি আপেল থাকে, তাহলে সম্ভবত আরও বড় সমাধান পাওয়া যাবে।
লাস ভেগাসের অ্যালগরিদমের সাথে তার তুলনা করা যায়ঃ সাধারণভাবে বলা হয়, যদি একটি তালা থাকে, তবে ১০০০ টি চাবি বেছে নেওয়ার জন্য রয়েছে, তবে কেবলমাত্র একটিই সঠিক। সুতরাং, প্রতিবার যখন আপনি এলোমেলোভাবে একটি চাবি নিয়ে চেষ্টা করেন এবং এটি খুলতে ব্যর্থ হন, তখন আপনি একটি পরিবর্তন করেন। যত বেশি চেষ্টা, সর্বোত্তম সমাধান খোলার সম্ভাবনা তত বেশি, তবে খোলার আগে, ভুল কীগুলি কোনও কাজে আসে না।
সুতরাং লাস ভেগাস অ্যালগরিদম হল সর্বোত্তম সমাধান, কিন্তু এটি খুঁজে পাওয়া অসম্ভব। ধরুন যে 1000 টি চাবি থেকে কোনওটিই খোলা যায় না, আসল চাবিটি 1001 তম চাবি, কিন্তু নমুনাটিতে 1001 তম অ্যালগরিদম নেই, লাস ভেগাস অ্যালগরিদম লক খোলার জন্য কোনও কী খুঁজে পাবে না।
আলফা-গো এর মন্টেকার্লো অ্যালগরিদম গো খেলার জটিলতা বিশেষ করে কৃত্রিম বুদ্ধিমত্তার জন্য বড়, কারণ গো খেলার অনেকগুলি প্যাচ রয়েছে যা কম্পিউটারের পক্ষে পার্থক্য করা কঠিন। প্রথমত, গোয়ের সম্ভাবনা অনেক বেশি। গোয়ের প্রতিটি পদক্ষেপের সম্ভাব্য সিদ্ধান্তগুলি অনেক বেশি, যখন একজন খেলোয়াড় শুরু করেন তখন 19 × 19 = 361 টি ড্রপ নির্বাচন করতে পারে। একটি 150 রাউন্ডের গোয়ের সম্ভাব্য পরিস্থিতি 10170 পর্যন্ত হতে পারে। দ্বিতীয়ত, নিয়মটি খুব সূক্ষ্ম, কিছু পরিমাণে ড্রপ নির্বাচন করা অভিজ্ঞতার উপর নির্ভর করে। তদুপরি, গোয়ের দাবাতে, কম্পিউটারের পক্ষে সামনের দাবাটির শক্তি এবং দুর্বলতা আলাদা করা খুব কঠিন। তাই, গোয়ের চ্যালেঞ্জকে কৃত্রিম বুদ্ধিমত্তার অ্যাপোলো পরিকল্পনা বলা হয়।
আলফাগো শুধু মন্টে কার্লো অ্যালগরিদম নয়, বরং এটি মন্টে কার্লো অ্যালগরিদমের একটি আপগ্রেড সংস্করণ।
আলফা-গো মন্টে কার্লো ট্রি সার্চ অ্যালগরিদম এবং দুটি গভীরতার নিউরাল নেটওয়ার্কের মাধ্যমে দাবা খেলায় অংশগ্রহণ করে। লি শি শি-এর সাথে লড়াইয়ের আগে, গুগল প্রথমে আলফা কুকুরের নিউরাল নেটওয়ার্ককে প্রায় ৩০ মিলিয়ন মানুষের জোড়া হাঁটার কৌশল ব্যবহার করে প্রশিক্ষণ দেয়, যাতে এটি মানব পেশাদার দাবা খেলোয়াড়দের কীভাবে পরাজিত হবে তা ভবিষ্যদ্বাণী করতে পারে। তারপরে আরও এগিয়ে, আলফা-গোকে নিজের সাথে দাবা খেলতে দেওয়া, যার ফলে বিশাল আকারের একটি নতুন দাবা খেলার চিত্র তৈরি হয়। গুগলের প্রকৌশলীরা ঘোষণা করেছিলেন যে আলফা-গো প্রতিদিন কয়েক মিলিয়ন পদক্ষেপের চেষ্টা করতে পারে।
“এটি মূলত একটি মানব খেলোয়াড়ের কাজ”, চীনা বিজ্ঞান একাডেমির অটোমেশন ইনস্টিটিউটের ডক্টরাল স্নাতক স্নাতক জিয়াও গাজী বলেন।
চীনা বিজ্ঞান একাডেমির অটোমেশন ইনস্টিটিউটের গবেষক ইইয়ান ইয়ান বলেছেন যে, চিয়াংয়ের traditionalতিহ্যবাহী দাবা সফ্টওয়্যার সাধারণত হিংসাত্মক অনুসন্ধান ব্যবহার করে, যার মধ্যে রয়েছে গভীর নীল কম্পিউটার, এটি সমস্ত সম্ভাব্য ফলাফলের জন্য একটি অনুসন্ধান গাছ তৈরি করে (প্রতিটি ফলাফল গাছের একটি ফল) এবং প্রয়োজন অনুসারে অনুসন্ধান অনুসন্ধান করে। এই পদ্ধতিটি দাবা, জাম্পিং ইত্যাদির ক্ষেত্রেও কিছুটা কার্যকর, তবে গোগোর ক্ষেত্রে এটি কার্যকর হতে পারে না, কারণ গোগো 19 টি লাইন অতিক্রম করে এবং ড্রপসের সম্ভাবনা এত বেশি যে কম্পিউটারটি গাছটি তৈরি করতে পারে না (অনেক ফল) । আলফাগো একটি চতুর পদ্ধতি অবলম্বন করে এবং এই সমস্যাটি পুরোপুরি সমাধান করে। এটি গভীর শিক্ষার পদ্ধতি ব্যবহার করে গাছের অনুসন্ধানের জটিলতা হ্রাস করে এবং অনুসন্ধান স্থানটি কার্যকরভাবে কমিয়ে দেয়।
বুনগাজ আরও ব্যাখ্যা করেছেন যে গভীরতার নিউরাল নেটওয়ার্কের সবচেয়ে মৌলিক এককটি আমাদের মানব মস্তিষ্কের নিউরনের মতো, অনেকগুলি স্তর সংযুক্ত রয়েছে যেন এটি মানব মস্তিষ্কের নিউরাল নেটওয়ার্ক। আলফাগো এর দুটি নিউরাল নেটওয়ার্ক হ’ল কৌশল নেটওয়ার্ক এবং মূল্যায়ন নেটওয়ার্ক।
কুইজ কৌশল নেটওয়ার্কটি মূলত পরাজয়ের কৌশল তৈরির জন্য ব্যবহৃত হয়। দাবা খেলার সময়, এটি নিজের কী হওয়া উচিত তা বিবেচনা করে না, তবে মানুষের উচ্চ হাতটি কী হবে তা নিয়ে চিন্তা করে। অর্থাৎ, এটি ইনপুট প্লেটের বর্তমান অবস্থার উপর ভিত্তি করে ভবিষ্যদ্বাণী করে যে মানব পরবর্তী দাবা খেলবে এবং মানুষের চিন্তার সাথে সবচেয়ে মিলিত কয়েকটি কার্যকর সিদ্ধান্ত নিয়ে আসে।
তবে, কৌশল নেটওয়ার্কটি জানে না যে এটি কতটা ভাল বা খারাপ হবে, এটি কেবল জানে যে এটি মানুষের মতোই হবে কিনা, এবং এই ক্ষেত্রে মূল্যায়ন নেটওয়ার্কটি কাজ করে।
বুনগ্যাজি বলেছেনঃ ক্যালকুলেটর নেটওয়ার্কটি প্রতিটি সম্ভাব্য বিকল্পের জন্য সমগ্র ডিসপ্লেটি মূল্যায়ন করে এবং তারপরে একটি জয়ের হার দেয়। এই মানগুলি মন্টেকার্লো ট্রি অনুসন্ধান অ্যালগরিদমের মধ্যে প্রতিফলিত হয়, যা পুনরাবৃত্তিমূলক প্রক্রিয়াটির মাধ্যমে সর্বোচ্চ জয়ের হারটি চালিত করে। মন্টেকার্লো ট্রি অনুসন্ধান অ্যালগরিদম সিদ্ধান্ত নেয় যে কৌশল নেটওয়ার্কটি কেবলমাত্র যেখানে জয়ের হার বেশি থাকে সেখানে চালিয়ে যাবে, যাতে কিছু লাইন বাদ দেওয়া যায় এবং একটি রাস্তা গণনা না করে কালো।
AlphaGo এই দুটি সরঞ্জাম ব্যবহার করে পরিস্থিতি বিশ্লেষণ করে এবং প্রতিটি কৌশলকে ভাল বা খারাপ বলে বিচার করে, যেমন একজন মানব খেলোয়াড় বর্তমান পরিস্থিতি এবং ভবিষ্যতের পরিস্থিতি সম্পর্কে ধারণা দেয়। মন্টে কার্লো ট্রি সার্চ অ্যালগরিদম ব্যবহার করে বিশ্লেষণ করা হয়েছে, উদাহরণস্বরূপ, পরবর্তী 20 টি পদক্ষেপের ক্ষেত্রে, এটি নির্ধারণ করতে পারে যে কোনটি জয়ের সম্ভাবনা বেশি।
কিন্তু কোন সন্দেহ নেই যে মন্টেকার্লো আলগোরিদিমটি আলফা-গো-র মূল অংশ।
দুটি ছোট্ট পরীক্ষা শেষ পর্যন্ত, মন্টে কার্লো অ্যালগরিদমের দুটি ছোট্ট পরীক্ষা দেখুন।
নীতিঃ প্রথমে একটি বর্গক্ষেত্র আঁকুন, এর ভিতরে একটি বৃত্ত আঁকুন, তারপর এই বর্গক্ষেত্রের ভিতরে একটি এলোমেলো অঙ্কন বিন্দু, বৃত্তের ভিতরে পয়েন্টটি প্রায় P হিসাবে সেট করুন, P = বৃত্তের ক্ষেত্রফল / বর্গক্ষেত্রের ক্ষেত্রফল। P=(Pi*R*R)/(2R*2R) = Pi/4, অর্থাৎ Pi=4P
পদক্ষেপঃ ১. বৃত্তের কেন্দ্রকে মূল বিন্দুতে স্থাপন করুন, আরকে ব্যাসার্ধ হিসাবে বৃত্ত করুন, তাহলে প্রথম চতুর্ভুজের বৃত্তের এক-চতুর্থাংশের আয়তন হবে Pi*R*R/4 ২. এই ১/৪ বৃত্তের বাইরের বর্গক্ষেত্রটি করুন, সমন্বয়গুলি হল ০,০,০,০,আর,আর,০,আর,আর,আর, তাহলে এই বর্গক্ষেত্রের আয়তন হবে আর*R ৩. অবিলম্বে একটি বিন্দু (X, Y) নিন, যাতে 0 <= X <= R এবং 0 <= Y <= R হয়, অর্থাৎ বিন্দুটি একটি বর্গক্ষেত্রের মধ্যে রয়েছে ৪. ফর্মুলা এক্স*X+Y*Y*R এর বিচারক বিন্দু 1⁄4 বৃত্তের ভিতরে আছে কিনা। 5. সবগুলো বিন্দু (অর্থাৎ পরীক্ষার সংখ্যা) এর সংখ্যা N এবং ১/৪ বৃত্তের ভিতরে অবস্থিত বিন্দু (অর্থাৎ ধাপ ৪ পূরণকারী বিন্দু) এর সংখ্যা M হলে
P=M/N তাই Pi=4*N/M
ছবি ১
M_C ((10000) চালানোর ফলাফল হল 3.1424
# মাঝখানে[-2,2] এলোমেলোভাবে একটি সংখ্যা উৎপন্ন করে, তার সমতুল্য y খুঁজে বের করে, এবং খুঁজে বের করে যে, এর মধ্যে সবচেয়ে বড়টি হল ফাংশন[-2,2] এর সর্বোচ্চ মান
ছবি ২
1000 টি সিমুলেশন পরে 185.12292832389875 (খুব নির্ভুল)
এখানে দেখুন, আপনারা বুঝতে পেরেছেন। কোডটি হাতে লেখা যায়, খুব মজার! উইকিপিডিয়ার সর্বজনীন সংস্করণ থেকে পুনর্নির্দেশিত