महिलाओं और सज्जनों, अपने दांव लगाओ. आज हम एक ऑरेंज को हराने के लिए अपना सर्वश्रेष्ठ प्रयास करेंगे, जिसे वित्तीय दुनिया में सबसे भयानक प्रतिद्वंद्वियों में से एक माना जाता है। हम कोशिश कर रहे हैं कि हम अगले दिन की कमाई का अनुमान लगा सकें। मैं आपको विश्वास दिलाता हूं कि एक ऑरेंज को हराने के लिए 50% जीतने की संभावना है। हम एक तैयार मशीन सीखने वाले एल्गोरिथ्म का उपयोग करेंगे जो वेक्टर वर्गीकरण का समर्थन करता है। एसवीएम वेक्टर मशीन प्रतिगमन और वर्गीकरण कार्यों को हल करने के लिए एक अविश्वसनीय रूप से शक्तिशाली तरीका है।
एसवीएम वेक्टर मशीन इस विचार पर आधारित है कि हम एक सुपरप्लेन के खिलाफ एक p-dimensional विशेषता स्थान का उपयोग करके वर्गीकरण कर सकते हैं। एसवीएम वेक्टर मशीन एल्गोरिदम एक सुपरप्लेन और एक पहचान मार्जिन का उपयोग करके वर्गीकरण निर्णय सीमाओं का निर्माण करता है, जैसा कि नीचे चित्रित है।
सबसे सरल मामलों में, रैखिक वर्गीकरण संभव है. एल्गोरिथ्म निर्णय सीमा का चयन करता है, जो वर्गों के बीच की दूरी को अधिकतम कर सकता है.
अधिकांश वित्तीय समय अनुक्रमों में, आपको सरल, रैखिक रूप से अलग करने योग्य सेटों का सामना करना पड़ सकता है, लेकिन असतत स्थितियों का सामना करना पड़ सकता है। एसवीएम वेक्टर मशीन ने इस समस्या को एक विधि को लागू करके हल किया है जिसे सॉफ्ट मार्जिन विधि कहा जाता है।
इस मामले में, कुछ गलत वर्गीकरण की स्थिति की अनुमति है, लेकिन वे अपने आप में कार्य करते हैं, ताकि C (जिसकी लागत या बजट में त्रुटि की अनुमति दी जा सकती है) के साथ सापेक्ष कारक और सीमा तक त्रुटि की दूरी को कम से कम किया जा सके।
मूल रूप से, मशीनें वर्गीकरण के बीच के अंतराल को अधिकतम करती हैं, जबकि C-भारित दंड वस्तुओं को कम करती हैं।
एसवीएम वर्गीकरण का एक शानदार विशेषता यह है कि वर्गीकृत निर्णय सीमाओं का स्थान और आकार केवल कुछ डेटा द्वारा निर्धारित किया जाता है, अर्थात् निर्णय सीमाओं से निकटतम डेटा। इस एल्गोरिथ्म की विशेषता यह है कि यह दूर के अंतराल पर असामान्य मानों के विघटन का सामना करने में सक्षम है। उदाहरण के लिए, ऊपर दिए गए चित्र में, सबसे दाईं ओर नीले बिंदु, निर्णय सीमाओं पर बहुत कम प्रभाव डालते हैं।
क्या यह बहुत जटिल है? ठीक है, मुझे लगता है कि मज़ा अभी शुरू हो रहा है।
उदाहरण के लिए, यदि आप लाल रंग के बिंदुओं को अलग करते हैं, तो निम्न स्थितियों पर विचार करेंः
मनुष्य के लिए, यह वर्गीकृत करना बहुत सरल है (एक घन रेखा भी) । लेकिन मशीन के लिए यह अलग है। जाहिर है, यह एक सीधी रेखा नहीं बन सकती है (एक सीधी रेखा लाल बिंदुओं को अलग नहीं कर सकती है) । यहां हम एक कर्नेल चाल का प्रयास कर सकते हैं।
Kernel Technique एक बहुत ही स्मार्ट गणित तकनीक है जो हमें उच्च आयामी स्थान में linear classification problem हल करने में सक्षम बनाती है। अब हम देखते हैं कि यह कैसे किया जाता है।
हम दो-आयामी विशेषता स्थान को तीन-आयामी में परिवर्तित करते हैं और वर्गीकरण पूरा करने के बाद दो-आयामी में लौटते हैं।
नीचे दिए गए चित्रों में, क्रमशः ऊंचाइयों का मानचित्रण और वर्गीकरण पूरा होने के बादः
आम तौर पर, यदि d इनपुट है, तो आप d आयामी इनपुट स्पेस से p आयामी विशेषता स्पेस में एक मैपिंग का उपयोग कर सकते हैं. उपरोक्त न्यूनतमकरण एल्गोरिथ्म को चलाने से समाधान उत्पन्न होगा, और फिर अपने मूल इनपुट स्पेस के p आयामी सुपरप्लेन को वापस मैप करें.
उपरोक्त गणितीय समाधान की महत्वपूर्ण शर्त यह है कि यह विशेषता स्थान में एक अच्छा बिंदु नमूना सेट उत्पन्न करने पर निर्भर करता है।
आपको सीमा अनुकूलन करने के लिए केवल इन बिंदुओं के नमूना सेट की आवश्यकता होती है, मैपिंग को स्पष्ट होने की आवश्यकता नहीं होती है, और इनपुट स्पेस के बिंदुओं को उच्च आयामी विशेषता स्पेस में नाभिक फ़ंक्शन ((और एक बिट मर्सर प्रमेय की मदद से) सुरक्षित रूप से गणना की जा सकती है।
उदाहरण के लिए, आप एक सुपर-बड़ी विशेषता अंतरिक्ष में अपने वर्गीकरण समस्या को हल करना चाहते हैं, मान लीजिए कि यह 100,000 आयाम है। क्या आप कल्पना कर सकते हैं कि आपको क्या गणना करने की आवश्यकता है? मैं इस बात पर बहुत संदेह करता हूं कि आप इसे पूरा कर सकते हैं। ठीक है, कोर अब आपको इन बिंदु नमूनों को गणना करने देता है, इसलिए यह किनारा आपके आरामदायक इनपुट स्पेस से आता है।
अब हम जेफ को हराने की भविष्यवाणी करने की चुनौती का सामना करने के लिए तैयार हैं।
जेफ एक मुद्रा बाजार के विशेषज्ञ हैं, जो अगले ट्रेडिंग दिन की आय का संकेत देने के लिए 50 प्रतिशत सटीकता के साथ बेतरतीब तरीके से दांव लगा सकते हैं।
हम विभिन्न बुनियादी समय क्रम का उपयोग करेंगे, जिसमें वर्तमान मूल्य समय क्रम शामिल है, जिसमें से प्रत्येक समय क्रम में कुल 55 सुविधाओं के लिए 10 लेग्स तक का लाभ होगा।
हम जो एसवीएम वेक्टर मशीन बनाने जा रहे हैं, वह 3 डिग्री के कोर का उपयोग करती है। आप सोच सकते हैं कि एक उपयुक्त कोर का चयन करना एक और बहुत कठिन कार्य है, और 3 गुना क्रॉस-प्रमाणन संभव पैरामीटर संयोजनों के ग्रिड पर चल रहा है, ताकि सी और जी पैरामीटर को मान्य किया जा सके, और सबसे अच्छा सेट चुना जाएगा।
इस तरह के लोगों के लिए, यह बहुत अच्छा नहीं है।
हम देख सकते हैं कि दोनों रैखिक प्रतिगमन और एसवीएम वेक्टर जेफ को हरा सकते हैं। हालांकि परिणाम आशाजनक नहीं हैं, हम डेटा से कुछ जानकारी भी निकाल सकते हैं, जो पहले से ही अच्छी खबर है, क्योंकि डेटा विज्ञान में, वित्तीय समय अनुक्रमों के दैनिक लाभ सबसे उपयोगी नहीं हैं।
क्रॉस-प्रूफिंग के बाद, डेटासेट को प्रशिक्षित और परीक्षण किया जाएगा, और हमने प्रशिक्षित एसवीएम की भविष्यवाणी करने की क्षमता दर्ज की, और एक स्थिर प्रदर्शन के लिए, हमने प्रत्येक मुद्रा के लिए 1000 बार यादृच्छिक विभाजन दोहराया।
इस प्रकार, कुछ मामलों में, एसवीएम सरल रैखिक प्रतिगमन से बेहतर है, लेकिन प्रदर्शन में थोड़ा अंतर भी है। डॉलर और येन में, उदाहरण के लिए, हम औसत पर अनुमानित संकेतों का 54% हिस्सा बनाते हैं। यह काफी अच्छा परिणाम है, लेकिन आइए अधिक बारीकी से देखें!
टेड जेफ का चचेरा भाई है, और यह निश्चित रूप से एक गोरिल्ला है, लेकिन यह जेफ से अधिक बुद्धिमान है। टेड ने प्रशिक्षण नमूना सेट पर ध्यान दिया, न कि यादृच्छिक दांव पर। वह हमेशा प्रशिक्षण सेट के सबसे आम आउटपुट से संकेत देता है। चलो अब स्मार्ट टेड के साथ एक संदर्भ के रूप मेंः
जैसा कि हम देख सकते हैं, अधिकांश एसवीएम का प्रदर्शन केवल इस तथ्य से आता है कि मशीन सीखने से वर्गीकरण पहले के समान होने की संभावना नहीं है। वास्तव में, रैखिक पुनरावृत्ति विशेषता अंतरिक्ष से कोई जानकारी प्राप्त नहीं कर सकती है, लेकिन पुनरावृत्ति में इंटरसेप्ट का अर्थ है, और यह तथ्य है कि एक वर्गीकरण के लिए अधिक से अधिक प्रदर्शन करने के लिए इंटरसेप्ट और रिलेटेड है।
थोड़ा बेहतर खबर यह है कि एसवीएम वेक्टर डेटा से कुछ अतिरिक्त गैर-रैखिक जानकारी प्राप्त करने में सक्षम है, जो हमें भविष्यवाणियों की सटीकता का 2% सुझाव देता है।
दुर्भाग्य से, हम अभी तक यह नहीं जानते कि यह किस तरह की जानकारी हो सकती है, जैसे कि एसवीएम वेक्टर मशीन का अपना मुख्य नुकसान है, जिसे हम स्पष्ट रूप से नहीं बता सकते हैं।
लेखक: पी. लोपेज़, क्वांटडारे पर प्रकाशित WeChat के सार्वजनिक नंबर से पुनर्प्रकाशित
गोल्डन9966क्रूर