Dalam memahami masalah pembelajaran mesin yang perlu kita selesaikan.http://machinelearningmastery.com/practical-machine-learning-problems/Selepas itu, kita boleh berfikir tentang apa data yang kita perlukan untuk dikumpulkan dan apa algoritma yang boleh kita gunakan. Dalam artikel ini, kita akan melihat algoritma pembelajaran mesin yang paling popular dan melihat secara kasar apa yang boleh digunakan dan sangat membantu. Terdapat banyak algoritma dalam bidang pembelajaran mesin, dan setiap algoritma mempunyai banyak ekstensi, jadi sukar untuk menentukan algoritma yang betul untuk masalah tertentu. Dalam artikel ini, saya ingin memberi anda dua kaedah untuk meringkaskan algoritma yang akan dihadapi dalam kehidupan sebenar.
Algoritma dikategorikan kepada pelbagai jenis berdasarkan bagaimana mereka memproses pengalaman, persekitaran atau apa sahaja data yang kita sebut sebagai input.
Hanya beberapa gaya pembelajaran atau model pembelajaran utama yang dibincangkan di sini, dan beberapa contoh asas. Pendekatan pengelompokan atau organisasi ini baik kerana ia memaksa anda untuk memikirkan peranan dan proses penyediaan model untuk memasukkan data dan kemudian memilih algoritma yang paling sesuai dengan masalah anda untuk mendapatkan hasil yang terbaik.
Pembelajaran pengawasan: data yang dimasukkan dipanggil data latihan, dan mempunyai hasil yang diketahui atau ditandakan. Contohnya, sama ada e-mel adalah spam, atau harga saham dalam tempoh masa. Model membuat ramalan, dan jika salah, ia akan diperbetulkan. Proses ini berterusan sehingga ia mencapai beberapa standard yang betul untuk data latihan. Pembelajaran tanpa pengawasan: data input tidak ditandakan dan tidak mempunyai hasil yang pasti. Model mengindikasikan struktur dan nilai-nilai data. Contoh masalah termasuk pembelajaran peraturan persatuan dan masalah pengelompokan, contoh algoritma termasuk algoritma Apriori dan algoritma nilai purata K. Pembelajaran separa pengawasan: data input adalah campuran data yang ditandakan dan tidak ditandakan, terdapat beberapa masalah ramalan tetapi model juga perlu mempelajari struktur dan komposisi data. Contoh masalah termasuk masalah pengelasan dan regresi, contoh algoritma pada dasarnya merupakan lanjutan algoritma pembelajaran tanpa pengawasan. Pembelajaran yang dipertingkatkan: data input boleh merangsang model dan membuat model bertindak balas. Maklumat maklum balas tidak hanya diperoleh daripada proses pembelajaran pengawasan pembelajaran, tetapi juga daripada ganjaran atau hukuman dalam persekitaran. Contoh masalah adalah kawalan robot, contoh algoritma termasuk Q-learning dan pembelajaran perbezaan temporal.
Apabila mengintegrasikan data untuk membuat keputusan perniagaan, kebanyakan menggunakan kaedah pembelajaran pengawasan dan pembelajaran tanpa pengawasan. Topik terkini adalah pembelajaran separa pengawasan, seperti masalah klasifikasi imej, yang mempunyai pangkalan data yang besar, tetapi hanya sebahagian kecil imej yang ditandakan. Pembelajaran dipertingkatkan juga digunakan dalam pembangunan kawalan robot dan sistem kawalan lain.
Algoritma pada dasarnya dikategorikan berdasarkan fungsi atau bentuknya. Contohnya, algoritma berasaskan pokok, algoritma rangkaian saraf. Ini adalah satu cara yang berguna untuk dikategorikan, tetapi tidak sempurna. Oleh kerana terdapat banyak algoritma yang boleh dikategorikan dengan mudah ke dalam dua kategori, seperti pembelajaran vektor kuantifikasi yang merupakan algoritma kelas rangkaian saraf dan kaedah berasaskan contoh.
Dalam bahagian ini saya menyenaraikan algoritma yang saya anggap sebagai kaedah yang paling intuitif untuk mengklasifikasikan. Saya tidak mempunyai semua algoritma atau kaedah klasifikasi, tetapi saya fikir ia sangat membantu untuk memberi pembaca gambaran keseluruhan.
Analisis regresi adalah mengenai hubungan antara pembolehubah. Ia menggunakan kaedah statistik, contoh beberapa algoritma termasuk:
Kuadrat Kecil Biasa Kemunduran Logistik Kemunduran Peringkat Splines Regresi Adaptif Multivariate (MARS) Penghalusan Scatterplot yang Dianggarkan Secara Lokal (LOESS)
Pembelajaran berasaskan contoh adalah simulasi masalah keputusan, contoh atau contoh yang digunakan sangat penting untuk model. Pendekatan ini membina pangkalan data data yang ada dan menambah data baru, kemudian menggunakan kaedah pengukuran kemiripan untuk mencari pencocokan terbaik dalam pangkalan data dan membuat ramalan. Oleh itu, kaedah ini juga dikenali sebagai kaedah pemenang raja dan kaedah berasaskan memori.
k - Jiran terdekat (kNN) Pembelajaran Kuantisasi Vektor (LVQ) Peta Penyelenggaraan Sendiri (SOM)
Ini adalah satu lanjutan kepada kaedah lain (biasanya kaedah regresi) yang lebih baik untuk model yang lebih mudah dan lebih baik untuk mengindikasikan. Saya menyenaraikannya di sini kerana popular dan kuat.
Regresi Ridge Operator Penyusutan dan Pemilihan Absolut Minimum (LASSO) Jaring Elastik
Kaedah pokok keputusan membina model keputusan berdasarkan nilai sebenar dalam data. Pokok keputusan digunakan untuk menyelesaikan masalah induksi dan regresi.
Klasifikasi dan Pokok Regresi (CART) Iteratif Dikotomiser 3 (ID3) C4.5 Pengesanan interaksi automatik Chi-kuadrat (CHAID) Stump Keputusan Hutan Rancuran Splines Regresi Adaptif Multivariate (MARS) Mesin Peningkatan Gradient (GBM)
Kaedah Bayesian menggunakan kaedah teorema Bayesian dalam menyelesaikan masalah klasifikasi dan regresi.
Bayes yang Naif Perkiraan purata satu-ketergantungan (AODE) Rangkaian Kepercayaan Bayesian (BBN)
Kaedah Kernel yang paling terkenal ialah Support Vector Machines. Kaedah ini memetakan data input ke dimensi yang lebih tinggi, yang memudahkan pemodelan beberapa masalah klasifikasi dan regresi.
Mesin Vektor Sokongan (SVM) Fungsi Asas Radial (RBF) Analisis Diskriminasi Linear (LDA)
Pengelompokan (clustering), sendiri menggambarkan masalah dan kaedah. Kaedah pengelompokan biasanya dikategorikan oleh cara pemodelan. Semua kaedah pengelompokan mengatur data dengan struktur data yang seragam, sehingga setiap kumpulan mempunyai kesamaan yang paling banyak.
K-Rata-rata Peningkatan jangkaan (EM)
Pembelajaran peraturan persatuan (Association rule learning) adalah satu kaedah yang digunakan untuk mendapatkan undang-undang antara data, yang membolehkan hubungan antara data ruang pelbagai dimensi yang besar dijumpai, dan hubungan penting ini boleh digunakan oleh organisasi.
Algoritma Apriori Algoritma Eclat
Rangkaian saraf buatan (AI) diilhamkan dari struktur dan fungsi rangkaian saraf biologi. Ia termasuk dalam kategori pencocokan corak yang sering digunakan untuk masalah regresi dan klasifikasi, tetapi terdapat beratus-ratus algoritma dan komposisi variasi. Beberapa daripada mereka adalah algoritma klasik yang popular (saya mengambil pembelajaran mendalam secara berasingan):
Perceptron Penyebaran Kembali Rangkaian Hopfield Peta Penyelenggaraan Sendiri (SOM) Pembelajaran Kuantisasi Vektor (LVQ)
Kaedah pembelajaran mendalam (dalam bahasa Inggeris: deep learning) adalah satu pembaharuan moden terhadap rangkaian saraf buatan. Ia mempunyai lebih banyak struktur rangkaian yang lebih kompleks berbanding rangkaian saraf tradisional, dan banyak kaedah yang berkaitan dengan pembelajaran semisupervised. Masalah pembelajaran ini mempunyai banyak data, tetapi sedikit yang ditandakan.
Mesin Boltzmann Terhad (RBM) Rangkaian Kepercayaan mendalam (DBN) Rangkaian Convolutional Pengekod Otomatis yang ditumpuk
Pengurangan Dimensionaliti (dimensionality reduction), seperti kaedah pengumpulan, mengamalkan dan menggunakan struktur yang seragam dalam data, tetapi ia menggunakan lebih sedikit maklumat untuk mengindikasikan dan menggambarkan data. Ini berguna untuk memvisualisasikan atau menyederhanakan data.
Analisis Komponen Utama (PCA) Kemunduran Kuadrat Kecil (PLS) Pemetaan Sammon Pengukuran Multidimensional (MDS) Percubaan Projeksi
Ensemble methods (cara gabungan) terdiri daripada banyak model kecil yang telah dilatih secara bebas, membuat kesimpulan secara bebas, dan akhirnya membentuk ramalan keseluruhan. Banyak kajian memberi tumpuan kepada apa model yang digunakan dan bagaimana model-model ini digabungkan.
Meningkatkan Pengumpulan Bootstrapped (Bagging) AdaBoost Generalisasi yang ditumpuk (pencampuran) Mesin Peningkatan Gradient (GBM) Hutan Rancuran
Ini adalah satu contoh yang disesuaikan dengan kaedah gabungan (dari wiki), setiap kaedah kebakaran ditunjukkan dalam warna kelabu, dan ramalan akhir yang disusun akhirnya adalah merah.
Lawatan ini bertujuan untuk memberi anda gambaran keseluruhan tentang algoritma dan alat yang berkaitan dengan algoritma.
Berikut adalah beberapa sumber lain, jangan terlalu banyak, lebih baik anda mengetahui lebih banyak algoritma, tetapi pengetahuan yang mendalam tentang beberapa algoritma juga berguna.
Dibaharui oleh: Bello Column/Developer Python