Dalam pembelajaran mesin, matlamatnya adalah untuk meramalkan (prediction) atau mengelompokkan (clustering). Kajian ini memberi tumpuan kepada ramalan. Ramalan adalah proses untuk meramalkan nilai pembolehubah output dari satu set pembolehubah input. Sebagai contoh, dengan mendapatkan satu set ciri rumah yang berkaitan, kita boleh meramalkan harga jualannya. Soalan ramalan boleh dibahagikan kepada dua kategori: 1. Dengan ini, mari kita lihat algoritma yang paling terkenal dan paling biasa digunakan dalam pembelajaran mesin. Kami telah membahagikan algoritma ini kepada tiga kategori: model linear, model berasaskan pokok, dan rangkaian saraf, dengan tumpuan kepada 6 algoritma yang paling biasa digunakan:
Regresi linear, atau lebih tepatnya, regresi dua kali ganda terendah, adalah bentuk paling standard untuk model linear. Untuk masalah regresi, regresi linear adalah model linear yang paling mudah. Kelemahannya adalah model mudah disesuaikan, iaitu model sepenuhnya menyesuaikan diri dengan data yang telah dilatih, dengan mengorbankan keupayaan untuk menyebarkan ke data baru. Oleh itu, regresi linear dalam pembelajaran mesin (dan regresi logik yang akan kita bincangkan di bawah) biasanya adalah regresi linear, yang bermaksud bahawa model mempunyai hukuman tertentu untuk mencegah overfitting.
Kelemahan lain kepada model linear ialah kerana mereka sangat mudah, mereka tidak mudah meramalkan tingkah laku yang lebih kompleks apabila pembolehubah input tidak bebas.
Regresi logik adalah penyesuaian regresi linear kepada masalah klasifikasi. Kelemahan regresi logik adalah sama dengan regresi linear. Fungsi logik sangat baik untuk masalah klasifikasi kerana ia memperkenalkan kesan ambang.
Pokok keputusan adalah gambaran setiap kemungkinan keputusan yang ditunjukkan menggunakan kaedah cabang. Sebagai contoh, anda memutuskan untuk memesan salad, keputusan pertama anda mungkin jenis lobak mentah, kemudian hidangan, dan kemudian jenis salad. Kita boleh menunjukkan semua kemungkinan keputusan dalam pokok keputusan.
Untuk melatih pokok keputusan, kita perlu menggunakan set data latihan dan mencari sifat yang paling berguna untuk sasaran. Sebagai contoh, dalam contoh penggunaan pengesanan penipuan, kita mungkin mendapati bahawa sifat yang paling berpengaruh terhadap ramalan risiko penipuan adalah negara. Setelah bercabang dengan sifat pertama, kita mendapat dua subset, yang merupakan ramalan yang paling tepat jika kita hanya tahu sifat pertama. Kemudian kita mencari sifat kedua yang terbaik yang boleh dibahagi kepada kedua subset ini, menggunakan pembahagian lagi, dan seterusnya sehingga cukup banyak sifat dapat memenuhi keperluan sasaran.
Hutan rawak adalah purata banyak pokok keputusan, di mana setiap pokok keputusan dilatih dengan sampel data rawak. Setiap pokok dalam hutan rawak lebih lemah daripada pokok keputusan yang lengkap, tetapi meletakkan semua pokok bersama, kita dapat memperoleh prestasi keseluruhan yang lebih baik kerana kelebihan kepelbagaian.
Hutan rawak adalah algoritma yang sangat popular dalam pembelajaran mesin hari ini. Hutan rawak mudah dilatih, dan menunjukkan prestasi yang agak baik. Kelemahannya adalah bahawa ramalan output hutan rawak mungkin lambat berbanding dengan algoritma lain, jadi mungkin tidak memilih hutan rawak apabila ramalan cepat diperlukan.
Gradient Boosting, seperti hutan rawak, juga terdiri daripada pokok keputusan yang lemah. Perbezaan terbesar antara Gradient Boosting dan hutan rawak adalah bahawa dalam Gradient Boosting, pokok-pokok dilatih satu demi satu. Setiap pokok di belakang dilatih terutamanya oleh pokok di hadapan untuk mengenal pasti data yang salah.
Latihan untuk meningkatkan gradien juga cepat dan sangat baik. Walau bagaimanapun, perubahan kecil dalam set data latihan boleh menyebabkan perubahan mendasar pada model, jadi hasilnya mungkin tidak paling sesuai.
Dibaharui dari Dataran Besar