Dalam pembelajaran mesin, tujuan adalah untuk membuat prediksi (prediction) atau mengelompokkan (clustering). Fokus artikel ini adalah pada prediksi. Prediksi adalah proses untuk memperkirakan nilai variabel output dari seperangkat variabel input. Sebagai contoh, dengan mendapatkan seperangkat karakteristik tentang sebuah rumah, kita dapat memprediksi harga jualnya. Setelah mengetahui hal ini, mari kita lihat algoritma yang paling menonjol dan paling umum digunakan dalam pembelajaran mesin. Kami akan membaginya menjadi tiga kategori: model linier, model berbasis pohon, dan jejaring saraf.
Regresi linier, atau lebih tepatnya regresi dua kali lipat terendah, adalah bentuk paling standar dari model linier. Untuk masalah regresi, regresi linier adalah model linier termudah. Kekurangannya adalah model mudah overfitting, yaitu model sepenuhnya beradaptasi dengan data yang telah dilatih, dengan mengorbankan kemampuan untuk menyebarkan ke data baru. Oleh karena itu, regresi linier dalam pembelajaran mesin (dan regresi logis yang akan kita bicarakan di bawah ini) seringkali adalah regresi linier, yang berarti model memiliki hukuman tertentu untuk mencegah overfitting.
Kelemahan lain dari model linier adalah karena mereka sangat sederhana, mereka tidak mudah memprediksi perilaku yang lebih kompleks ketika variabel input tidak independen.
Regresi logis adalah adaptasi regresi linear terhadap masalah klasifikasi. Kelemahan dari regresi logis adalah sama dengan regresi linear. Fungsi logis sangat bagus untuk masalah klasifikasi karena ia memperkenalkan efek ambang batas.
Pohon keputusan adalah ilustrasi dari setiap kemungkinan hasil dari keputusan yang digunakan untuk menunjukkan metode percabangan. Misalnya, Anda memutuskan untuk memesan salad, dan keputusan pertama Anda mungkin adalah jenis lobak mentah, kemudian sayur-sayuran, dan kemudian jenis lobak. Kita dapat menunjukkan semua kemungkinan hasil dalam pohon keputusan.
Untuk melatih pohon keputusan, kita perlu menggunakan dataset pelatihan dan mencari atribut yang paling berguna untuk tujuan tersebut. Misalnya, dalam contoh penggunaan deteksi penipuan, kita mungkin menemukan bahwa atribut yang paling berpengaruh pada prediksi risiko penipuan adalah negara. Setelah bercabang dengan atribut pertama, kita mendapatkan dua subset, yang merupakan prediksi yang paling akurat jika kita hanya mengetahui atribut pertama. Kemudian kita mencari atribut kedua yang paling baik yang dapat bercabang dengan dua subset ini, menggunakan pembagian lagi, dan seterusnya sampai cukup banyak atribut dapat memenuhi kebutuhan target.
Hutan acak adalah rata-rata dari banyak pohon keputusan, di mana setiap pohon keputusan dilatih dengan sampel data acak. Setiap pohon dalam hutan acak lebih lemah daripada pohon keputusan yang utuh, tetapi menempatkan semua pohon bersama, kita bisa mendapatkan kinerja keseluruhan yang lebih baik karena keuntungan dari keragaman.
Hutan acak adalah algoritma yang sangat populer dalam pembelajaran mesin saat ini. Hutan acak mudah dilatih, dan tampil cukup baik. Kelemahannya adalah bahwa, dibandingkan dengan algoritma lain, hutan acak dapat menghasilkan prediksi yang lambat, sehingga mungkin tidak memilih hutan acak ketika Anda membutuhkan prediksi cepat.
Gradient Boosting, seperti hutan acak, juga terdiri dari pohon keputusan yang lemah. Perbedaan terbesar dari hutan acak adalah bahwa dalam gradient boosting, pohon-pohon yang dilatih secara berurutan. Setiap pohon di belakang dilatih terutama oleh pohon di depan yang mengidentifikasi data yang salah.
Pelatihan untuk meningkatkan gradien juga cepat dan sangat baik. Namun, perubahan kecil dalam kumpulan data pelatihan dapat menyebabkan perubahan mendasar pada model, sehingga hasilnya mungkin tidak paling praktis.
Dipindahkan dari Big Data Landscape