Sebagai orang yang sering menerangkan pembelajaran mesin kepada orang bukan profesional, saya meringkaskan 10 perkara berikut sebagai beberapa penjelasan mengenai pembelajaran mesin.
Pembelajaran mesin tidak seperti pengiklanan yang tidak menentu: dengan memberikan data latihan yang sesuai kepada algoritma pembelajaran yang betul, anda boleh menyelesaikan pelbagai masalah. Panggillah ia AI jika ini membantu menjual sistem AI anda. Tetapi ketahuilah, AI hanya perkataan yang modis, yang hanya mewakili apa yang diharapkan oleh orang tentangnya.
Perkembangan algoritma pembelajaran mesin, terutamanya pembelajaran mendalam, mempunyai banyak perkara yang menarik. Tetapi data adalah faktor utama yang membolehkan pembelajaran mesin. Pembelajaran mesin boleh dilakukan tanpa algoritma yang rumit, tetapi tidak boleh dilakukan tanpa data yang baik.
Pembelajaran mesin melatih model berdasarkan corak dalam data, meneroka ruang model mungkin yang ditakrifkan oleh parameter. Jika ruang parameter terlalu besar, ia akan terlalu sesuai untuk data latihan, dan melatih model yang tidak dapat menggeneralisasikan diri. Jika perlu menjelaskan secara terperinci, lebih banyak perhitungan matematik diperlukan, dan anda harus mengambil ini sebagai panduan untuk membuat model anda sesederhana mungkin.
Ada pepatah yang mengatakan bahawa jika anda memasukkan sampah ke komputer, outputnya pasti akan menjadi sampah data. Walaupun perkataan ini muncul sebelum pembelajaran mesin, ini adalah batasan utama pembelajaran mesin. Pembelajaran mesin hanya dapat mencari corak yang ada dalam data latihan. Untuk memantau tugas pembelajaran mesin (seperti pengelasan), anda memerlukan satu set data latihan yang kuat, ditandakan dengan betul, dan kaya.
oi Seperti yang diperingatkan dalam buku panduan dana, prestasi masa lalu tidak menjamin hasil masa depan. Pembelajaran mesin juga harus mengeluarkan kenyataan amaran yang sama: ia hanya dapat bekerja berdasarkan data yang sama dengan data latihan. Oleh itu, perlu berhati-hati terhadap penyimpangan antara data latihan dan data pengeluaran, dan mengulangi model latihan secara berkala untuk memastikan ia tidak ketinggalan zaman.
Di bawah propaganda teknologi pembelajaran mesin yang kacau, anda mungkin berfikir bahawa pembelajaran mesin hanya melakukan pilihan dan penyesuaian algoritma. Tetapi kenyataannya tidak menghairankan: kebanyakan masa dan tenaga anda akan dibelanjakan untuk membersihkan data dan pembinaan ciri, iaitu mengubah ciri asal menjadi ciri yang lebih mewakili isyarat data.
Pembelajaran mendalam juga mendapat sambutan yang tinggi kerana pembelajaran mesin telah digunakan dan berkembang dalam banyak bidang. Selain itu, pembelajaran mendalam mendorong beberapa kerja yang secara tradisional dilakukan melalui kejuruteraan ciri untuk menjadi automatik, terutamanya untuk data imej dan video. Tetapi pembelajaran mendalam bukanlah ubat yang baik. Tidak ada yang siap pakai yang boleh anda gunakan, anda masih perlu memasukkan banyak tenaga untuk membersihkan dan mengubah data.
Permohonan maaf kepada NRA, algoritma pembelajaran mesin tidak membunuh, tetapi membunuh. Apabila sistem pembelajaran mesin gagal, ia jarang berlaku kerana algoritma pembelajaran mesin mempunyai masalah. Kemungkinan lebih besar, kesilapan buatan telah dimasukkan ke dalam data latihan, yang menyebabkan penyimpangan atau kesalahan sistem lain. Kita harus sentiasa bersikap skeptis dan menggunakan kaedah yang sesuai untuk kejuruteraan perisian untuk menangani pembelajaran mesin.
Dalam banyak aplikasi pembelajaran mesin, keputusan yang anda buat hari ini akan mempengaruhi data latihan yang akan dikumpulkan esok. Apabila sistem pembelajaran mesin memasukkan kecacatan ke dalam model, ia boleh terus menghasilkan data latihan baru yang diperkuat oleh kecacatan. Dan, beberapa kecacatan mungkin merosakkan kehidupan orang.
Sebilangan besar orang seolah-olah mendapat konsep tentang kecerdasan buatan dari filem-filem sains. Kita sepatutnya mendapat inspirasi dari fiksyen sains, tetapi tidak boleh begitu bodoh, salah sangka novel itu adalah realiti. Dari manusia yang sedar jahat kepada model pembelajaran mesin yang tidak sedar yang menyimpang, terdapat terlalu banyak realiti dan bahaya yang perlu dibimbangkan.
Maklumat yang berkaitan dengan pembelajaran mesin jauh lebih banyak daripada 10 perkara yang saya sebutkan di atas.
Dibaharui daripada Global AI Big Data Plateau