Artikel ini menerangkan analisis regresi dan kelebihan-kelebihannya, memberi tumpuan kepada ringkasan tujuh teknik regresi yang paling biasa digunakan, iaitu regresi linear, regresi logik, regresi polynomial, regresi beransur-ansur, regresi kerucut, regresi permintaan, regresi ElasticNet dan elemen-elemen penting yang harus dikuasai, dan akhirnya memperkenalkan faktor-faktor penting dalam memilih model regresi yang betul. ** ** Analisis regresi butang pengkompiler adalah alat penting untuk pemodelan dan analisis data. Artikel ini menerangkan makna dan kelebihan analisis regresi, dengan memberi tumpuan kepada ringkasan tujuh teknik regresi yang paling biasa digunakan, iaitu regresi linear, regresi logik, regresi multi-item, regresi beransur-ansur, regresi acuan, regresi ElasticNet, dan elemen-elemen penting mereka, dan akhirnya memperkenalkan faktor-faktor penting dalam memilih model regresi yang betul.
Analisis regresi adalah teknik pemodelan prediktif yang mengkaji hubungan antara pembolehubah disebabkan (target) dan pembolehubah sendiri (predictor). Teknik ini sering digunakan untuk analisis prediktif, model urutan masa dan hubungan sebab antara pembolehubah yang ditemui. Sebagai contoh, hubungan antara pemandu yang tidak berhati-hati dan jumlah kemalangan jalan raya, kaedah penyelidikan yang terbaik adalah regresi.
Analisis regresi adalah alat penting untuk pemodelan dan analisis data. Di sini, kita menggunakan kurva/garis untuk menyesuaikan titik-titik data ini, dengan cara ini, perbezaan jarak dari kurva atau garis ke titik data adalah minimum. Saya akan menerangkan ini secara terperinci di bahagian seterusnya.
Seperti yang dinyatakan di atas, analisis regresi menganggarkan hubungan antara dua atau lebih pembolehubah. Di bawah, mari kita berikan contoh mudah untuk memahaminya:
Sebagai contoh, dalam keadaan ekonomi semasa, anda perlu menganggarkan pertumbuhan jualan syarikat. Sekarang, anda mempunyai data terkini syarikat yang menunjukkan pertumbuhan jualan adalah kira-kira 2.5 kali pertumbuhan ekonomi. Kemudian menggunakan analisis regresi, kita boleh meramalkan jualan syarikat masa depan berdasarkan maklumat semasa dan masa lalu.
Penggunaan analisis regresi mempunyai banyak faedah.
Ia menunjukkan hubungan yang ketara antara pembolehubah sendiri dan pembolehubah disebabkan;
Ia menunjukkan kekuatan kesan pelbagai pembolehubah diri terhadap satu pembolehubah.
Analisis regresi juga membolehkan kita membandingkan kesan antara pembolehubah yang mengukur pelbagai skala, seperti hubungan antara perubahan harga dan jumlah aktiviti promosi. Ini membantu penyelidik pasaran, penganalisis data, dan saintis data mengecualikan dan menganggarkan satu set pembolehubah terbaik untuk membina model ramalan.
Terdapat pelbagai teknik regresi yang digunakan untuk membuat ramalan. Teknik ini mempunyai tiga metrik utama (jumlah individu dari pembolehubah, jenis pembolehubah dan bentuk garis regresi). Kami akan membincangkannya secara terperinci di bahagian berikut.
Bagi mereka yang kreatif, anda boleh membuat model regresi yang tidak digunakan jika anda merasa perlu menggunakan gabungan parameter di atas. Tetapi sebelum anda mula, ketahui kaedah regresi yang paling biasa digunakan:
Ia adalah salah satu teknik pemodelan yang paling dikenali. Regresi linear biasanya merupakan salah satu teknik pilihan ketika belajar model ramalan. Dalam teknik ini, kerana pembolehubah adalah berterusan, pembolehubah sendiri boleh berturut-turut atau bersatu, sifat garis regresi adalah linear.
Regresi linear menggunakan garis lurus yang paling sesuai (atau garis regresi) untuk mewujudkan hubungan antara pembolehubah akibat (Y) dan satu atau lebih pembolehubah diri (X).
Ia diwakili dengan persamaan, iaitu Y = a + b * X + e, di mana a menunjukkan jarak persimpangan, b menunjukkan kemiringan garis lurus, dan e adalah parameter ralat. Persamaan ini boleh meramalkan nilai pembolehubah sasaran berdasarkan pembolehubah ramalan yang diberikan.
Perbezaan antara regresi unilineal dan regresi multilineal ialah regresi multilineal mempunyai < 1 self-variable, sedangkan regresi unilineal biasanya hanya mempunyai satu self-variable. Sekarang persoalan adalah bagaimana kita mendapatkan garis yang paling sesuai?
Bagaimana untuk mendapatkan garis yang paling sesuai (nilai a dan b)?
Masalah ini boleh diselesaikan dengan mudah dengan penggandaan dua terendah. Penggandaan dua terendah juga merupakan kaedah yang paling biasa digunakan untuk menyamakan garisan regresi. Untuk data pengamatan, ia mengira garisan yang paling sesuai dengan meminimumkan jumlah persegi dua deviasi menegak dari setiap titik data ke garisan. Oleh kerana perpaduan adalah berturut-turut, nilai positif dan negatif tidak diimbangi.
Kita boleh menggunakan R-square untuk menilai prestasi model. Untuk maklumat terperinci mengenai indikator ini, anda boleh membaca: Model Performance Indicator Part 1, Part 2.
Perhatikan:
Regresi logik digunakan untuk mengira kebarangkalian kejadian Y = Kesuksesan Y dan kejadian Y = Kegagalan Y. Apabila jenis pembolehubah adalah binari ((1/0, benar/salah, ya/tidak) pembolehubah, kita harus menggunakan regresi logik. Di sini, nilai Y dari 0 hingga 1, ia boleh dinyatakan dengan persamaan berikut.
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
Dalam formula di atas, p menyatakan kebarangkalian mempunyai ciri tertentu. Anda harus bertanya soalan seperti ini: Kenapa kita menggunakan log log dalam formula?
Oleh kerana di sini kita menggunakan pembahagian dua (disebabkan oleh pemboleh ubah), kita perlu memilih fungsi penghubung yang terbaik untuk pembahagian ini. Ia adalah fungsi Logit. Dalam persamaan di atas, parameter dipilih dengan melihat nilai anggaran sampel yang sangat serupa, dan bukannya meminimumkan kuadrat dan kesilapan (seperti yang digunakan dalam regresi biasa).
Perhatikan:
Untuk persamaan regresi, jika indeks pembolehubah diri lebih besar daripada 1, maka ia adalah persamaan regresi berbilang.
y=a+b*x^2
Dalam teknik regresi ini, garis yang paling sesuai bukanlah garis lurus; tetapi merupakan kurva yang digunakan untuk menyesuaikan titik data.
Fungsi utama:
Dalam menangani pelbagai pembolehubah diri, kita boleh menggunakan bentuk regresi ini. Dalam teknik ini, pemilihan pembolehubah diri dilakukan dalam proses automatik, termasuk pengendalian bukan manusia.
Ini adalah usaha untuk mengenal pasti pembolehubah yang penting dengan melihat nilai statistik, seperti R-square, t-stats, dan penunjuk AIC. Regresi step by step dengan menambahkan/mengurangkan pembolehubah bersama berdasarkan kriteria tertentu untuk menyesuaikan model. Berikut adalah beberapa kaedah regresi step by step yang paling biasa digunakan:
Analisis regresi ion adalah satu teknik yang digunakan untuk data yang mempunyai pelbagai sinonim (yang berkaitan dengan ketinggian pembolehubah). Dalam keadaan sinonim ion, walaupun penggandaan minimum dua (OLS) adalah adil untuk setiap pembolehubah, perbezaan mereka sangat besar sehingga nilai pemerhatian menyimpang dan jauh dari nilai sebenar. Regresi ion mengurangkan ralat standard dengan menambah satu kelainan pada anggaran untuk kembali.
Di atas, kita melihat persamaan regresi linear. Ingat? Ia boleh dinyatakan sebagai:
y=a+ b*x
Persamaan ini juga mempunyai istilah ralat. Persamaan lengkap ialah:
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
Dalam persamaan linear, kesilapan ramalan boleh dipecah kepada dua sub-pembahagian. Satu adalah kesesuaian dan satu adalah perbezaan. Kesesuaian ramalan mungkin disebabkan oleh kedua-dua pecahan ini atau salah satu daripada keduanya. Di sini kita akan membincangkan kesalahan yang berkaitan yang disebabkan oleh perbezaan.
Kembalian helium menyelesaikan masalah kesemutan berganda dengan parameter pengecutan λ (lambda); lihat formula di bawah.
Dalam formula ini, terdapat dua komponen. Yang pertama adalah binomial terkecil, dan yang lain adalah λ kali β2 ((β-kuadrat), di mana β adalah faktor yang berkaitan. Untuk menyempitkan parameter, tambahkan kepada binomial terkecil untuk mendapatkan perbezaan kuadrat yang sangat rendah.
Perhatikan:
Ia menyerupai regresi ion, dengan Lasso (Least Absolute Shrinkage and Selection Operator) juga menghukum saiz nilai mutlak faktor regresi. Ia juga dapat mengurangkan perubahan dan meningkatkan ketepatan model regresi linear. Lihat formula di bawah:
Regresi Lasso sedikit berbeza dengan Regresi Ridge, yang menggunakan fungsi hukuman yang adalah nilai mutlak, bukan kuasa dua. Ini menyebabkan nilai hukuman (atau sama dengan jumlah nilai mutlak anggaran yang tertakluk) menjadikan hasil anggaran beberapa parameter sama dengan sifar. Penggunaan nilai hukuman yang lebih besar, anggaran lebih lanjut akan membuat nilai mengecil lebih dekat dengan sifar. Ini akan menyebabkan kita memilih pembolehubah dari n pembolehubah yang diberikan.
Perhatikan:
ElasticNet adalah gabungan antara Lasso dan teknik regresi Ridge. Ia menggunakan L1 untuk melatih dan L2 sebagai matriks yang diutamakan untuk menregulasi. ElasticNet berguna apabila terdapat beberapa ciri yang berkaitan. Lasso akan memilih salah satu daripada mereka secara rawak, sementara ElasticNet akan memilih dua.
Kelebihan sebenar antara Lasso dan Ridge ialah ia membolehkan ElasticNet mewarisi beberapa kestabilan Ridge dalam keadaan berputar.
Perhatikan:
Bagaimana untuk memilih model regresi yang betul?
Hidup sering menjadi lebih mudah apabila anda hanya tahu satu atau dua teknik. Saya tahu sebuah institusi latihan memberitahu pelajar mereka untuk menggunakan regresi linear jika hasilnya adalah berterusan. Jika ia adalah binari, gunakan regresi logik! Walau bagaimanapun, dalam proses kami, semakin banyak pilihan, semakin sukar untuk memilih yang betul.
Dalam model regresi pelbagai kelas, memilih teknik yang paling sesuai adalah penting berdasarkan jenis pembolehubah sendiri dan faktor pembolehubah, dimensi data, dan ciri asas lain data. Berikut adalah faktor-faktor penting untuk memilih model regresi yang betul:
Penjelajahan data adalah bahagian yang tidak dapat dielakkan dalam membina model ramalan. Ia harus menjadi langkah utama dalam memilih model yang sesuai, seperti mengenal pasti hubungan dan kesan pembolehubah.
Kelebihan yang lebih sesuai untuk model yang berbeza ialah kita boleh menganalisis parameter penunjuk yang berbeza, seperti parameter yang bermakna statistik, R-square, Adjusted R-square, AIC, BIC dan parameter ralat, yang lain adalah Mallows-Cp guideline. Ini adalah terutamanya dengan membandingkan model dengan semua submodel yang mungkin (atau memilih mereka dengan berhati-hati) untuk memeriksa penyimpangan yang mungkin berlaku dalam model anda.
Pemantauan silang adalah kaedah terbaik untuk menilai model ramalan. Di sini, pisahkan dataset anda kepada dua bahagian (satu untuk latihan dan satu untuk pengesahan). Menggunakan perbezaan rata sederhana antara nilai pemerhatian dan nilai ramalan untuk mengukur ketepatan ramalan anda.
Jika set data anda adalah pelbagai pembolehubah campuran, maka anda tidak boleh memilih kaedah pemilihan model automatik, kerana anda tidak boleh mahu meletakkan semua pembolehubah dalam model yang sama pada masa yang sama.
Ia juga akan bergantung kepada tujuan anda. Ada kemungkinan bahawa model yang kurang kuat lebih mudah dilaksanakan berbanding model yang mempunyai kepentingan statistik yang tinggi.
Kaedah regularizasi regresi (Lasso, Ridge, dan ElasticNet) berfungsi dengan baik dalam kes simon linear berganda antara dimensi tinggi dan pembolehubah set data.
Dipindahkan dari CSDN