Statistik Bayesian adalah disiplin matematika yang kuat dan memiliki aplikasi yang luas di banyak bidang, termasuk keuangan, penelitian medis, dan teknologi informasi. Hal ini memungkinkan kita untuk menggabungkan keyakinan sebelumnya dengan bukti untuk menghasilkan keyakinan baru yang memungkinkan kita untuk membuat keputusan yang lebih cerdas.
Dalam artikel ini, kami akan memberikan gambaran singkat tentang beberapa matematikawan utama yang mendirikan bidang ini.
Sebelum Bayes Untuk memahami statistik Bayesian dengan lebih baik, kita perlu kembali ke abad ke-18 dan merujuk pada matematikawan De Moivre dan karyanya The Principle of Chances.
Dalam makalahnya, De Moivre memecahkan banyak masalah pada zamannya yang berkaitan dengan probabilitas dan perjudian. Seperti yang mungkin Anda ketahui, solusinya pada salah satu masalah tersebut menyebabkan asal-usul distribusi normal, tetapi itu cerita lain.
Dia mengatakan bahwa dia tidak pernah melihat orang-orang seperti itu, dan dia tidak pernah melihat orang seperti itu.
Anda menggunakan koin yang adil untuk melempar tiga kali berturut-turut dan mendapatkan tiga peluang positif.
Membaca masalah yang dijelaskan dalam prinsip peluang taruhan, Anda mungkin memperhatikan bahwa sebagian besar dari masalah ini dimulai dengan asumsi dan kemudian menghitung probabilitas kejadian tertentu. Misalnya, dalam masalah di atas, ada asumsi bahwa koin itu adil, sehingga kemungkinan mendapatkan positif dalam undian adalah 0.5.
"Sebenarnya, saya tidak tahu apa yang akan terjadi di masa depan", katanya.
𝑃(𝑋|𝜃)
Tapi bagaimana jika kita tidak tahu apakah koin itu adil?𝜃
Apa itu?
Hampir lima puluh tahun kemudian, pada tahun 1763, sebuah makalah yang berjudul The Problem in the Principle of Potential Solution[2] dipublikasikan di The Royal Society of London's Philosophical Exchange of Potassium.
Pada beberapa halaman pertama dokumen tersebut, terdapat sebuah teks yang ditulis oleh matematikawan Richard Price yang meringkas isi makalah yang ditulis oleh temannya Thomas Bayes beberapa tahun sebelum kematiannya. Dalam pengantarannya, Price menjelaskan pentingnya beberapa temuan yang dilakukan Thomas Bayes, yang tidak termasuk dalam teori peluang bergilir De Moivre.
Bahkan, dia mengacu pada masalah tertentu:
Mengenal jumlah kejadian dan kegagalan yang diketahui dari suatu peristiwa yang tidak diketahui, dan menemukan kemungkinan terjadinya di antara dua tingkat probabilitas yang diberi nama.
Dengan kata lain, setelah kita mengamati suatu kejadian, kita menemukan parameter yang tidak diketahui.θ
Seberapa besar kemungkinan antara dua tingkat probabilitas. Ini sebenarnya merupakan salah satu masalah pertama dalam sejarah yang berkaitan dengan inferensi statistik, dan telah mengusulkan nama inverse probability. Dalam istilah matematika:
𝑃( 𝜃 | 𝑋)
Ini tentu saja adalah distribusi posteriori yang sekarang kita sebut dengan teorema Bayes.
"Saya tidak tahu apa yang akan terjadi jika saya tidak melakukan hal itu", katanya.Thomas BayesdanRichard Price (dalam bahasa Inggris)Tapi untuk melakukan ini, kita perlu untuk sementara meninggalkan beberapa pengetahuan tentang statistik.
Kita berada di abad ke-18, dan probabilitas menjadi bidang yang semakin menarik minat para matematikawan. Matematikawan seperti DeMowers atau Bernoulli telah menunjukkan bahwa beberapa peristiwa terjadi dengan tingkat keacakan tertentu, tetapi masih diatur oleh aturan yang tetap. Misalnya, jika Anda menggulung dadu berkali-kali, satu perenam dari waktu itu akan berhenti pada angka enam.
Sekarang, bayangkan jika Anda seorang matematikawan dan penganut agama yang hidup pada era ini. Anda mungkin tertarik untuk mempelajari hubungan hukum tersembunyi ini dengan Tuhan.
Ini memang adalah pertanyaan yang diajukan oleh Bayes dan Price sendiri. Mereka berharap solusi untuk masalah ini dapat langsung digunakan untuk membuktikan bahwa alam semesta maya harus merupakan hasil dari kecerdasan dan kecerdasan; oleh karena itu, memberikan bukti untuk keberadaan Tuhan dengan alasan akhir maya[2] - yaitu, tanpa sebab.
Anehnya, sekitar dua tahun kemudian, pada tahun 1774, dengan jelas tidak membaca makalah Thomas Bayes, matematikawan Prancis Laplace menulis makalah yang berjudul The Causes of Related Events by the Probabilities of Events[3], sebuah makalah tentang masalah kebarangkalian terbalik. Pada halaman pertama, Anda dapat membaca
Prinsip utama:
Jika suatu peristiwa dapat disebabkan oleh n penyebab yang berbeda, maka proporsi antara probabilitas penyebab peristiwa tertentu adalah sama dengan probabilitas kejadian penyebab tertentu, sedangkan probabilitas keberadaan masing-masing penyebab tersebut sama dengan probabilitas penyebab peristiwa tertentu, ditambah dengan jumlah probabilitas kejadian masing-masing penyebab tersebut.
Ini adalah teorema Bayesian yang kita kenal hari ini:
Salah satunyaP(θ)
Ini adalah distribusi yang merata.
Kita akan membawa statistik Bayesian ke saat ini dan melakukan eksperimen sederhana dengan menggunakan Python dan PyMC library.
Misalkan seorang teman memberi Anda koin dan bertanya apakah Anda pikir itu adalah koin yang adil. Karena dia terburu-buru, dia memberi tahu Anda bahwa Anda hanya dapat melempar koin 10 kali. Seperti yang Anda lihat, ada parameter yang tidak diketahui dalam masalah ini.p
Dan kita ingin memperkirakan ini, dan kita ingin memperkirakan ini, dan kita ingin memperkirakan ini.p
Ini adalah nilai yang paling mungkin.
(Catatan: kami tidak berbicara tentang parameter)p
Jika kita tidak tahu bahwa variabel ini adalah variabel acak, tetapi parameter ini tetap, kita ingin tahu di antara nilai mana yang paling mungkin terjadi.
Untuk memiliki pandangan yang berbeda tentang masalah ini, kita akan mengatasinya dengan dua keyakinan yang berbeda:
Pertama, Anda tidak memiliki informasi sebelumnya tentang keadilan koin, dan Anda memberikan probabilitas yang sama untukp
Dalam hal ini, kita akan menggunakan apa yang disebut prefix tanpa informasi, karena Anda tidak menambahkan informasi apa pun dalam keyakinan Anda.
Anda tahu dari pengalaman bahwa bahkan jika koin mungkin tidak adil, sulit untuk membuatnya sangat tidak adil, jadi Anda berpikir bahwa parameterp
Kemungkinan besar tidak kurang dari 0.3 atau lebih dari 0.7; dalam hal ini, kita akan menggunakan suatu informasi yang lebih awal.
Untuk kedua kasus ini, keyakinan kami sebelumnya adalah sebagai berikut:
Setelah 10 kali melempar koin, Anda mendapatkan 2 kali hasil positif. Dengan bukti ini, kita mungkin akan menemukan di mana parameter kita.p
?
Jadi, seperti yang Anda lihat, dalam kasus pertama, kita menggunakan parameter.p
Distribusi preferensi berkonsentrasi pada perkiraan yang paling mirip (MLE)p=0.2
, yang merupakan metode yang mirip dengan menggunakan metode sekolah frekuensi. Parameter yang benar-benar tidak diketahui akan berada dalam kisaran kepercayaan 95%, antara 0.04 dan 0.48.
Di sisi lain, dengan keyakinan yang tinggi, parameterp
Dalam kasus yang seharusnya antara 0.3 dan 0.7, kita dapat melihat distribusi latar belakang sekitar 0.4, jauh lebih tinggi dari nilai yang diberikan oleh MLE kita. Dalam hal ini, parameter yang tidak diketahui benar akan berada dalam kisaran kepercayaan 95%, antara 0.23 dan 0.57.
Jadi, dalam kasus pertama, Anda akan memberi tahu teman Anda bahwa Anda yakin koin itu tidak adil. Tetapi dalam kasus yang lain, Anda akan memberi tahu dia bahwa Anda tidak yakin apakah koin itu adil.
Seperti yang Anda lihat, bahkan dengan bukti yang sama (dua positif dalam 10 kali uji coba), hasilnya akan berbeda di bawah keyakinan sebelumnya yang berbeda. Ini adalah keunggulan dari statistik Bayesian, mirip dengan metode ilmiah, yang memungkinkan kita untuk memperbarui keyakinan kita dengan menggabungkan keyakinan sebelumnya dengan pengamatan dan bukti baru.
Dalam artikel hari ini, kita melihat asal-usul statistik Bayesian dan kontributor utamanya. Sejak itu, ada banyak kontributor penting lainnya dalam bidang statistik (Jeffreys, Cox, Shannon, dll.)转载自quantdare.com。