Thống kê Bayesian là một ngành đại học mạnh mẽ trong lĩnh vực toán học, có nhiều ứng dụng trong nhiều lĩnh vực, bao gồm tài chính, nghiên cứu y tế và công nghệ thông tin. Nó cho phép chúng ta kết hợp niềm tin trước với bằng chứng để tạo ra niềm tin sau để giúp chúng ta đưa ra các quyết định thông minh hơn.
Trong bài viết này, chúng tôi sẽ giới thiệu một số nhà toán học chính đã thành lập lĩnh vực này.
Trước Bayes Để hiểu rõ hơn về thống kê của Bayes, chúng ta cần quay lại thế kỷ 18 và tham khảo nhà toán học De Moivre và bài luận của ông về nguyên tắc cơ hội cơ hội.
Trong bài luận của mình, De Moivre giải quyết nhiều vấn đề liên quan đến xác suất và cờ bạc trong thời đại của ông. Như bạn có thể biết, giải pháp của ông cho một trong những vấn đề này dẫn đến nguồn gốc của sự phân bố bình thường, nhưng đó là một câu chuyện khác.
Một trong những câu hỏi đơn giản nhất trong bài báo của ông là:
Bạn có thể sử dụng một đồng xu công bằng để ném ba lần liên tiếp và có được ba xác suất tích cực.
Bạn có thể nhận thấy rằng hầu hết các câu hỏi bắt đầu với một giả định và tính toán xác suất của một sự kiện nhất định. Ví dụ, trong câu hỏi trên, có một giả định rằng đồng xu là công bằng, do đó, xác suất nhận được một điểm tích cực trong một cú sút là 0.5.
Điều này được thể hiện trong thuật ngữ toán học ngày nay như sau:
𝑃(𝑋|𝜃)
Nhưng nếu chúng ta không biết đồng tiền này có công bằng hay không?𝜃
Có gì không?
Gần năm mươi năm sau, vào năm 1763, một bài luận về vấn đề trong nguyên tắc giải quyết các vấn đề trong Phong trào Phong trào[2] được xuất bản trên tạp chí Phong trào Triết học Phong trào của Hiệp hội Hoàng gia London.
Trong vài trang đầu của tài liệu, có một văn bản được viết bởi nhà toán học Richard Price, tóm tắt nội dung của một bài báo của bạn của ông, Thomas Bayes, viết vài năm trước khi ông qua đời. Trong phần giới thiệu, Price giải thích tầm quan trọng của một số phát hiện của Thomas Bayes, những phát hiện không liên quan đến các nguyên tắc cơ hội của De Moivre.
Trên thực tế, ông chỉ ra một vấn đề cụ thể:
Chiếm được số lần xảy ra và thất bại của một sự kiện không biết, tìm cơ hội xảy ra của nó trong hai mức xác suất được đặt tên.
Nói cách khác, sau khi quan sát một sự kiện, chúng ta tìm ra một tham số chưa biết.θ
Tỷ lệ xác suất giữa hai độ xác suất là bao nhiêu. Đây thực sự là một trong những vấn đề đầu tiên trong lịch sử liên quan đến suy luận thống kê, và đã đưa ra cái tên xác suất ngược.
𝑃( 𝜃 | 𝑋)
Đây là sự phân bố hậu kỳ mà ngày nay chúng ta gọi là định lý Bayes.
Những người đàn ông trẻ tuổi ở Việt Nam cũng có những vấn đề khác nhau.Thomas BayesvàRichard PriceNhưng để làm điều đó, chúng ta cần tạm thời bỏ qua một số kiến thức về thống kê.
Chúng ta đang ở trong thế kỷ 18 và xác suất đang trở thành một lĩnh vực ngày càng quan tâm của các nhà toán học. Các nhà toán học như DeMouvray hoặc Bernoulli đã chỉ ra rằng một số sự kiện xảy ra với một mức độ ngẫu nhiên, nhưng vẫn bị chi phối bởi các quy tắc cố định. Ví dụ, nếu bạn xổ số nhiều lần, một phần sáu thời gian nó sẽ dừng lại ở số sáu.
Bây giờ, hãy tưởng tượng bạn là một nhà toán học và một tín đồ tôn giáo sống trong thời đại này. Bạn có thể quan tâm đến mối quan hệ giữa luật ẩn này và Thiên Chúa.
Đây thực sự là câu hỏi mà Bayes và Price tự đặt ra. Họ muốn giải quyết vấn đề này bằng cách trực tiếp chứng minh rằng vũ trụ ngẫu nhiên phải là kết quả của trí tuệ và trí tuệ; do đó, cung cấp bằng chứng cho sự tồn tại của Thiên Chúa bằng lý do cuối cùng ngẫu nhiên[2] - tức là, không có nguyên nhân.
Điều đáng ngạc nhiên là khoảng hai năm sau đó, năm 1774, rõ ràng là không đọc bài báo của Thomas Bayes, nhà toán học người Pháp Laplace đã viết một bài báo có tên là Luyện về sự kiện gây ra sự kiện bằng xác suất của sự kiện[3], một bài báo về vấn đề xác suất ngược.
Các nguyên tắc chính:
Nếu một sự kiện có thể được gây ra bởi n nguyên nhân khác nhau, thì tỷ lệ giữa các xác suất của các nguyên nhân cho một sự kiện nhất định sẽ bằng với xác suất của sự kiện cho một nguyên nhân nhất định, và xác suất của sự tồn tại của mỗi nguyên nhân sẽ bằng với xác suất của nguyên nhân cho một sự kiện nhất định, trừ tổng của xác suất của sự kiện cho mỗi nguyên nhân nhất định.
Đây là định lý Bayes mà chúng ta biết ngày nay:
Trong đóP(θ)
Có một sự phân bố đồng đều.
Chúng ta sẽ sử dụng Python và thư viện PyMC để đưa thống kê Bayesian đến hiện tại và thực hiện một thí nghiệm đơn giản.
Giả sử một người bạn đưa cho bạn một đồng xu và hỏi bạn có nghĩ đó là một đồng xu công bằng hay không. Vì anh ta vội vàng, anh ta nói với bạn rằng bạn chỉ có thể ném 10 lần. Như bạn thấy, có một tham số chưa biết trong vấn đề này.p
Và chúng ta muốn ước tính rằng chúng ta có thể có một tỷ lệ tích cực trong một lần tung đồng xu.p
Giá trị có khả năng nhất của các giá trị này là:
(Lưu ý: chúng ta không nói về các tham số)p
Một biến số ngẫu nhiên là một biến số ngẫu nhiên, thay vì đó là một tham số cố định, chúng ta muốn biết nó có thể nằm trong khoảng giá trị nào.
Để có những quan điểm khác nhau về vấn đề này, chúng ta sẽ giải quyết nó theo hai niềm tin trước đây khác nhau:
Một, bạn không có kiến thức trước về tính công bằng của đồng xu, và bạn sẽ phân bổ một tỷ lệ tương đương chop
Trong trường hợp này, chúng tôi sẽ sử dụng cái gọi là tiền đề không có thông tin, vì bạn không thêm bất kỳ thông tin nào vào niềm tin của mình.
2, bạn biết qua kinh nghiệm rằng ngay cả khi một đồng xu có thể không công bằng, rất khó để làm cho nó rất không công bằng, vì vậy bạn nghĩ rằng các tham sốp
Trong trường hợp này, chúng ta sẽ sử dụng một kiểu tiền đề thông tin.
Đối với cả hai trường hợp, niềm tin trước đây của chúng tôi sẽ là:
Sau 10 lần tung đồng xu, bạn sẽ có 2 kết quả dương.p
?
Như bạn có thể thấy, trong trường hợp đầu tiên, chúng ta sẽ sử dụng các tham sốp
Phân phối tiền sử tập trung vào ước tính giống nhau nhất (MLE)p=0.2
Đây là một phương pháp tương tự như cách sử dụng phương pháp học tần số. Các tham số không rõ thực sự sẽ nằm trong phạm vi tin cậy 95%, giữa 0.04 và 0.48.
Mặt khác, với một độ tin cậy cao, các tham sốp
Trong trường hợp phải nằm trong khoảng 0.3 và 0.7, chúng ta có thể thấy sự phân bố hậu quả ở khoảng 0.4, cao hơn nhiều so với các giá trị được đưa ra bởi MLE của chúng tôi. Trong trường hợp này, các tham số không rõ thực sự sẽ nằm trong phạm vi tin cậy 95%, trong khoảng 0.23 và 0.57.
Vì vậy, trong trường hợp đầu tiên, bạn sẽ nói với bạn bè của bạn rằng bạn tin rằng đồng tiền này không công bằng. Nhưng trong trường hợp khác, bạn sẽ nói với anh ta rằng bạn không chắc chắn rằng đồng tiền đó có công bằng hay không.
Như bạn đã thấy, ngay cả khi có cùng một bằng chứng (từ 10 lần đưa ra 2 lần dương tính), kết quả sẽ khác nhau dưới những niềm tin trước khác nhau. Đây là một lợi thế của thống kê Bayesian, tương tự như phương pháp khoa học, nó cho phép chúng ta cập nhật niềm tin của mình bằng cách kết hợp niềm tin trước với quan sát và bằng chứng mới.
Trong bài viết hôm nay, chúng ta sẽ xem nguồn gốc của thống kê Bayesian và những người đóng góp chính.转载自quantdare.com。