** Bài viết này giải thích phân tích hồi quy và lợi thế của nó, tập trung tổng hợp bảy kỹ thuật hồi quy phổ biến nhất nên nắm vững: hồi quy tuyến tính, hồi quy logic, hồi quy đa số, hồi quy tiến, hồi quy âm, hồi quy hàm, hồi quy ElasticNet và các yếu tố quan trọng của chúng, và cuối cùng giới thiệu các yếu tố quan trọng để chọn đúng mô hình hồi quy. ** ** Phân tích hồi quy nút của trình biên tập viên là một công cụ quan trọng cho việc mô hình hóa và phân tích dữ liệu. Bài viết này giải thích ý nghĩa và lợi thế của phân tích hồi quy, tập trung tổng kết bảy kỹ thuật hồi quy phổ biến nhất như hồi quy tuyến tính, hồi quy logic, hồi quy đa thuật, hồi quy từng bước, hồi quy cung, hồi quy yêu cầu, hồi quy ElasticNet và các yếu tố quan trọng của chúng, và cuối cùng giới thiệu các yếu tố quan trọng để chọn đúng mô hình hồi quy.
Phân tích hồi quy là một kỹ thuật mô hình dự đoán, nghiên cứu mối quan hệ giữa các biến do (mục tiêu) và các biến tự do (nhà dự đoán). Kỹ thuật này thường được sử dụng trong phân tích dự đoán, mô hình chuỗi thời gian và mối quan hệ nhân quả giữa các biến được tìm thấy. Ví dụ, mối quan hệ giữa lái xe vô tâm của tài xế và số vụ tai nạn giao thông đường bộ, cách nghiên cứu tốt nhất là hồi quy.
Phân tích hồi quy là một công cụ quan trọng để mô hình hóa và phân tích dữ liệu. Ở đây, chúng ta sử dụng đường cong / đường dây để phù hợp với các điểm dữ liệu này, theo cách này, khoảng cách từ đường cong hoặc đường đến các điểm dữ liệu là nhỏ nhất. Tôi sẽ giải thích chi tiết về điều này trong phần sau.
Như đã đề cập ở trên, phân tích hồi quy ước mối quan hệ giữa hai hoặc nhiều biến. Dưới đây, hãy đưa ra một ví dụ đơn giản để hiểu nó:
Ví dụ, trong điều kiện kinh tế hiện tại, bạn muốn ước tính doanh số bán hàng của một công ty. Bây giờ, bạn có dữ liệu mới nhất của công ty cho thấy doanh số bán hàng tăng khoảng 2,5 lần tăng trưởng kinh tế.
Có rất nhiều lợi ích của việc sử dụng phân tích hồi quy.
Nó cho thấy mối quan hệ đáng kể giữa biến tự và biến do;
Nó cho thấy mức độ ảnh hưởng của nhiều tự biến đối với một biến.
Phân tích hồi quy cũng cho phép chúng ta so sánh ảnh hưởng giữa các biến đo được ở các quy mô khác nhau, chẳng hạn như mối liên hệ giữa sự thay đổi giá và số lượng hoạt động quảng cáo. Điều này giúp các nhà nghiên cứu thị trường, nhà phân tích dữ liệu và các nhà khoa học dữ liệu loại trừ và ước tính một tập hợp các biến số tốt nhất để xây dựng mô hình dự báo.
Có rất nhiều kỹ thuật hồi quy được sử dụng để dự đoán. Các kỹ thuật này có ba phương pháp đo lường chính (số người của biến, loại biến và hình dạng của đường hồi quy). Chúng tôi sẽ thảo luận chi tiết về chúng trong phần dưới đây.
Đối với những người sáng tạo, bạn thậm chí có thể tạo ra một mô hình hồi quy chưa được sử dụng nếu bạn cảm thấy cần thiết sử dụng một trong những sự kết hợp của các tham số trên. Nhưng trước khi bạn bắt đầu, hãy tìm hiểu các phương pháp hồi quy phổ biến nhất sau:
Nó là một trong những kỹ thuật mô hình hóa quen thuộc nhất. Phân hồi tuyến tính thường là một trong những kỹ thuật được ưa chuộng khi học mô hình dự đoán. Trong kỹ thuật này, vì các biến là liên tục, các biến tự có thể liên tục hoặc tách biệt, và tính chất của đường hồi là tuyến tính.
Phân hồi tuyến tính sử dụng một đường thẳng phù hợp nhất (tức là đường hồi quy) để thiết lập một mối quan hệ giữa biến số (y) và một hoặc nhiều biến số (x).
Nó được thể hiện bằng một phương trình, tức là Y = a + b * X + e, trong đó a là độ cắt, b là độ nghiêng của đường thẳng, e là hàm sai. Phương trình này có thể dự đoán giá trị của các biến mục tiêu dựa trên các biến dự đoán (s) được đưa ra.
Sự khác biệt giữa khâu đơn tuyến tính và khâu đa tuyến tính là khâu đa tuyến tính có > 1 tự biến, trong khi khâu đơn tuyến tính thường chỉ có một tự biến.
Làm thế nào để có được đường phù hợp nhất (giá trị của a và b)?
Vấn đề này có thể được thực hiện một cách dễ dàng bằng cách sử dụng các phép nhân hai tối thiểu. Các phép nhân hai tối thiểu cũng là phương pháp phổ biến nhất để khớp các đường quay trở lại. Đối với dữ liệu quan sát, nó tính toán các đường khớp tối ưu bằng cách giảm thiểu tổng các hình vuông của sự lệch thẳng đứng của mỗi điểm dữ liệu đến đường.
Chúng ta có thể sử dụng các chỉ số R-square để đánh giá hiệu suất mô hình. Để biết chi tiết về các chỉ số này, bạn có thể đọc: Các chỉ số hiệu suất mô hình Phần 1, Phần 2.
Điểm chính:
Logical regression được sử dụng để tính tỷ lệ xác suất của sự kiện Y = Success Y và sự kiện Y = Failure Y. Khi kiểu của các biến thuộc về các biến nhị phân ((1/0, true/false, yes/no) thì chúng ta nên sử dụng logical regression. Ở đây, giá trị của Y từ 0 đến 1, nó có thể được thể hiện bằng phương trình sau đây.
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
Trong các công thức trên, biểu thức p có một đặc điểm xác suất. Bạn nên hỏi: Tại sao chúng ta sử dụng log trong công thức?
Vì ở đây chúng ta sử dụng phân bố hai (vì biến), chúng ta cần chọn một hàm kết nối tốt nhất cho phân bố này. Đó là hàm Logit. Trong phương trình trên, các tham số được chọn bằng cách xem xét các giá trị ước tính rất giống với mẫu, chứ không phải là giảm thiểu hình vuông và sai (như sử dụng trong sự hồi quy thông thường).
Điểm chính:
Đối với một phương trình hồi quy, nếu chỉ số của tự biến lớn hơn 1, thì nó là một phương trình hồi quy đa số.
y=a+b*x^2
Trong kỹ thuật hồi quy này, đường phù hợp tối ưu không phải là đường thẳng; mà là đường cong được sử dụng để phù hợp với các điểm dữ liệu.
Điểm nhấn:
Khi xử lý nhiều tự biến, chúng ta có thể sử dụng hình thức quay trở lại này. Trong kỹ thuật này, sự lựa chọn tự biến được thực hiện trong một quá trình tự động, bao gồm cả các thao tác không phải của con người.
Thành tựu này là để xác định các biến quan trọng bằng cách nhìn vào các giá trị thống kê, chẳng hạn như R-square, t-stats và chỉ số AIC.
Phân tích hồi quy là một kỹ thuật sử dụng cho các dữ liệu có nhiều sự đồng tuyến tính (đối với độ cao của các biến). Trong trường hợp đa sự đồng tuyến tính, mặc dù các phép nhân tối thiểu hai lần (OLS) là công bằng đối với mỗi biến, nhưng sự khác biệt của chúng rất lớn, khiến các giá trị quan sát bị sai lệch và xa khỏi giá trị thực. Phân tích hồi quy giảm sai lệch tiêu chuẩn bằng cách tăng một độ sai lệch trong ước tính cho phép quay trở lại.
Ở trên, chúng ta đã thấy phương trình hồi quy tuyến tính.
y=a+ b*x
Phương trình này cũng có một điều kiện sai. Phương trình hoàn chỉnh là:
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
Trong một phương trình tuyến tính, lỗi dự đoán có thể được chia thành hai phần tử nhỏ. Một là sai lệch và một là chênh lệch. Sai lệch dự đoán có thể được gây ra bởi hai phần tử này hoặc bởi bất kỳ phần tử nào trong số hai.
Chuyển hướng
Trong công thức này, có hai thành phần. Thứ nhất là số ít nhất hai lần, và thứ hai là số λ của β2 ((β-tháng vuông), trong đó β là hệ số liên quan. Để thu hẹp tham số, hãy thêm nó vào số ít nhất hai lần để có được một phương lệch rất thấp.
Điểm chính:
Nó tương tự như hồi quy, Lasso (Least Absolute Shrinkage and Selection Operator) cũng trừng phạt kích thước giá trị tuyệt đối của hệ số hồi quy. Ngoài ra, nó có thể giảm độ thay đổi và tăng độ chính xác của mô hình hồi quy tuyến tính. Xem công thức dưới đây:
Lasso regression khác với Ridge regression một chút, nó sử dụng hàm phạt là giá trị tuyệt đối, chứ không phải là số vuông. Điều này dẫn đến giá trị phạt ((hoặc tương đương với tổng số giá trị tuyệt đối của ước tính ràng buộc) làm cho một số kết quả ước tính của các tham số bằng không. Việc sử dụng giá trị phạt lớn hơn, ước tính tiếp theo sẽ làm cho giá trị thu hẹp gần với không. Điều này sẽ dẫn đến việc chúng ta phải chọn một biến từ n biến số nhất định.
Điểm chính:
ElasticNet là một sự pha trộn giữa Lasso và Ridge regression. Nó sử dụng L1 để huấn luyện và L2 là một ma trận định dạng ưu tiên. ElasticNet rất hữu ích khi có nhiều tính năng liên quan. Lasso sẽ chọn một trong số họ một cách ngẫu nhiên, còn ElasticNet sẽ chọn hai.
Lợi thế thực tế giữa Lasso và Ridge là nó cho phép ElasticNet thừa hưởng một số tính ổn định của Ridge trong trạng thái xoay.
Điểm chính:
Làm thế nào để chọn đúng mô hình hồi quy?
Cuộc sống thường rất đơn giản khi bạn chỉ biết một hoặc hai công nghệ. Tôi biết một tổ chức đào tạo đã nói với sinh viên của họ rằng nếu kết quả là liên tục, hãy sử dụng hồi quy tuyến tính. Nếu là nhị phân, hãy sử dụng hồi quy logic! Tuy nhiên, trong xử lý của chúng tôi, càng có nhiều lựa chọn, càng khó chọn đúng một.
Trong mô hình hồi quy đa lớp, việc chọn kỹ thuật phù hợp nhất dựa trên tự biến và loại biến, kích thước dữ liệu và các đặc điểm cơ bản khác của dữ liệu là rất quan trọng. Dưới đây là những yếu tố quan trọng để bạn chọn đúng mô hình hồi quy:
Khám phá dữ liệu là một phần không thể thiếu trong việc xây dựng mô hình dự đoán. Nó nên là bước ưu tiên khi chọn mô hình phù hợp, chẳng hạn như khi xác định mối quan hệ và ảnh hưởng của các biến.
Có những ưu điểm khác nhau cho các mô hình khác nhau, chúng ta có thể phân tích các tham số chỉ số khác nhau, chẳng hạn như các tham số có ý nghĩa thống kê, R-square, Adjusted R-square, AIC, BIC và các mục sai, một khác là Mallows + Cp. Điều này chủ yếu là bằng cách so sánh mô hình với tất cả các mô hình con có thể (hoặc chọn cẩn thận chúng), kiểm tra sự lệch có thể xảy ra trong mô hình của bạn.
Xác minh chéo là phương pháp tốt nhất để đánh giá mô hình dự đoán. Ở đây, chia bộ dữ liệu của bạn thành hai phần (một tập luyện và một xác minh). Sử dụng một chênh lệch trung bình đơn giản giữa giá trị quan sát và giá trị dự đoán để đo độ chính xác dự đoán của bạn.
Nếu bộ dữ liệu của bạn là nhiều biến hỗn hợp, thì bạn không nên chọn phương pháp chọn mô hình tự động, vì bạn không nên muốn đặt tất cả các biến trong cùng một mô hình cùng một lúc.
Nó cũng sẽ phụ thuộc vào mục đích của bạn. Có thể có những trường hợp mà một mô hình ít mạnh hơn dễ thực hiện hơn so với một mô hình có ý nghĩa thống kê cao.
Phương pháp quy định hồi quy (Lasso, Ridge và ElasticNet) hoạt động tốt trong trường hợp có nhiều đồng tuyến giữa các biến số ở chiều cao và tập dữ liệu.
Được chuyển từ CSDN