Trong học máy, mục tiêu là dự đoán hoặc nhóm. Bài viết này tập trung vào dự đoán. Dự đoán là quá trình dự đoán giá trị của các biến đầu vào từ một tập hợp các biến đầu vào. Ví dụ, lấy một tập hợp các đặc điểm liên quan đến ngôi nhà, chúng ta có thể dự đoán giá bán của nó. Để hiểu được điều này, chúng ta hãy xem các thuật toán phổ biến nhất và nổi bật nhất trong máy học. Chúng ta chia chúng thành 3 loại: mô hình tuyến tính, mô hình dựa trên cây và mạng thần kinh, tập trung vào 6 thuật toán phổ biến nhất:
Phân hồi tuyến tính, hoặc chính xác hơn là Phân hồi hai lần tối thiểu của phong cách, là hình thức tiêu chuẩn nhất của mô hình tuyến tính. Đối với các vấn đề hồi quy, phân hồi tuyến tính là mô hình tuyến tính đơn giản nhất. Nhược điểm của nó là mô hình dễ dàng quá phù hợp, tức là mô hình hoàn toàn phù hợp với dữ liệu đã được đào tạo, nhưng phải hy sinh khả năng phổ biến sang dữ liệu mới. Do đó, phân hồi tuyến tính trong máy học (và các khâu hồi quy logic mà chúng ta sẽ nói về sau) thường là phân hồi, có nghĩa là mô hình có một số hình phạt để ngăn chặn quá phù hợp.
Một nhược điểm khác của mô hình tuyến tính là vì chúng rất đơn giản, nên chúng không dễ dàng dự đoán các hành vi phức tạp hơn khi các biến nhập không độc lập.
Logical regression là sự thích nghi của regression tuyến tính đối với các vấn đề phân loại. Những nhược điểm của regression logic giống như regression tuyến tính. Các hàm logic rất tốt cho các vấn đề phân loại vì nó giới thiệu hiệu ứng threshold.
Cây quyết định là một biểu đồ cho mọi kết quả có thể của quyết định bằng cách sử dụng phương pháp nhánh. Ví dụ: bạn quyết định đặt một loại salad, và quyết định đầu tiên của bạn có thể là loại lúa mì sống, sau đó là các loại lúa mì, sau đó là loại lúa mì. Chúng ta có thể biểu thị tất cả các kết quả có thể trong một cây quyết định.
Để đào tạo cây quyết định, chúng ta cần sử dụng tập dữ liệu đào tạo và tìm ra thuộc tính nào hữu ích nhất cho mục tiêu. Ví dụ, trong trường hợp sử dụng phát hiện gian lận, chúng ta có thể thấy rằng thuộc tính có ảnh hưởng lớn nhất đến việc dự đoán rủi ro gian lận là quốc gia. Sau khi phân nhánh theo thuộc tính đầu tiên, chúng ta có hai thuộc tính, điều này có thể được dự đoán chính xác nhất nếu chúng ta chỉ biết thuộc tính đầu tiên. Sau đó, chúng ta tìm ra thuộc tính thứ hai tốt nhất có thể phân nhánh cho hai thuộc tính này, sử dụng phân nhánh lại, và lặp lại cho đến khi đủ thuộc tính đáp ứng nhu cầu của mục tiêu.
Rừng ngẫu nhiên là trung bình của nhiều cây quyết định, trong đó mỗi cây quyết định được đào tạo bằng các mẫu dữ liệu ngẫu nhiên. Mỗi cây trong rừng ngẫu nhiên yếu hơn một cây quyết định hoàn chỉnh, nhưng đặt tất cả các cây lại với nhau, chúng ta có thể đạt được hiệu suất tổng thể tốt hơn do lợi thế của sự đa dạng.
Random Forest là một thuật toán rất phổ biến trong học máy ngày nay. Random Forest rất dễ đào tạo và hoạt động khá tốt. Nhược điểm của nó là Random Forest có thể sản xuất dự đoán chậm so với các thuật toán khác, vì vậy khi cần dự đoán nhanh, bạn có thể không chọn Random Forest.
Gradient Boosting, giống như rừng ngẫu nhiên, cũng được tạo thành từ những cây quyết định yếu kém. Sự khác biệt lớn nhất giữa gradient boosting và rừng ngẫu nhiên là trong gradient boosting, cây được đào tạo một lần một lần. Mỗi cây phía sau được đào tạo chủ yếu bởi cây phía trước để nhận ra dữ liệu sai. Điều này làm cho gradient boosting tập trung nhiều hơn vào các tình huống dễ đoán hơn và tập trung nhiều hơn vào các tình huống ít khó khăn hơn.
Việc đào tạo tăng độ dốc cũng nhanh chóng và hoạt động rất tốt. Tuy nhiên, những thay đổi nhỏ trong tập dữ liệu đào tạo có thể làm thay đổi cơ bản mô hình, do đó kết quả mà nó tạo ra có thể không phải là khả thi nhất.
Được chuyển từ Big Data Plateau