Máy học là gì?
Máy học bằng cách phân tích một lượng lớn dữ liệu. Ví dụ, không cần phải được lập trình để nhận ra mèo hoặc khuôn mặt, chúng có thể được đào tạo bằng cách sử dụng hình ảnh để tổng hợp và nhận ra các mục tiêu cụ thể.
Mối quan hệ giữa học máy và trí tuệ nhân tạo
Học máy là một lĩnh vực nghiên cứu và thuật toán tập trung vào việc tìm kiếm các mô hình trong dữ liệu và sử dụng các mô hình đó để làm dự đoán. Học máy là một phần của lĩnh vực trí tuệ nhân tạo và giao thoa với phát hiện kiến thức và khai thác dữ liệu.
Cách máy học hoạt động
Lựa chọn dữ liệu: chia dữ liệu của bạn thành ba nhóm: dữ liệu đào tạo, dữ liệu xác minh và dữ liệu thử nghiệm 2 Dữ liệu mô hình: Sử dụng dữ liệu đào tạo để xây dựng mô hình sử dụng các tính năng liên quan 3 Mô hình xác minh: Sử dụng dữ liệu xác minh của bạn để truy cập mô hình của bạn 4 Mô hình thử nghiệm: Sử dụng dữ liệu thử nghiệm của bạn để kiểm tra hiệu suất của mô hình đã được chứng minh 5 Sử dụng mô hình: Sử dụng mô hình được đào tạo hoàn toàn để dự đoán trên dữ liệu mới Mô hình điều chỉnh 6: Sử dụng nhiều dữ liệu hơn, các tính năng khác nhau hoặc các tham số được điều chỉnh để cải thiện hiệu suất của thuật toán
Vị trí của máy học
1 Chương trình truyền thống: Kỹ sư phần mềm viết chương trình để giải quyết vấn đề. Trước tiên có một số dữ liệu → để giải quyết một vấn đề, kỹ sư phần mềm viết một quy trình để nói cho máy tính làm gì→ máy tính thực hiện theo quy trình này và đưa ra kết quả 2 Thống kê: Nhà phân tích so sánh các mối quan hệ giữa các biến 3 Máy học: Nhà khoa học dữ liệu sử dụng tập dữ liệu được đào tạo để dạy máy tính phải làm gì, và sau đó hệ thống thực hiện nhiệm vụ. Đầu tiên có dữ liệu lớn→ Máy học sử dụng tập dữ liệu được đào tạo để phân loại, điều chỉnh các thuật toán cụ thể để đạt được mục tiêu phân loại→ Máy học có thể nhận diện các mối quan hệ, xu hướng và mẫu trong dữ liệu 4 Ứng dụng thông minh: Kết quả của ứng dụng thông minh sử dụng trí tuệ nhân tạo, ví dụ như một ví dụ về ứng dụng nông nghiệp chính xác dựa trên dữ liệu thu thập được từ máy bay không người lái
Ứng dụng thực tế của machine learning
Có rất nhiều trường hợp ứng dụng cho việc học máy, và đây là một vài ví dụ về cách bạn sẽ sử dụng nó.
Bản đồ 3D nhanh và mô hình hóa: Để xây dựng một cây cầu đường sắt, các nhà khoa học dữ liệu và chuyên gia trong lĩnh vực của PwC đã áp dụng học máy cho dữ liệu thu thập bởi máy bay không người lái. Sự kết hợp này cho phép giám sát chính xác và phản hồi nhanh chóng trong thành công công việc.
Phân tích nâng cao để giảm rủi ro: Để phát hiện giao dịch bên trong, PwC kết hợp học máy và các kỹ thuật phân tích khác để phát triển hồ sơ người dùng toàn diện hơn và hiểu sâu hơn về hành vi đáng ngờ phức tạp.
Mục tiêu dự đoán hiệu suất tốt nhất: PwC sử dụng máy học và các phương pháp phân tích khác để đánh giá tiềm năng của các con ngựa khác nhau trên sân cỏ Melbourne Cup.
Trong nhiều thập kỷ, các "phái tộc" của các nhà nghiên cứu AI đã tranh giành quyền thống trị. Bây giờ có phải là thời điểm để các bộ lạc này hợp tác không? Họ có thể sẽ phải làm như vậy, bởi vì hợp tác và hợp nhất các thuật toán là cách duy nhất để thực hiện trí tuệ nhân tạo phổ biến (AGI).
5 phong cách lớn
1 Biểu tượng: sử dụng ký hiệu, quy tắc và logic để biểu thị kiến thức và suy luận hợp lý, các thuật toán ưa thích là: quy tắc và cây quyết định 2 Bayesian: thu thập khả năng xảy ra để thực hiện suy luận xác suất, các thuật toán ưa thích là: đơn giản Bayesian hoặc Markov 3 liên kết: sử dụng ma trận xác suất và các nơ ron cân nhắc để xác định và suy luận các mô hình một cách năng động, thuật toán ưa thích là: mạng thần kinh 4 Tiến hóa: tạo ra sự thay đổi và sau đó lấy ra những gì tốt nhất cho mục tiêu cụ thể, các thuật toán được ưa thích là: thuật toán di truyền 5 Analogizer: tối ưu hóa các hàm theo điều kiện hạn chế (đi càng cao càng tốt, nhưng không rời khỏi con đường).
Giai đoạn tiến hóa
Những năm 1980
Phong cách chủ đạo: biểu tượng Kiến trúc: máy chủ hoặc máy lớn Lý thuyết chủ đạo: Kỹ thuật tri thức Lý thuyết quyết định cơ bản: hệ thống hỗ trợ quyết định, hữu dụng hạn chế
Những năm 1990 đến 2000
Phong cách chủ đạo: Baez Kiến trúc: Cluster máy chủ nhỏ Lý thuyết chủ đạo: thuyết xác suất Phân loại: so sánh hoặc so sánh có thể mở rộng, đủ tốt cho nhiều nhiệm vụ
Đầu đến giữa những năm 2010
Phong cách chủ đạo: Liên minh Kiến trúc: Trang trại máy chủ lớn Lý thuyết chủ đạo: Khoa học thần kinh và xác suất Nhận dạng: Nhận dạng hình ảnh và âm thanh chính xác hơn, dịch thuật, phân tích cảm xúc, v.v.
Các thể loại này được kỳ vọng sẽ hợp tác và kết hợp các phương pháp riêng của họ với nhau.
Cuối những năm 2010
Phong cách chủ đạo: Liên minh + Biểu tượng Kiến trúc: Nhiều đám mây Các lý thuyết chủ đạo: mạng thần kinh trí nhớ, tích hợp lớn, lý luận dựa trên kiến thức Câu hỏi và câu trả lời đơn giản: Nhỏ, chia sẻ kiến thức cụ thể trong lĩnh vực
Những năm 2020+
Các thể loại chủ yếu: Unionisme + Symbolisme + Bayes +... Kiến trúc: điện toán đám mây và điện toán sương mù Lý thuyết chủ đạo: có mạng lưới khi nhận thức, có quy tắc khi suy luận và làm việc Nhận thức, lý luận và hành động đơn giản: tự động hóa hoặc tương tác người máy hạn chế
Những năm 2040+
Phong cách chủ đạo: Algorithm Fusion Kiến trúc: Máy chủ ở khắp mọi nơi Lý thuyết chủ đạo: Métod học tập kết hợp tốt nhất Nhận thức và phản ứng: hành động hoặc đưa ra câu trả lời dựa trên kiến thức hoặc kinh nghiệm thu được thông qua nhiều phương pháp học tập
Bạn nên sử dụng thuật toán học máy nào? Điều này phụ thuộc phần lớn vào tính chất và số lượng dữ liệu có sẵn và mục tiêu đào tạo của bạn trong mỗi trường hợp sử dụng cụ thể. Đừng sử dụng thuật toán phức tạp nhất trừ khi kết quả của nó đáng để trả tiền và tài nguyên đắt tiền.
Cây quyết định: Trong quá trình trả lời từng bước, phân tích cây quyết định điển hình sẽ sử dụng các biến phân cấp hoặc các nút quyết định, ví dụ như phân loại một người dùng nhất định là tín nhiệm hoặc không tin cậy.
Xuất sắc: Có khả năng đánh giá một loạt các đặc điểm, phẩm chất và đặc điểm khác nhau của con người, địa điểm và vật Ví dụ kịch bản: Đánh giá tín dụng dựa trên quy tắc, dự đoán kết quả đua ngựa
Hỗ trợ máy vector: dựa trên siêu phẳng (hyperplane), hỗ trợ máy vector để phân loại các tập dữ liệu.
Ưu điểm: Hỗ trợ máy vector làm tốt các thao tác phân loại nhị phân giữa biến X và các biến khác, cho dù mối quan hệ của chúng có tuyến tính hay không Ví dụ: phân loại tin tức, nhận dạng chữ viết tay.
Regression: Regression có thể vẽ mối quan hệ trạng thái giữa các biến số và một hoặc nhiều biến số. Trong trường hợp này, phân biệt spam và không spam.
Ưu điểm: Quá trình hồi quy có thể được sử dụng để xác định mối quan hệ liên tục giữa các biến, ngay cả khi mối quan hệ không quá rõ ràng Ví dụ: phân tích lưu lượng giao thông đường bộ, lọc thư
Phân loại Bayes ngây thơ: Phân loại Bayes ngây thơ được sử dụng để tính toán xác suất nhánh của các điều kiện có thể xảy ra. Mỗi đặc điểm độc lập là "ngây thơ" hoặc độc lập về điều kiện, do đó chúng không ảnh hưởng đến các đối tượng khác. Ví dụ, trong một cái hộp có tổng cộng 5 quả bóng màu vàng và đỏ, xác suất nhặt hai quả bóng màu vàng liên tiếp là bao nhiêu?
Ưu điểm: Phương pháp Bayes đơn giản cho phép phân loại nhanh đối với các đối tượng có liên quan có đặc điểm đáng kể trong bộ dữ liệu nhỏ Ví dụ: phân tích cảm xúc, phân loại người tiêu dùng
Mô hình Markov ẩn: Các quá trình Markov hiển thị là hoàn toàn chắc chắn rằng một trạng thái nhất định thường đi kèm với một trạng thái khác; đèn giao thông là một ví dụ. Ngược lại, mô hình Markov ẩn tính toán sự xuất hiện của trạng thái ẩn bằng cách phân tích dữ liệu hiển thị. Sau đó, với phân tích trạng thái ẩn, mô hình Markov ẩn có thể ước tính các mô hình quan sát trong tương lai có thể. Trong trường hợp này, xác suất áp suất khí cao hoặc thấp (đây là trạng thái ẩn) có thể được sử dụng để dự đoán xác suất ngày trời sáng, mưa, nhiều mây.
Ưu điểm: Cho phép tính biến đổi của dữ liệu, áp dụng cho nhận dạng và hoạt động dự đoán Ví dụ: phân tích nét mặt, dự báo thời tiết
Random forest: Các thuật toán Random Forest cải thiện độ chính xác của cây quyết định bằng cách sử dụng nhiều cây với các tập dữ liệu được chọn ngẫu nhiên. Trường hợp này đã xem xét một số lượng lớn các gen liên quan đến sự tái phát ung thư vú ở mức độ biểu hiện gen và tính toán nguy cơ tái phát.
Ưu điểm: Phương pháp rừng ngẫu nhiên đã được chứng minh hữu ích cho các bộ dữ liệu lớn và các mục có nhiều và đôi khi không liên quan Ví dụ kịch bản: Phân tích mất người dùng, đánh giá rủi ro
Mạng thần kinh tuần hoàn (Recurrent neural network): Trong mạng thần kinh tùy chọn, mỗi nơ ron chuyển đổi nhiều đầu vào thành một đầu ra duy nhất thông qua một hoặc nhiều lớp ẩn. Mạng thần kinh tuần hoàn (RNN) sẽ truyền các giá trị tiếp theo theo lớp, cho phép học theo lớp. Nói cách khác, RNN có một hình thức ký ức cho phép đầu ra trước ảnh hưởng đến đầu vào sau.
Ưu điểm: Mạng lưới thần kinh tuần hoàn có khả năng dự đoán khi có nhiều thông tin có trật tự Ví dụ: phân loại hình ảnh và thêm phụ đề, phân tích cảm xúc chính trị
Long short-term memory (LSTM) và gated recurrent unit neural network: Các dạng RNN đầu tiên có thể bị mất mát. Mặc dù các mạng lưới tuần hoàn đầu tiên này chỉ cho phép lưu giữ một lượng nhỏ thông tin sớm, các mạng lưới LSTM và GRU mới có cả bộ nhớ dài và ngắn hạn. Nói cách khác, các RNN mới có khả năng kiểm soát bộ nhớ tốt hơn, cho phép lưu giữ các giá trị xử lý trước đó hoặc tái đặt các giá trị khi nhiều bước chuỗi cần thiết, điều này tránh được sự suy giảm cuối cùng của giá trị có thể "thăng trầm" hoặc truyền qua các lớp.
Ưu điểm: Bộ nhớ dài và ngắn hạn và các mạng lưới CNS kiểm soát cổng có những ưu điểm tương tự như các mạng lưới CNS khác, nhưng thường được sử dụng nhiều hơn vì có khả năng ghi nhớ tốt hơn Ví dụ: xử lý ngôn ngữ tự nhiên, dịch thuật
Mạng thần kinh xoắn (convolutional neural network): xoắn là sự kết hợp của trọng lượng từ các lớp sau và có thể được sử dụng để đánh dấu lớp đầu ra.
Ưu điểm: Mạng lưới thần kinh cong là rất hữu ích khi có các tập dữ liệu rất lớn, nhiều tính năng và các nhiệm vụ phân loại phức tạp Ví dụ: nhận dạng hình ảnh, chuyển ngữ văn bản, phát hiện ma túy
http://usblogs.pwc.com/emerging-technology/a-look-at-machine-learning-infographic/
http://usblogs.pwc.com/emerging-technology/machine-learning-methods-infographic/
http://usblogs.pwc.com/emerging-technology/machine-learning-evolution-infographic/
Được chuyển từ Big Data Plateau