- Diễn đàn
- Quantpedia
- Các thuật ngữ phổ biến liên quan đến học máy và khai thác dữ liệu
Các thuật ngữ phổ biến liên quan đến học máy và khai thác dữ liệu
Tác giả:
Những nhà phát minh định lượng - những giấc mơ nhỏ, Tạo: 2017-03-20 09:58:22, Cập nhật:
Các thuật ngữ phổ biến liên quan đến học máy và khai thác dữ liệu
-
Sampling (mẫu):
- Simple Random Sampling (Làm mẫu ngẫu nhiên đơn giản)
- Ngoài ra, các công ty khác cũng có thể tham gia vào các cuộc khảo sát.
- Một số người cho rằng, việc lấy mẫu trực tuyến (có thể là lấy mẫu K trực tuyến, v.v.)
- Ratio-based Sampling (tạm dịch: Lựa chọn ngẫu nhiên theo tỷ lệ)
- Tham khảo chấp - từ chối (acceptance-rejection sampling)
- Nhóm nghiên cứu quan trọng (importance sampling)
- MCMC ((MarkovChain Monte Carlo, Metropolis-Hasting & Gibbs))
-
Clustering (tạm dịch: nhóm):
- K nghĩa là,
- K-Mediods,
- 2 điểm K-Means,
- FK-Means,
- Canopy,
- Spectral-KMeans (tạm dịch: Nhóm phân loại quang phổ)
- GMM-EM ((Hybrid Gaussian Model - mong đợi giải pháp tối đa hóa thuật toán))
- K-Pototypes, CLARANS (dựa trên phân loại)
- BIRCH (được dựa trên cấp độ)
- CURE (dựa trên cấp độ)
- DBSCAN (dựa trên mật độ)
- CLIQUE (dựa trên mật độ và dựa trên lưới).
-
Classification & Regression:
- LR (Linear Regression)
- LR (Logistic Regression Logical Regression)
- SR (Softmax Regression, có lẽ là sự hồi quy logic của lớp học)
- GLM (Generalized Linear Model) là một mô hình tuyến tính chung.
- RR ((Ridge Regression Phong cách quay trở lại / L2 chính thức quay trở lại tối thiểu hai lần))
- LASSO ((Least Absolute Shrinkage and Selectionator Operator L1 là quy tắc khâu thu nhỏ nhất)
- RF (Random Forest)
- DT (DecisionTree) là một cây quyết định.
- GBDT (Gradient Boosting Decision Tree) là một loại cây quyết định tăng độ dốc.
- CART (ClassificationAnd Regression Tree) là một loại cây phân loại và hồi quy.
- KNN (K-Nearest Neighbor)
- SVM ((Hỗ trợ VectorMachine),
- KF ((KernelFunction) Chức năng hạt nhân PolynomialKernel Function Chức năng hạt nhân đa phương,
- Guassian KernelFunction Các chức năng hạt nhân Gaussian/Radial BasisFunction RBF đường kính đối với các chức năng gốc,
- String KernelFunction (hàm tự động của một hàm lõi chuỗi)
- NB (Naive Bayes, Naïve Bayes, BN) (Bayesian Network/Bayesian Belief Network/Belief Network)
- LDA (Linear Discriminant Analysis/FisherLinear Discriminant Analysis/Fisher Linear Discriminant Analysis) là một phương pháp phân tích phân biệt tuyến tính (LDA) được sử dụng để phân tích phân biệt tuyến tính (LDA).
- EL (Ensemble Learning tích hợp học tập Boosting, Bagging, Stacking)
- AdaBoost (Adaptive Boosting) là một ứng dụng tăng cường thích nghi được phát triển bởi Google.
- MEM (Maximum Entropy Model) là mô hình lớn nhất của kim tự thạch.
-
Đánh giá hiệu quả:
- Confution Matrix (bản mẫu nhầm lẫn)
- Có một số ứng dụng khác như Precision, Recall và Recall.
- Chất liệu này được sử dụng để tạo ra các kết quả phân tích.
- ROC Curve (ROC curve), AUC (AUC)
- LiftCurve, KS Curve.
-
PGM (Probabilistic Graphical Models: mô hình biểu đồ xác suất):
- BN ((Bayesian Network/Bayesian Belief Network/BeliefNetwork Mạng lưới Bayesian/Mạng lưới niềm tin Bayesian/Mạng lưới niềm tin),
- MC (Markov Chain)
- HMM (Hidden Markov Model) là một mô hình ẩn của Markov.
- MEMM (Maximum Entropy Markov Model) là một mô hình mô hình lớn nhất của Markov.
- CRF (Conditional Random Field) là một sân bay ngẫu nhiên có điều kiện.
- MRF (Markov Random Field, sân bay ngẫu nhiên Markov)
-
NN (Neural Network):
- ANN (Mạng lưới thần kinh nhân tạo)
- BP (Error BackPropagation) là một lỗi về sự lan truyền ngược.
-
DeepLearning
- Auto-encoder (tạm dịch: bộ mã hóa tự động)
- SAE (Stacked Auto-encoders) là một bộ mã hóa tự động được xếp chồng lên nhau.
- Sparse Auto-encoders là một bộ mã hóa tự động hiếm có.
- Denoising Auto-encoders: Denoising Auto-encoders:
- Contractive Auto-encoders (các bộ mã hóa tự động rút ngắn)
- RBM (Restricted Boltzmann Machine) là một máy tính điện tử được sử dụng bởi một số công ty.
- DBN (Deep Belief Network) là một mạng lưới tin tưởng sâu sắc.
- CNN (Convolutional Neural Network) là một mạng lưới thần kinh xoắn.
- Word2Vec (mô hình học vector từ) ⇒
-
DimensionalityReduction (Giảm kích thước):
- LDA Linear Discriminant Analysis/Fisher Linear Discriminant
- PCA (Principal Component Analysis) là một phương pháp phân tích các thành phần chính.
- ICA (Independent Component Analysis) - phân tích thành phần độc lập
- SVD (Singular Value Decomposition) là một dạng phân hủy giá trị độc đáo.
- FA (FActor Analysis) là một phương pháp phân tích nhân tố.
-
Text Mining (Tài liệu khai thác):
- VSM (Vector Space Model)
- Word2Vec (Mô hình học vector từ)
- TF (Term Frequency)
- TF-IDF (Term Frequency-Inverse Document Frequency) là một từ ngữ được sử dụng trong các văn bản.
- MI (MutualInformation) - Thông tin lẫn nhau
- ECE (Expected Cross Entropy) là một phép đo tương đương với ECE (Expected Cross Entropy).
- Những người tham gia vào cuộc họp này là những người có ý kiến khác nhau về vấn đề này.
- IG (Information Gain) là một trang web truyền thông được đăng trên mạng xã hội.
- IGR (Information Gain Ratio) là tỷ lệ tăng lợi nhuận thông tin.
- Gini (tỉ lệ Gini)
- X2 Statistic (x2 số liệu thống kê),
- TEW (TextEvidence Weight) - quyền chứng minh văn bản
- OR (Ratio Odds Ratio), tỷ lệ ưu thế,
- Mô hình N-Gram,
- LSA (Latent Semantic Analysis) là một phương pháp phân tích ngữ nghĩa tiềm ẩn.
- PLSA (Probabilistic Latent Semantic Analysis - Phân tích ngữ nghĩa tiềm ẩn dựa trên xác suất)
- LDA (Latent Dirichlet Allocation, mô hình tiềm năng của Dirichlet)
-
Association Mining (tạm dịch: Hiệp hội khai thác mỏ):
- Trước tiên,
- FP-growth (Frequency Pattern Tree Growth) là một thuật toán phát triển cây theo mô hình thường xuyên.
- Trước hết,
- Bánh nhọn.
-
Động cơ khuyến nghị:
- DBR (Demographic-based Recommendation) là một khuyến nghị dựa trên số liệu dân số.
- CBR (Context-basedRecommendation) - đề xuất dựa trên nội dung
- CF (Collaborative Filtering là bộ lọc hợp tác)
- UCF (User-based Collaborative Filtering Recommendation) là một tổ chức chuyên về việc phân tích và phân tích các thông tin về các hoạt động của UCF.
- ICF (Item-based Collaborative Filtering Recommendation) (Điều đề xuất lọc hợp tác dựa trên dự án).
-
Similarity Measure&Distance Measure (Đường đo sự tương đồng và khoảng cách):
- Khoảng cách Euclidean
- Phương pháp này được sử dụng bởi các nhà nghiên cứu và các nhà nghiên cứu.
- Chebyshev Distance (tạm dịch: Khoảng cách Chebyshev)
- Minkowski Distance (tạm dịch: Khoảng cách Minkowski)
- Khoảng cách Euclidean chuẩn hóa (Standardized Euclidean Distance)
- MahalanobisDistance (tạm dịch: Khoảng cách của sao Hỏa)
- Cos (đường âm xích cosine)
- HammingDistance/Edit Distance (tạm dịch: Khoảng cách chỉnh sửa)
- JaccardDistance (tạm dịch: Khoảng cách của Jaccard)
- Correlation Coefficient Distance (khoảng cách hệ số liên quan)
- Thông tin Entropy (tiếng Anh: Information Entropy)
- KL ((Kullback-Leibler Divergence KL phân tán / Relative Entropy tương đối ))
-
Feature Selection (Định thuật chọn tính năng):
- Mutual Information (thông tin lẫn nhau)
- DocumentFrequence (tạm dịch: tần số tài liệu)
- Thông tin thu được
- Các nhà khoa học đã nghiên cứu và nghiên cứu về các yếu tố có thể ảnh hưởng đến sự sống của con người.
- Gini (tỷ lệ Gini)
-
Outlier Detection (Algorithm phát hiện điểm ngoại lệ):
- Những người tham gia vào các cuộc biểu tình này có thể nhận được thông tin về các cuộc biểu tình trên Facebook.
- Phương pháp này được sử dụng trong các chương trình truyền hình.
- Density-based (dựa trên mật độ)
- Clustering-based (Dựa trên nhóm).
-
Học để xếp hạng (Dựa trên việc học):
- Điểm: McRank;
- Theo cặp: RankingSVM,RankNet,Frank,RankBoost;
- Danh sách: AdaRank,SoftRank,LamdaMART.
Thêm nữa