Các thuật ngữ phổ biến liên quan đến học máy và khai thác dữ liệu

Tác giả:Những nhà phát minh định lượng - những giấc mơ nhỏ, Tạo: 2017-03-20 09:58:22, Cập nhật:

Các thuật ngữ phổ biến liên quan đến học máy và khai thác dữ liệu

  • Sampling (mẫu):

    • Simple Random Sampling (Làm mẫu ngẫu nhiên đơn giản)
    • Ngoài ra, các công ty khác cũng có thể tham gia vào các cuộc khảo sát.
    • Một số người cho rằng, việc lấy mẫu trực tuyến (có thể là lấy mẫu K trực tuyến, v.v.)
    • Ratio-based Sampling (tạm dịch: Lựa chọn ngẫu nhiên theo tỷ lệ)
    • Tham khảo chấp - từ chối (acceptance-rejection sampling)
    • Nhóm nghiên cứu quan trọng (importance sampling)
    • MCMC ((MarkovChain Monte Carlo, Metropolis-Hasting & Gibbs))
  • Clustering (tạm dịch: nhóm):

    • K nghĩa là,
    • K-Mediods,
    • 2 điểm K-Means,
    • FK-Means,
    • Canopy,
    • Spectral-KMeans (tạm dịch: Nhóm phân loại quang phổ)
    • GMM-EM ((Hybrid Gaussian Model - mong đợi giải pháp tối đa hóa thuật toán))
    • K-Pototypes, CLARANS (dựa trên phân loại)
    • BIRCH (được dựa trên cấp độ)
    • CURE (dựa trên cấp độ)
    • DBSCAN (dựa trên mật độ)
    • CLIQUE (dựa trên mật độ và dựa trên lưới).
  • Classification & Regression:

    • LR (Linear Regression)
    • LR (Logistic Regression Logical Regression)
    • SR (Softmax Regression, có lẽ là sự hồi quy logic của lớp học)
    • GLM (Generalized Linear Model) là một mô hình tuyến tính chung.
    • RR ((Ridge Regression Phong cách quay trở lại / L2 chính thức quay trở lại tối thiểu hai lần))
    • LASSO ((Least Absolute Shrinkage and Selectionator Operator L1 là quy tắc khâu thu nhỏ nhất)
    • RF (Random Forest)
    • DT (DecisionTree) là một cây quyết định.
    • GBDT (Gradient Boosting Decision Tree) là một loại cây quyết định tăng độ dốc.
    • CART (ClassificationAnd Regression Tree) là một loại cây phân loại và hồi quy.
    • KNN (K-Nearest Neighbor)
    • SVM ((Hỗ trợ VectorMachine),
    • KF ((KernelFunction) Chức năng hạt nhân PolynomialKernel Function Chức năng hạt nhân đa phương,
    • Guassian KernelFunction Các chức năng hạt nhân Gaussian/Radial BasisFunction RBF đường kính đối với các chức năng gốc,
    • String KernelFunction (hàm tự động của một hàm lõi chuỗi)
    • NB (Naive Bayes, Naïve Bayes, BN) (Bayesian Network/Bayesian Belief Network/Belief Network)
    • LDA (Linear Discriminant Analysis/FisherLinear Discriminant Analysis/Fisher Linear Discriminant Analysis) là một phương pháp phân tích phân biệt tuyến tính (LDA) được sử dụng để phân tích phân biệt tuyến tính (LDA).
    • EL (Ensemble Learning tích hợp học tập Boosting, Bagging, Stacking)
    • AdaBoost (Adaptive Boosting) là một ứng dụng tăng cường thích nghi được phát triển bởi Google.
    • MEM (Maximum Entropy Model) là mô hình lớn nhất của kim tự thạch.
  • Đánh giá hiệu quả:

    • Confution Matrix (bản mẫu nhầm lẫn)
    • Có một số ứng dụng khác như Precision, Recall và Recall.
    • Chất liệu này được sử dụng để tạo ra các kết quả phân tích.
    • ROC Curve (ROC curve), AUC (AUC)
    • LiftCurve, KS Curve.
  • PGM (Probabilistic Graphical Models: mô hình biểu đồ xác suất):

    • BN ((Bayesian Network/Bayesian Belief Network/BeliefNetwork Mạng lưới Bayesian/Mạng lưới niềm tin Bayesian/Mạng lưới niềm tin),
    • MC (Markov Chain)
    • HMM (Hidden Markov Model) là một mô hình ẩn của Markov.
    • MEMM (Maximum Entropy Markov Model) là một mô hình mô hình lớn nhất của Markov.
    • CRF (Conditional Random Field) là một sân bay ngẫu nhiên có điều kiện.
    • MRF (Markov Random Field, sân bay ngẫu nhiên Markov)
  • NN (Neural Network):

    • ANN (Mạng lưới thần kinh nhân tạo)
    • BP (Error BackPropagation) là một lỗi về sự lan truyền ngược.
  • DeepLearning

    • Auto-encoder (tạm dịch: bộ mã hóa tự động)
    • SAE (Stacked Auto-encoders) là một bộ mã hóa tự động được xếp chồng lên nhau.
    • Sparse Auto-encoders là một bộ mã hóa tự động hiếm có.
    • Denoising Auto-encoders: Denoising Auto-encoders:
    • Contractive Auto-encoders (các bộ mã hóa tự động rút ngắn)
    • RBM (Restricted Boltzmann Machine) là một máy tính điện tử được sử dụng bởi một số công ty.
    • DBN (Deep Belief Network) là một mạng lưới tin tưởng sâu sắc.
    • CNN (Convolutional Neural Network) là một mạng lưới thần kinh xoắn.
    • Word2Vec (mô hình học vector từ) ⇒
  • DimensionalityReduction (Giảm kích thước):

    • LDA Linear Discriminant Analysis/Fisher Linear Discriminant
    • PCA (Principal Component Analysis) là một phương pháp phân tích các thành phần chính.
    • ICA (Independent Component Analysis) - phân tích thành phần độc lập
    • SVD (Singular Value Decomposition) là một dạng phân hủy giá trị độc đáo.
    • FA (FActor Analysis) là một phương pháp phân tích nhân tố.
  • Text Mining (Tài liệu khai thác):

    • VSM (Vector Space Model)
    • Word2Vec (Mô hình học vector từ)
    • TF (Term Frequency)
    • TF-IDF (Term Frequency-Inverse Document Frequency) là một từ ngữ được sử dụng trong các văn bản.
    • MI (MutualInformation) - Thông tin lẫn nhau
    • ECE (Expected Cross Entropy) là một phép đo tương đương với ECE (Expected Cross Entropy).
    • Những người tham gia vào cuộc họp này là những người có ý kiến khác nhau về vấn đề này.
    • IG (Information Gain) là một trang web truyền thông được đăng trên mạng xã hội.
    • IGR (Information Gain Ratio) là tỷ lệ tăng lợi nhuận thông tin.
    • Gini (tỉ lệ Gini)
    • X2 Statistic (x2 số liệu thống kê),
    • TEW (TextEvidence Weight) - quyền chứng minh văn bản
    • OR (Ratio Odds Ratio), tỷ lệ ưu thế,
    • Mô hình N-Gram,
    • LSA (Latent Semantic Analysis) là một phương pháp phân tích ngữ nghĩa tiềm ẩn.
    • PLSA (Probabilistic Latent Semantic Analysis - Phân tích ngữ nghĩa tiềm ẩn dựa trên xác suất)
    • LDA (Latent Dirichlet Allocation, mô hình tiềm năng của Dirichlet)
  • Association Mining (tạm dịch: Hiệp hội khai thác mỏ):

    • Trước tiên,
    • FP-growth (Frequency Pattern Tree Growth) là một thuật toán phát triển cây theo mô hình thường xuyên.
    • Trước hết,
    • Bánh nhọn.
  • Động cơ khuyến nghị:

    • DBR (Demographic-based Recommendation) là một khuyến nghị dựa trên số liệu dân số.
    • CBR (Context-basedRecommendation) - đề xuất dựa trên nội dung
    • CF (Collaborative Filtering là bộ lọc hợp tác)
    • UCF (User-based Collaborative Filtering Recommendation) là một tổ chức chuyên về việc phân tích và phân tích các thông tin về các hoạt động của UCF.
    • ICF (Item-based Collaborative Filtering Recommendation) (Điều đề xuất lọc hợp tác dựa trên dự án).
  • Similarity Measure&Distance Measure (Đường đo sự tương đồng và khoảng cách):

    • Khoảng cách Euclidean
    • Phương pháp này được sử dụng bởi các nhà nghiên cứu và các nhà nghiên cứu.
    • Chebyshev Distance (tạm dịch: Khoảng cách Chebyshev)
    • Minkowski Distance (tạm dịch: Khoảng cách Minkowski)
    • Khoảng cách Euclidean chuẩn hóa (Standardized Euclidean Distance)
    • MahalanobisDistance (tạm dịch: Khoảng cách của sao Hỏa)
    • Cos (đường âm xích cosine)
    • HammingDistance/Edit Distance (tạm dịch: Khoảng cách chỉnh sửa)
    • JaccardDistance (tạm dịch: Khoảng cách của Jaccard)
    • Correlation Coefficient Distance (khoảng cách hệ số liên quan)
    • Thông tin Entropy (tiếng Anh: Information Entropy)
    • KL ((Kullback-Leibler Divergence KL phân tán / Relative Entropy tương đối ))
  • Feature Selection (Định thuật chọn tính năng):

    • Mutual Information (thông tin lẫn nhau)
    • DocumentFrequence (tạm dịch: tần số tài liệu)
    • Thông tin thu được
    • Các nhà khoa học đã nghiên cứu và nghiên cứu về các yếu tố có thể ảnh hưởng đến sự sống của con người.
    • Gini (tỷ lệ Gini)
  • Outlier Detection (Algorithm phát hiện điểm ngoại lệ):

    • Những người tham gia vào các cuộc biểu tình này có thể nhận được thông tin về các cuộc biểu tình trên Facebook.
    • Phương pháp này được sử dụng trong các chương trình truyền hình.
    • Density-based (dựa trên mật độ)
    • Clustering-based (Dựa trên nhóm).
  • Học để xếp hạng (Dựa trên việc học):

    • Điểm: McRank;
    • Theo cặp: RankingSVM,RankNet,Frank,RankBoost;
    • Danh sách: AdaRank,SoftRank,LamdaMART.

Nhiều hơn nữa