常用机器学习与数据挖掘相关术语

Author: 发明者量化-小小梦, Created: 2017-03-20 09:58:22, Updated:

常用机器学习与数据挖掘相关术语

  • Sampling(采样):

    • Simple Random Sampling(简单随机采样),
    • OfflineSampling(离线等可能K采样),
    • Online Sampling(在线等可能K采样),
    • Ratio-based Sampling(等比例随机采样),
    • Acceptance-RejectionSampling(接受-拒绝采样),
    • Importance Sampling(重要性采样),
    • MCMC(MarkovChain Monte Carlo 马尔科夫蒙特卡罗采样算法:Metropolis-Hasting& Gibbs)。
  • Clustering(聚类):

    • K-Means,
    • K-Mediods,
    • 二分K-Means,
    • FK-Means,
    • Canopy,
    • Spectral-KMeans(谱聚类),
    • GMM-EM(混合高斯模型-期望最大化算法解决),
    • K-Pototypes,CLARANS(基于划分),
    • BIRCH(基于层次),
    • CURE(基于层次),
    • DBSCAN(基于密度),
    • CLIQUE(基于密度和基于网格)。
  • Classification&Regression(分类&回归):

    • LR(Linear Regression 线性回归),
    • LR(LogisticRegression逻辑回归),
    • SR(Softmax Regression 多分类逻辑回归),
    • GLM(GeneralizedLinear Model 广义线性模型),
    • RR(Ridge Regression 岭回归/L2正则最小二乘回归),
    • LASSO(Least Absolute Shrinkage andSelectionator Operator L1正则最小二乘回归),
    • RF(随机森林),
    • DT(DecisionTree决策树),
    • GBDT(Gradient BoostingDecision Tree 梯度下降决策树),
    • CART(ClassificationAnd Regression Tree 分类回归树),
    • KNN(K-Nearest Neighbor K近邻),
    • SVM(Support VectorMachine),
    • KF(KernelFunction 核函数PolynomialKernel Function 多项式核函、
    • Guassian KernelFunction 高斯核函数/Radial BasisFunction RBF径向基函数、
    • String KernelFunction 字符串核函数)、
    • NB(Naive Bayes 朴素贝叶斯),BN(Bayesian Network/Bayesian Belief Network/ Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络),
    • LDA(Linear Discriminant Analysis/FisherLinear Discriminant 线性判别分析/Fisher线性判别),
    • EL(Ensemble Learning集成学习Boosting,Bagging,Stacking),
    • AdaBoost(Adaptive Boosting 自适应增强),
    • MEM(MaximumEntropy Model最大熵模型)。
  • Effectiveness Evaluation(分类效果评估):

    • Confusion Matrix(混淆矩阵),
    • Precision(精确度),Recall(召回率),
    • Accuracy(准确率),F-score(F得分),
    • ROC Curve(ROC曲线),AUC(AUC面积),
    • LiftCurve(Lift曲线) ,KS Curve(KS曲线)。
  • PGM(Probabilistic Graphical Models概率图模型):

    • BN(Bayesian Network/Bayesian Belief Network/ BeliefNetwork 贝叶斯网络/贝叶斯信度网络/信念网络),
    • MC(Markov Chain 马尔科夫链),
    • HMM(HiddenMarkov Model 马尔科夫模型),
    • MEMM(Maximum Entropy Markov Model 最大熵马尔科夫模型),
    • CRF(ConditionalRandom Field 条件随机场),
    • MRF(MarkovRandom Field 马尔科夫随机场)。
  • NN(Neural Network神经网络):

    • ANN(Artificial Neural Network 人工神经网络),
    • BP(Error BackPropagation 误差反向传播)。
  • DeepLearning

    • Auto-encoder(自动编码器),
    • SAE(Stacked Auto-encoders堆叠自动编码器,
    • Sparse Auto-encoders稀疏自动编码器、
    • Denoising Auto-encoders去噪自动编码器、
    • Contractive Auto-encoders 收缩自动编码器),
    • RBM(RestrictedBoltzmann Machine 受限玻尔兹曼机),
    • DBN(Deep Belief Network 深度信念网络),
    • CNN(ConvolutionalNeural Network 卷积神经网络),
    • Word2Vec(词向量学习模型)。
  • DimensionalityReduction(降维):

    • LDA LinearDiscriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别,
    • PCA(Principal Component Analysis 主成分分析),
    • ICA(IndependentComponent Analysis 独立成分分析),
    • SVD(Singular Value Decomposition 奇异值分解),
    • FA(FactorAnalysis 因子分析法)。
  • Text Mining(文本挖掘):

    • VSM(Vector Space Model向量空间模型),
    • Word2Vec(词向量学习模型),
    • TF(Term Frequency词频),
    • TF-IDF(Term Frequency-Inverse DocumentFrequency 词频-逆向文档频率),
    • MI(MutualInformation 互信息),
    • ECE(Expected Cross Entropy 期望交叉熵),
    • QEMI(二次信息熵),
    • IG(InformationGain 信息增益),
    • IGR(Information Gain Ratio 信息增益率),
    • Gini(基尼系数),
    • x2 Statistic(x2统计量),
    • TEW(TextEvidence Weight文本证据权),
    • OR(Odds Ratio 优势率),
    • N-Gram Model,
    • LSA(Latent Semantic Analysis 潜在语义分析),
    • PLSA(ProbabilisticLatent Semantic Analysis 基于概率的潜在语义分析),
    • LDA(Latent DirichletAllocation 潜在狄利克雷模型)。
  • Association Mining(关联挖掘):

    • Apriori,
    • FP-growth(Frequency Pattern Tree Growth 频繁模式树生长算法),
    • AprioriAll,
    • Spade。
  • Recommendation Engine(推荐引擎):

    • DBR(Demographic-based Recommendation 基于人口统计学的推荐),
    • CBR(Context-basedRecommendation 基于内容的推荐),
    • CF(Collaborative Filtering协同过滤),
    • UCF(User-basedCollaborative Filtering Recommendation 基于用户的协同过滤推荐),
    • ICF(Item-basedCollaborative Filtering Recommendation 基于项目的协同过滤推荐)。
  • Similarity Measure&Distance Measure(相似性与距离度量):

    • Euclidean Distance(欧式距离),
    • ManhattanDistance(曼哈顿距离),
    • Chebyshev Distance(切比雪夫距离),
    • MinkowskiDistance(闵可夫斯基距离),
    • Standardized Euclidean Distance(标准化欧氏距离),
    • MahalanobisDistance(马氏距离),
    • Cos(Cosine 余弦),
    • HammingDistance/Edit Distance(汉明距离/编辑距离),
    • JaccardDistance(杰卡德距离),
    • Correlation Coefficient Distance(相关系数距离),
    • InformationEntropy(信息熵),
    • KL(Kullback-Leibler Divergence KL散度/Relative Entropy 相对熵)。
  • Feature Selection(特征选择算法):

    • Mutual Information(互信息),
    • DocumentFrequence(文档频率),
    • Information Gain(信息增益),
    • Chi-squared Test(卡方检验),
    • Gini(基尼系数)。
  • Outlier Detection(异常点检测算法):

    • Statistic-based(基于统计),
    • Distance-based(基于距离),
    • Density-based(基于密度),
    • Clustering-based(基于聚类)。
  • Learning to Rank(基于学习的排序):

    • Pointwise:McRank;
    • Pairwise:RankingSVM,RankNet,Frank,RankBoost;
    • Listwise:AdaRank,SoftRank,LamdaMART。

更多内容