常用机器学习与数据挖掘相关术语

2017-03-20T09:58:22Z

常用机器学习与数据挖掘相关术语 Sampling(采样)： Simple Random Sampling(简单随机采样)， OfflineSampling(离线等可能K采样)， Online Sampling(在线等可能K采样)， Ratio-based Sampling(等比例随机采样)， Acceptance-RejectionSampling(接受-拒绝采样)， Importance Sam...

发明者量化-小小梦

关注私信

关注

1282

关注者

常用机器学习与数据挖掘相关术语

创建于: 2017-03-20 09:58:22, 更新于:

2030

常用机器学习与数据挖掘相关术语

Sampling(采样)：
- Simple Random Sampling(简单随机采样)，
- OfflineSampling(离线等可能K采样)，
- Online Sampling(在线等可能K采样)，
- Ratio-based Sampling(等比例随机采样)，
- Acceptance-RejectionSampling(接受-拒绝采样)，
- Importance Sampling(重要性采样)，
- MCMC(MarkovChain Monte Carlo 马尔科夫蒙特卡罗采样算法：Metropolis-Hasting& Gibbs)。
Clustering(聚类)：
- K-Means，
- K-Mediods，
- 二分K-Means，
- FK-Means，
- Canopy，
- Spectral-KMeans(谱聚类)，
- GMM-EM(混合高斯模型-期望最大化算法解决)，
- K-Pototypes，CLARANS(基于划分)，
- BIRCH(基于层次)，
- CURE(基于层次)，
- DBSCAN(基于密度)，
- CLIQUE(基于密度和基于网格)。
Classification&Regression(分类&回归)：
- LR(Linear Regression 线性回归)，
- LR(LogisticRegression逻辑回归)，
- SR(Softmax Regression 多分类逻辑回归)，
- GLM(GeneralizedLinear Model 广义线性模型)，
- RR(Ridge Regression 岭回归/L2正则最小二乘回归)，
- LASSO(Least Absolute Shrinkage andSelectionator Operator L1正则最小二乘回归)，
- RF(随机森林)，
- DT(DecisionTree决策树)，
- GBDT(Gradient BoostingDecision Tree 梯度下降决策树)，
- CART(ClassificationAnd Regression Tree 分类回归树)，
- KNN(K-Nearest Neighbor K近邻)，
- SVM(Support VectorMachine)，
- KF(KernelFunction 核函数PolynomialKernel Function 多项式核函、
- Guassian KernelFunction 高斯核函数/Radial BasisFunction RBF径向基函数、
- String KernelFunction 字符串核函数)、
- NB(Naive Bayes 朴素贝叶斯)，BN(Bayesian Network/Bayesian Belief Network/ Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络)，
- LDA(Linear Discriminant Analysis/FisherLinear Discriminant 线性判别分析/Fisher线性判别)，
- EL(Ensemble Learning集成学习Boosting，Bagging，Stacking)，
- AdaBoost(Adaptive Boosting 自适应增强)，
- MEM(MaximumEntropy Model最大熵模型)。
Effectiveness Evaluation(分类效果评估)：
- Confusion Matrix(混淆矩阵)，
- Precision(精确度)，Recall(召回率)，
- Accuracy(准确率)，F-score(F得分)，
- ROC Curve(ROC曲线)，AUC(AUC面积)，
- LiftCurve(Lift曲线) ，KS Curve(KS曲线)。
PGM(Probabilistic Graphical Models概率图模型)：
- BN(Bayesian Network/Bayesian Belief Network/ BeliefNetwork 贝叶斯网络/贝叶斯信度网络/信念网络)，
- MC(Markov Chain 马尔科夫链)，
- HMM(HiddenMarkov Model 马尔科夫模型)，
- MEMM(Maximum Entropy Markov Model 最大熵马尔科夫模型)，
- CRF(ConditionalRandom Field 条件随机场)，
- MRF(MarkovRandom Field 马尔科夫随机场)。
NN(Neural Network神经网络)：
- ANN(Artificial Neural Network 人工神经网络)，
- BP(Error BackPropagation 误差反向传播)。
DeepLearning
- Auto-encoder(自动编码器)，
- SAE(Stacked Auto-encoders堆叠自动编码器，
- Sparse Auto-encoders稀疏自动编码器、
- Denoising Auto-encoders去噪自动编码器、
- Contractive Auto-encoders 收缩自动编码器)，
- RBM(RestrictedBoltzmann Machine 受限玻尔兹曼机)，
- DBN(Deep Belief Network 深度信念网络)，
- CNN(ConvolutionalNeural Network 卷积神经网络)，
- Word2Vec(词向量学习模型)。
DimensionalityReduction(降维)：
- LDA LinearDiscriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别，
- PCA(Principal Component Analysis 主成分分析)，
- ICA(IndependentComponent Analysis 独立成分分析)，
- SVD(Singular Value Decomposition 奇异值分解)，
- FA(FactorAnalysis 因子分析法)。
Text Mining(文本挖掘)：
- VSM(Vector Space Model向量空间模型)，
- Word2Vec(词向量学习模型)，
- TF(Term Frequency词频)，
- TF-IDF(Term Frequency-Inverse DocumentFrequency 词频-逆向文档频率)，
- MI(MutualInformation 互信息)，
- ECE(Expected Cross Entropy 期望交叉熵)，
- QEMI(二次信息熵)，
- IG(InformationGain 信息增益)，
- IGR(Information Gain Ratio 信息增益率)，
- Gini(基尼系数)，
- x2 Statistic(x2统计量)，
- TEW(TextEvidence Weight文本证据权)，
- OR(Odds Ratio 优势率)，
- N-Gram Model，
- LSA(Latent Semantic Analysis 潜在语义分析)，
- PLSA(ProbabilisticLatent Semantic Analysis 基于概率的潜在语义分析)，
- LDA(Latent DirichletAllocation 潜在狄利克雷模型)。
Association Mining(关联挖掘)：
- Apriori，
- FP-growth(Frequency Pattern Tree Growth 频繁模式树生长算法)，
- AprioriAll，
- Spade。
Recommendation Engine(推荐引擎)：
- DBR(Demographic-based Recommendation 基于人口统计学的推荐)，
- CBR(Context-basedRecommendation 基于内容的推荐)，
- CF(Collaborative Filtering协同过滤)，
- UCF(User-basedCollaborative Filtering Recommendation 基于用户的协同过滤推荐)，
- ICF(Item-basedCollaborative Filtering Recommendation 基于项目的协同过滤推荐)。
Similarity Measure&Distance Measure(相似性与距离度量)：
- Euclidean Distance(欧式距离)，
- ManhattanDistance(曼哈顿距离)，
- Chebyshev Distance(切比雪夫距离)，
- MinkowskiDistance(闵可夫斯基距离)，
- Standardized Euclidean Distance(标准化欧氏距离)，
- MahalanobisDistance(马氏距离)，
- Cos(Cosine 余弦)，
- HammingDistance/Edit Distance(汉明距离/编辑距离)，
- JaccardDistance(杰卡德距离)，
- Correlation Coefficient Distance(相关系数距离)，
- InformationEntropy(信息熵)，
- KL(Kullback-Leibler Divergence KL散度/Relative Entropy 相对熵)。
Feature Selection(特征选择算法)：
- Mutual Information(互信息)，
- DocumentFrequence(文档频率)，
- Information Gain(信息增益)，
- Chi-squared Test(卡方检验)，
- Gini(基尼系数)。
Outlier Detection(异常点检测算法)：
- Statistic-based(基于统计)，
- Distance-based(基于距离)，
- Density-based(基于密度)，
- Clustering-based(基于聚类)。
Learning to Rank(基于学习的排序)：
- Pointwise：McRank；
- Pairwise：RankingSVM，RankNet，Frank，RankBoost；
- Listwise：AdaRank，SoftRank，LamdaMART。

相关推荐

Forums

PINE Language FAQ Summary MyLanguage Web3 About Us

Product

Robot Strategy Node Platforms Tickets

API

Syntax guide User guide Trading api Blockchain Indicator

常用机器学习与数据挖掘相关术语

常用机器学习与数据挖掘相关术语

Sampling(采样)：

Clustering(聚类)：

Classification&Regression(分类&回归)：

Effectiveness Evaluation(分类效果评估)：

PGM(Probabilistic Graphical Models概率图模型)：

NN(Neural Network神经网络)：

DeepLearning

DimensionalityReduction(降维)：

Text Mining(文本挖掘)：

Association Mining(关联挖掘)：

Recommendation Engine(推荐引擎)：

Similarity Measure&Distance Measure(相似性与距离度量)：

Feature Selection(特征选择算法)：

Outlier Detection(异常点检测算法)：

Learning to Rank(基于学习的排序)：