Termos comuns relacionados a aprendizado de máquina e mineração de dados

Criado em: 2017-03-20 09:58:22, atualizado em:
comments   0
hits   1702

Termos comuns relacionados a aprendizado de máquina e mineração de dados

  • Sampling (Sampulagem):

    • A pesquisa foi realizada por um grupo de pesquisadores da Universidade Federal de São Paulo (UFSC) e da Universidade Federal de São Paulo (UFSC).
    • OfflineSampling (em inglês)
    • Online Sampling (em inglês)
    • Ratio-based Sampling (Sampulagem aleatória proporcional)
    • Acceptance-RejectionSampling (ARA) é uma ferramenta de análise de dados que permite avaliar a aceitação e rejeição de amostras.
    • Importance Sampling (Amostra de Importância)
    • MCMC (MarkovChain Monte Carlo)
  • Clustering (agregação):

    • K-Means,
    • K-Mediods,
    • O segundo K-Means.
    • FK-Means,
    • Canopy,
    • O grupo de pesquisa Spectral-KMeans (Spectral Clustering) é um grupo de pesquisas de pesquisas de pesquisas de pesquisas.
    • GMM-EM (Módulo Gauss Híbrido - Esperamos que o algoritmo de maximização resolva)
    • K-Pototypes, CLARANS (baseado em divisões)
    • BIRCH (Baseado em hierarquias)
    • CURE (em base de hierarquia)
    • DBSCAN (baseado em densidade)
    • CLIQUE ((Baseado em densidade e baseado em grelha))
  • Classificação e Regressão:

    • LR (Linear Regression) é uma regressão linear.
    • A regressão logística é uma regressão de um sistema de dados que é o resultado de um processo de regressão.
    • SR (Softmax Regression)
    • O GLM (Generalized Linear Model) é um modelo linear generalizado, que é usado para descrever a evolução de um modelo linear.
    • RR (Ridge Regression)
    • LASSO ((Least Absolute Shrinkage andSelectionator Operator L1 Regressão ao mínimo quadruplo),
    • RF (Floresta Aleatória)
    • O que é um árvore de decisão?
    • GBDT (Gradient BoostingDecision Tree) é uma árvore de decisão de crescimento gradual.
    • CART (Classification And Regression Tree) é uma árvore de classificação e regressão.
    • O blogue “K-Nearest Neighbor K” é um blogue sobre a violência doméstica e a violência doméstica.
    • SVM(Support VectorMachine),
    • KF ((KernelFunction Função kernel PolynomialKernel Function Função kernel polinomial,
    • Função Guassian KernelFunção Guassian KernelFunção Radial BasisFunção RBF
    • String KernelFunction (Função de núcleo de string)
    • NB ((Naive Bayes),BN ((Bayesian Network/Bayesian Belief Network/ Belief Network), que é uma rede de crenças baseada em Bayesianismo, é uma rede de crenças baseada em Bayesianismo, que é uma rede de crenças baseada em Bayesianismo.
    • LDA ((Linear Discriminant Analysis/FisherLinear Discriminant), também conhecido como LDA (Linear Discriminant Analysis/Fisher), é uma técnica de análise de discriminantes lineares.
    • O Ensemble Learning integra o Boosting, o Bagging e o Stacking.
    • Adaptive Boosting é um projeto de pesquisa e desenvolvimento de software baseado em tecnologias de ponta.
    • MEM (Modelo de Máxima Entropia).
  • Avaliação de Eficácia:

    • Confusion Matrix (matriz de confusão)
    • Precision (precisão), Recall (recall rate)
    • O F-score é um indicador de que o sistema operacional está a funcionar correctamente, e que o sistema operacional está a funcionar correctamente.
    • ROC Curve, AUC, área de AUC,
    • LiftCurve, KS Curve
  • PGM (Modelo de Gráfico de Probabilidade de Modelos Probabilistic):

    • BN ((Bayesian Network/Bayesian Belief Network/ BeliefNetwork) é uma rede de pesquisa e comunicação baseada na teoria da relatividade, baseada na teoria da relatividade e na teoria da relatividade.
    • O blogue “Markov Chain” (Cadeia de Markov) é uma publicação de blogueiros e blogueiros de todo o mundo.
    • O HMM é um modelo de HiddenMarkov.
    • MEMM (Maximum Entropy Markov Model) é um modelo de entropia máxima de Markov.
    • CRF (Conditional Random Field) é um campo aleatório condicional.
    • MRF (Markov Random Field)
  • Não é uma questão de tempo, mas sim de espaço.

    • A ANN é uma rede de neurônios artificiais (ou seja, uma rede de neurônios artificiais) criada por uma equipe de cientistas da Universidade da Califórnia em Los Angeles.
    • BP ((Error BackPropagation Erro de propagação inversa))
  • DeepLearning

    • Auto-encoder (codificador automático)
    • SAE (Stacked Auto-encoders) é um programa de codificação automática empilhado.
    • O Sparse Auto-encoders é um programa de codificação automática.
    • Denoising Auto-encoders é uma ferramenta de codificação automática para reduzir o ruído.
    • Contractive Auto-encoders (em inglês)
    • RBM (Restricted Boltzmann Machine) é uma máquina com restrição de Boltzmann.
    • DBN (Rede de Crenças Profundas)
    • A rede de neurônios convolutional (CNN) é uma das redes de neurônios que mais se desenvolvem no mundo.
    • O Word2Vec é um modelo de aprendizagem vetorial de palavras.
  • DimensionalityReduction (Reduzir Dimensionalidade):

    • LDA LinearDiscriminant Analysis/Fisher Linear Discriminant
    • PCA (Análise de Componentes Principais)
    • A ICA (Independent Component Analysis) é uma ferramenta de análise de componentes independentes.
    • SVD (Singular Value Decomposition)
    • FA (Análise de Fatores).
  • Text Mining (mineração de texto):

    • VSM (Vector Space Model) é um modelo de espaço vetorial.
    • O Word2Vec é um modelo de aprendizagem vetorial de palavras.
    • O termo “frequência” é usado para descrever a frequência de um evento.
    • TF-IDF ((Term Frequency-Inverse DocumentFrequency) é uma freqüência de documento invertida, que é a frequência de um documento invertido.
    • A informação foi divulgada pelo MI (MutualInformation).
    • ECE (Expected Cross Entropy) é uma expressão de expectativa de entropia cruzada.
    • QEMI (Cartão de Informações Secundário)
    • IG ((InformationGain: ganho de informação)
    • O IGR é o índice de ganho de informação, o índice de ganho de informação e o índice de ganho de informação.
    • O Gini é o coeficiente de Gini.
    • x2 Statistic (((x2 estatísticas),
    • TEW (TextEvidence Weight) é uma plataforma de pesquisa de conteúdo digital que tem como objetivo fornecer informações sobre o conteúdo de um texto.
    • O que é que o “Odds Ratio” tem a ver com o “Odds Ratio”?
    • N-Gram Model,
    • LSA (Latent Semantic Analysis) é uma ferramenta de análise semântica latente, usada para analisar a semântica latente.
    • PLSA (Probabilistic Latent Semantic Analysis) é uma análise semântica latente baseada na probabilidade.
    • LDA (Latent Dirichlet Allocation)
  • Association Mining (Associação de Mineração):

    • Apriori,
    • FP-growth (Frequency Pattern Tree Growth) é um algoritmo de crescimento de árvores de padrão de frequência.
    • AprioriAll,
    • Spade。
  • Recommendation Engine (Motor de Recomendação):

    • DBR (Demographic-based Recommendation) é uma recomendação baseada em dados demográficos.
    • CBR (Context-based Recommendation) é uma recomendação baseada no conteúdo.
    • CF (Collaborative Filtering) é uma ferramenta de filtragem colaborativa.
    • A UCF (Recomendação de Filtragem Colaborativa Baseada no Usuário) é uma recomendação de filtragem colaborativa baseada no usuário.
    • ICF (Item-based Collaborative Filtering Recommendation)
  • Similarity Measure & Distance Measure (Medida de similaridade e distância):

    • Distância Euclidiana
    • ManhattanDistance é um site de notícias e notícias sobre a cidade de Nova Iorque, no estado de Nova Iorque.
    • A distância entre Chebyshev e Cheboksaryv é de cerca de 1,5 km.
    • MinkowskiDistance (Distância de Minkowski)
    • Distância Euclidiana Padronizada (Standardized Euclidean Distance)
    • A distância de Mahalanobis é de cerca de 2 km.
    • O que é um Cosine?
    • HammingDistance/Edit Distance (Distância de Hamming/Distância de Edição)
    • A distância de Jaccard é de cerca de 3 km.
    • Correlation Coefficient Distance (Distância do Coeficiente de Correlação)
    • A informação entrópica.
    • KL ((Kullback-Leibler Divergência KL Divergência/Entropia Relativa Relativamente Baixa)
  • Feature Selection (Algoritmo de Seleção de Características):

    • A informação mútua é uma forma de expressar a nossa identidade.
    • DocumentFrequence (Frequência de Documentos)
    • Informação ganha.
    • Testes de Chi-quadrado
    • Gini (o coeficiente de Gini)
  • Outlier Detection (Algoritmo de detecção de pontos de anomalia):

    • O blogueiro é um dos principais responsáveis por este tipo de publicação.
    • Distance-based (baseado na distância)
    • Density-based (baseado na densidade)
    • Clustering-based (Baseado em clustering)
  • Learning to Rank (Classificação baseada em aprendizado):

    • Pointwise:McRank;
    • Pairwise:RankingSVM,RankNet,Frank,RankBoost;
    • Listwise:AdaRank,SoftRank,LamdaMART。