- 포럼
- 퀀트피디아
- 흔히 사용되는 기계 학습 및 데이터 채굴 관련 용어
흔히 사용되는 기계 학습 및 데이터 채굴 관련 용어
저자:
발명가들의 수량화 - 작은 꿈, 2017-03-20 09:58:22, 업데이트:
흔히 사용되는 기계 학습 및 데이터 채굴 관련 용어
-
샘플링 ( 샘플링):
- 간단한 무작위 샘플링 (Simple Random Sampling)
- 오프라인 샘플링 (오프라인에서 K 샘플링이 가능)
- 온라인 샘플링 (K 샘플링이 가능)
- 비율 기반 샘플링 (Ratio-based Sampling)
- 인수 거부 샘플링 (acceptance-rejection sampling)
- 중요성 샘플링
- MCMC ((MarkovChain Monte Carlo MarkovMont Carlo 샘플링 알고리즘: 메트로폴리스-하스팅 & 기브스))
-
클러스터링 (Clustering):
- K-means,
- K-Mediods,
- 2분 K-Means,
- FK-Means,
- 캔노피
- 스펙트럼-KMeans (스펙트럼 그룹)
- GMM-EM (융합 고스 모델 - 최대화 알고리즘의 기대 해결)
- K-Pototypes, CLARANS (분류에 기반한)
- BIRCH (위계별로)
- CURE (위계별로)
- DBSCAN (밀도에 따라)
- CLIQUE (밀도 기반 및 격자 기반)
-
Classification & Regression (분류 및 회귀):
- 그리고 그 결과로, 우리는 이 모든 것을 더 잘 할 수 있습니다.
- 그리고 그 결과로, 이 모든 것이 다시 일어납니다.
- SR (Softmax Regression, 아마도 클래스 로직 회귀)
- GLM (Generalized Linear Model) 는 일반화된 선형 모델이다.
- RR ((리지 회귀 회귀/L2 정규 최소 2 배 회귀),
- LASSO (최저 절대적 수축 및 선택자 연산자 L1 정규 최소 두 배 회귀)
- RF (작은 숲)
- DT (DecisionTree) 의 결정 트리
- GBDT (Gradient Boosting Decision Tree) 는 지각 상승 결정 나무입니다.
- CART (ClassificationAnd Regression Tree) 는 분류와 회귀의 나무입니다.
- KNN (K-Nearest Neighbor)
- SVM (지원 벡터 머신)
- KF ((KernelFunction) 핵 함수 PolynomialKernel Function 다중형 핵 함수,
- 가시안 커널 함수 가시안 커널 함수/라디얼 베이스 함수 RBF 지름 방향 베이스 함수
- String KernelFunction 문자열 커널 함수)
- NB (나이브 베이어스, 순진 베이어스, BN) (Bayesian Network/Bayesian Belief Network/Belief Network)
- LDA (Linear Discriminant Analysis/FisherLinear Discriminant Analysis/피셔선형분석 분석)
- EL (Ensemble Learning) 는 학습을 통합하여 Boosting, Bagging, Stacking를 학습합니다.
- 아다부스트 (Adaptive Boosting) 는 자율적 증강을 위한 프로그램입니다.
- MEM (최대 엔트로피 모델 최대의 모델)
-
효과 평가 (Effectiveness Evaluation):
- 이 문헌은 이 문헌의 내용에 대해 설명하고 있습니다.
- 그리고 그 중에서도 가장 중요한 것은 바로 이 점입니다.
- 그리고 그 중에서도 가장 중요한 것은 정확성 (accuracy), F-score (F-score),
- ROC 곡선 (ROC 곡선), AUC (AUC 면적),
- 리프트 커브, KS 커브.
-
PGM (Probabilistic Graphical Models 확률 그래프 모델):
- BN (Bayesian Network/Bayesian Belief Network/BeliefNetwork 베이스 네트워크/베이스 믿음 네트워크/신앙 네트워크)
- MC (마르코프 체인)
- HMM (Hidden Markov Model) 은 마르코프의 모델입니다.
- MEMM (최대 엔트로피 마르코프 모델)
- CRF (Conditional Random Field) 는 임의의 무작위 필드입니다.
- MRF (마르코프 랜덤 필드)
-
네이버 네트워크 (NN):
- 이 글은 한 해 전에 한 인터뷰에서 발표된 글입니다.
- BP (Error BackPropagation: 오류 백프로파게이션)
-
딥러닝
- 오토 엔코더 (자동 인코더)
- SAE (Stacked Auto-encoders) 는 자동 인코더를 쌓아 놓습니다.
- 스파스 오토 인코더는 희귀한 자동 인코더입니다.
- Denoising Auto-encoders는 자동 인코더에 대한 소음을 차단합니다.
- 이 경우, 자동 인코더는 자동 인코더로 변환됩니다.
- RBM (Restricted Boltzmann Machine) 는 독일의 공학기술 연구소이다.
- DBN (Deep Belief Network) 는 한 명의 유동인구가 있는 곳이다.
- CNN (Convolutional Neural Network) 는 이 뉴런에 대해 많은 이야기를 하고 있습니다.
- Word2Vec (언어 벡터 학습 모델)
-
DimensionalityReduction (차원 축소):
- LDA Linear Discriminant Analysis/Fisher Linear Discriminant 분석/피셔 선형분별 분석
- PCA (Principal Component Analysis) 는 주요 구성 요소 분석을 위한 PCA입니다.
- ICA (Independent Component Analysis) 는 독립적인 구성 요소 분석을 위한 연구소입니다.
- SVD (Singular Value Decomposition) 는 특이한 값의 분해라고도 한다.
- FA (faktor analysis) 는 요인 분석 방법이다.
-
문자 채굴 (text mining):
- VSM (벡터 공간 모델)
- Word2Vec (말 벡터 학습 모델)
- TF (Term Frequency)
- TF-IDF (Term Frequency-Inverse Document Frequency) 는 용어 주파수-반면 문서 주파수,
- 이 글은 미카오피디아 (MIA) 에 의해 공개된 글입니다.
- ECE (Expected Cross Entropy) 는 예상 크로스 엔트로피 (Expected Cross Entropy) 를 나타냅니다.
- QEMI (제2 정보 )
- IG (InformationGain) 는 정보의 증대,
- IGR (Information Gain Ratio) 는 정보의 이익 증가율을 나타내는 기호입니다.
- 기니 (기니 계수)
- x2 Statistic (x2 통계)
- TEW (TextEvidence Weight) 문헌 증거권
- OR (odds ratio) 우위율,
- N-그램 모델
- LSA (Latent Semantic Analysis) 는 유래 시맨틱 분석의 한 가지 예입니다.
- PLSA (Probabilistic Latent Semantic Analysis) 는 확률에 기초한 잠재적인 의미 분석이다.
- LDA (Latent Dirichlet Allocation 잠재적인 디리크레 모델)
-
연계 채굴:
- 우선,
- FP-growth (Frequency Pattern Tree Growth) 는 나무의 성장에 대한 알고리즘으로,
- 우선,
- 스파드.
-
추천 엔진:
- DBR (Demographic-based Recommendation) 는 인구통계 기반의 권고입니다.
- CBR (Context-basedRecommendation) 는 컨텐츠에 기반한 추천입니다.
- CF (협동 필터링 협동 필터링)
- UCF (User-based Collaborative Filtering Recommendation) 는 유저 기반의 협업 필터링 추천을 통해
- ICF (Item-based Collaborative Filtering Recommendation) 는 프로젝트에 기반한 공동 필터링 추천이다.
-
유사성 측정 및 거리 측정:
- 유클리드 거리 (유럽 거리)
- 맨해튼 거리 (Manhattan Distance)
- 체비셰프 거리
- 미네코프스키 거리 (Minkowski distance)
- 표준화된 유클리드 거리 (Standardized Euclidean Distance)
- 마할라노비스 거리 (Martian Distance)
- 코스 (Cosine consonant) 는
- HammingDistance/Edit Distance (함밍 거리/편집 거리)
- 자카드 거리 (Jaccard Distance)
- 연동 계수 거리 (연동 계수 거리)
- 정보 엔트로피 (Information Entropy)
- KL (Kullback-Leibler Divergence KL 스파운드/비교적 엔트로피 상대적??)
-
[기능 선택 알고리즘]
- 이 글은 제 3번째 글입니다.
- 문헌의 주파수,
- 정보의 이익 (Information Gain)
- 이 실험의 결과로,
- 기니 (기니 계수)
-
아웃리어 탐지 (Outlier Detection):
- 이 글은 다른 글과 비교해 볼 수 있습니다.
- 이 글은 이쪽에서 읽었습니다.
- 그리고 이 모든 것은 매우 중요한 것입니다.
- 클러스터링 기반 (Clustering-based)
-
학습 순위 (Learning to Rank):
- 점적으로:McRank;
- 쌍별로: 랭킹SVM, 랭크넷, 프랭크, 랭크 부스트;
- 목록 순서: AdaRank,SoftRank,LamdaMART。
더 많은