기계학습에서 목표는 예측 (prediction) 또는 클러스터링 (clustering) 이다. 이 문서의 주요 관심사는 예측이다. 예측은 입력 변수 집합에서 출력 변수의 값을 예측하는 과정이다. 예를 들어, 관련 주택의 특성을 얻으면 판매 가격을 예측할 수 있다. 예측 문제는 크게 두 가지로 나눌 수 있다. 이 점을 고려한 다음, 기계 학습에서 가장 잘 알려진, 가장 많이 사용되는 알고리즘을 살펴봅시다. 우리는 이러한 알고리즘을 3가지로 분류합니다. 선형 모델, 트리 기반 모델, 신경망, 그리고 가장 많이 사용되는 6가지 알고리즘에 초점을 맞추고 있습니다.
선형 회귀, 또는 더 정확하게 말해서
선형 모델의 또 다른 단점은 그들이 매우 단순하기 때문에 입력 변수가 독립적이지 않을 때 더 복잡한 행동을 예측하는 것이 쉽지 않다는 것입니다.
논리 회귀는 분류 문제에 대한 선형 회귀의 적응이다. 논리 회귀의 단점은 선형 회귀와 동일하다. 논리 함수는 분류 문제에 매우 좋습니다. 왜냐하면 그것은 제약 효과를 도입하기 때문입니다.
결정나무는 분화 방법을 사용하여 결정의 모든 가능한 결과를 나타내는 그림이다. 예를 들어, 당신은 샐러드를 주문하기로 결정하고, 당신의 첫 번째 결정은 아마 쌀의 종류, 다음 샐러드 요리, 그리고 샐러드
의사결정 나무를 훈련시키기 위해 우리는 훈련 데이터 세트를 사용하여 목표에 가장 유용한 특성을 찾아내야 한다. 예를 들어, 사기 검출의 경우, 우리는 국가가 사기 위험 예측에 가장 큰 영향을 미치는 특성을 발견할 수 있다. 첫 번째 속성을 분할하면 두 개의 하위 세트를 얻을 수 있다. 이것은 첫 번째 속성을만 알고 있다면 가장 정확하게 예측할 수 있다. 그 다음 우리는 두 개의 하위 세트에 분할할할 수 있는 두 번째 좋은 속성을 찾아내고 다시 분할을 사용하며, 그렇게 반복해서 충분한 속성이 있을 때까지 목표의 요구를 충족시킬 수 있다.
무작위 숲은 많은 의사결정 나무의 평균이며, 각각의 의사결정 나무는 무작위 데이터 샘플로 훈련된다. 무작위 숲의 각각의 나무는 완전한 의사결정 나무보다 약하지만, 모든 나무를 함께 넣으면 다양성의 장점으로 인해 더 나은 전반적인 성능을 얻을 수 있다.
무작위 숲은 오늘날 기계 학습에서 매우 인기있는 알고리즘이다. 무작위 숲은 훈련하기가 쉽고 상당히 잘 수행된다. 그것의 단점은 다른 알고리즘에 비해 무작위 숲의 출력 예측이 느릴 수 있기 때문에 빠른 예측이 필요할 때 무작위 숲을 선택하지 않을 수 있다는 것입니다.
그라디엔트 부팅은 무작위 숲과 마찬가지로 약한
차원 상승 훈련은 또한 빠르고 매우 잘 수행됩니다. 그러나 훈련 데이터 세트의 작은 변화는 모델에 근본적인 변화를 일으킬 수 있으므로 생성되는 결과는 가장 실행 가능한 것이 아닐 수 있습니다.
빅데이터 플랫폼에서 가져온 것