이 문서에서는 회귀 분석과 그 장점을 설명하고, 선형 회귀, 논리 회귀, 다항성 회귀, 단계 회귀,
회귀분석 (regression analysis) 은 예측 모델링 기술로, 기因변수 (목적) 와 자기변수 (예측자) 사이의 관계를 연구한다. 이 기술은 종종 예측 분석, 시간계열 모델, 그리고 발견 변수들 사이의 인과 관계를 위해 사용된다. 예를 들어, 운전자의 부주의한 운전과 도로 교통 사고의 수 사이의 관계는 회귀로 가장 좋은 연구 방법이다.
회귀 분석은 데이터를 모델링하고 분석하는 데 중요한 도구이다. 여기서 우리는 곡선/선들을 사용하여 이 데이터 포인트들을 맞추고, 이 방식으로 곡선이나 선에서 데이터 포인트까지의 거리의 차이는 최소화된다. 나는 다음 부분에서 이것을 자세히 설명할 것이다.
앞서 언급했듯이, 회귀 분석은 두 개 이상의 변수 사이의 관계를 추정합니다. 아래에서, 그것을 이해하기 위해 간단한 예를 들어 보겠습니다:
예를 들어, 현재 경제 조건에서 회사의 매출 성장률을 추산해야 합니다. 이제, 회사의 최신 데이터가 있습니다. 매출 성장률은 경제 성장률의 2.5배 정도입니다.
회귀 분석을 사용하는 데는 많은 이점이 있습니다.
그것은 자기 변수와 계수 변수 사이의 중요한 관계를 보여줍니다.
이는 여러 자기변수들이 하나의 변수에 미치는 영향의 강도를 나타낸다.
회귀 분석은 또한 가격 변화와 프로모션 활동의 수 사이의 연관성과 같은 다양한 규모의 변수를 측정하는 변수들 사이의 상호작용을 비교할 수 있게 한다. 이것은 시장 연구원, 데이터 분석가, 그리고 데이터 과학자들이 예측 모델을 구축하기 위해 최적의 변수들을 배제하고 추정하는 데 도움이 된다.
다양한 회귀 기술이 예측에 사용된다. 이 기술은 크게 세 가지 측정 (자신 변수 개수, 변수 유형 및 회귀선의 모양) 을 가지고 있다. 우리는 다음 섹션에서 그것들을 자세히 논의할 것이다.
창의적인 사람들을 위해, 만약 위의 변수들의 조합을 사용하는 것이 필요하다고 생각한다면, 사용되지 않은 회귀 모델을 만들 수도 있다. 하지만 시작하기 전에, 가장 많이 사용되는 회귀 방법을 알아보자:
그것은 가장 잘 알려진 모델링 기술 중 하나입니다. 선형 회귀는 일반적으로 예측 모델을 배우는 데 가장 선호되는 기술 중 하나입니다. 이 기술에서는 변수가 연속적이기 때문에 자체 변수가 연속적이거나 분분적이 될 수 있으며 회귀 라인의 특성은 선형적입니다.
선형 회귀는 최적의 적합성 직선 (즉 회귀선) 을 사용하여 요인 변수 (Y) 와 하나 이상의 자기 변수 (X) 사이에 관계를 설정한다.
이 방정식은 Y=a+b*X+e라는 방정식으로 나타납니다. 여기서 a는 절단, b는 직선의 기울기, e는 오류항이다. 이 방정식은 주어진 예측 변수 (s) 에 따라 목표 변수의 값을 예측할 수 있습니다.
단선 회귀와 다선 회귀의 차이점은 다선 회귀가 (1) 자변을 가지고 있는 반면 단선 회귀는 보통 1 자변을 가지고 있다는 것이다. 이제 문제는 우리가 최적의 합선선을 어떻게 얻을 수 있는가?
가장 적합한 선 (a와 b의 값) 을 어떻게 얻을 수 있습니까?
이 문제는 최소 제곱으로 쉽게 풀 수 있다. 최소 제곱은 회귀선을 맞추는 가장 일반적인 방법이기도 하다. 관측 데이터의 경우, 각 데이터 포인트와 선의 수직 편차의 제곱을 최소화하여 최적의 편차를 계산한다. 덧셈에 편차가 먼저 제곱되기 때문에 양수와 음수가 적립되지 않는다.
우리는 R-square 지표를 사용하여 모델 성능을 평가할 수 있다. 이 지표에 대한 자세한 정보는 모델 성능 지표 Part 1, Part 2를 읽을 수 있다.
이 글은
논리 회귀는?? 사건=성공?? 및?? 사건=실패?? 의 확률을 계산하는 데 사용된다. 변수의 유형이 이진 ((1/0, true/false, yes/no) 변수에 속할 때, 우리는 논리 회귀를 사용해야 한다. 여기서, Y의 값은 0에서 1까지, 그것은 다음과 같은 방정식으로 나타낼 수 있다.
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
위의 식에서 p 표현은 어떤 특성을 갖는 확률을 가지고 있다. 당신은 이런 질문을 해야 한다: 왜 우리는 공식을 위해 로그램을 사용합니까?
여기서 우리가 사용하는 것은 이분법 분포 (因변수)이기 때문에, 우리는 이 분포에 가장 적합한 연결 함수를 선택해야 한다. 그것은 로그이트 함수이다. 위의 방정식에서, 관측 표본의 매우 유사한 추정값을 통해 사각형과 오류를 최소화하지 않고 변수를 선택해야 한다. (일반 회귀에서 사용되는 것처럼).
이 글은
회귀 방정식에 대해, 자기변수의 지수가 1보다 크면, 그것은 다항적 회귀 방정식이다.
y=a+b*x^2
이러한 회귀 기술에서는 최적의 핏 라인은 직선이 아니라 데이터 포인트를 맞추기 위해 사용되는 곡선이다.
이 글은
다수의 자기변수들을 처리할 때 우리는 이러한 형태의 회귀를 사용할 수 있다. 이 기술에서는 자기변수 선택은 자동적인 과정에 의해 이루어지며, 여기에는 비인도 조작이 포함된다.
이 업적은 R-square, t-stats 및 AIC 지표와 같은 통계적 값을 관찰하여 중요한 변수를 식별하는 것이다. 단계적 회귀는 지정된 기준에 기반한 동변을 동시에 추가/제어하여 모델을 적합하게 만드는 것이다. 아래에는 가장 일반적으로 사용되는 단계적 회귀 방법의 일부가 나열되어 있다:
위에선형 회귀 방정식을 보았습니다. 기억하시나요?
y=a+ b*x
이 방정식은 또한 오류항을 가지고 있습니다. 완전한 방정식은:
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
선형 방정식에서 예측 오류는 2개의 하위 분모로 분해될 수 있다. 하나는 편차이고 다른 하나는 분차이다. 예측 오류는 이 두 가지 분모 또는 이 둘 중 어느 하나에 의해 발생할 수 있다. 여기서 우리는 분차에 의해 발생하는 관련 오류에 대해 논의할 것이다.
이 공식에는 두 가지 구성 요소가 있다. 첫째는 최소 이분수, 다른 하나는 β2 (β-제곱) 의 곱하기 λ이며, 여기서 β는 관련 계수이다. 축소 변수를 위해 최소 이분수에 추가하여 매우 낮은 분리를 얻는다.
이 글은
이것은
라소 회귀는 리지 회귀와 약간 다릅니다. 그것은 벌금 함수를 사용해서 절대값이 아니라 제곱을 사용합니다. 이것은 벌금 (또는 제약 추정치의 절대값의 합과 같다는) 값으로 인해 몇 가지 매개 변수 추정 결과가 0에 해당됩니다. 벌금 값을 사용하면 벌금 값이 커질수록 추가 추정값이 0에 가까워집니다. 이것은 우리가 주어진 n 변수 중에서 변수를 선택하도록 만듭니다.
이 글은
ElasticNet은 라소와 리지 회귀 기술의 혼합이다. 그것은 L1을 훈련하기 위해 사용하고 L2를 정규 매트릭스로 우선적으로 사용한다. 여러 개의 관련 특성이 있을 때 ElasticNet은 유용하다. 라소는 그 중 하나를 무작위로 선택하고, ElasticNet은 둘을 선택한다.
라소와 리지의 실질적인 장점은 라스틱넷이 리지의 어떤 안정성을 루킹 상태에서 물려받을 수 있게 해준다는 것이다.
이 글은
어떻게 회귀 모델을 올바르게 선택할 수 있습니까?
한 두 가지 기술만 알고 있을 때 삶은 종종 간단하다. 내가 아는 한 교육 기관은 학생들에게 결과물이 연속이라면 선형 회귀를 사용하라고 말했다. 이진형이라면 논리 회귀를 사용했다. 그러나 우리의 처리에서 선택할 수 있는 것이 많을수록 올바른 것을 선택하는 것이 더 어려워졌다.
다차원 회귀 모형에서는 자기변수와 수동변수의 종류, 데이터의 차원, 그리고 데이터의 다른 기본 특성들에 기초하여 가장 적합한 기술을 선택하는 것이 매우 중요합니다. 다음은 올바른 회귀 모형을 선택하는 데 중요한 요소입니다:
데이터 탐구는 예측 모델을 구축하는 데 필수적인 부분이다. 적절한 모델을 선택할 때, 예를 들어 변수의 관계와 영향을 식별할 때 우선 순위가 되어야 한다.
서로 다른 모델의 장점들을 비교할 때, 우리는 통계적 의미의 파라미터, R-스퀘어, 조정된 R-스퀘어, AIC, BIC, 그리고 오류 항목과 같은 다른 지표 매개 변수를 분석할 수 있다. 다른 하나는 말루스?? Cp 기준이다. 이것은 주로 모델을 모든 가능한 서모델과 비교함으로써 (또는 신중하게 선택하여) 당신의 모델에서 발생할 수 있는 오차를 검사하는 것이다.
크로스 검증은 예측 모델을 평가하는 가장 좋은 방법이다. 여기서는 당신의 데이터 세트를 두 부분으로 나누고 (한 부분은 훈련하고 다른 하나는 검증한다). 관찰값과 예측값 사이의 간단한 평균 차이를 사용하여 당신의 예측의 정확성을 측정한다.
만약 당신의 데이터 세트가 여러 개의 혼합 변수라면, 당신은 모든 변수들을 동시에 같은 모델에 넣고 싶지 않기 때문에 자동 모델 선택 방법을 선택해서는 안 된다.
그것은 또한 당신의 목적에 따라 달라질 것입니다. 더 약한 모델이 높은 통계적 의미의 모델보다 더 쉽게 구현될 수 있는 상황이 발생할 수 있습니다.
회귀 정형화 방법 (Lasso, Ridge, ElasticNet) 은 고차원 및 데이터셋 변수들 사이의 다중 공선적 상태에서 잘 작동한다.
CSDN에서 가져온