本文では,回帰分析とその利点について説明し,最も一般的に用いられる7つの回帰技術 (線形回帰,論理回帰,多項回帰,段階回帰,
回帰分析は,因変数 (目標) と自己変数 (予測者) の関係を研究する予測モデリング技術である.この技術は,通常,予測分析,タイムシーケンスモデル,発見変数間の因果関係に使用される.例えば,ドライバーの無謀な運転と道路交通事故の数の関係,最も優れた研究方法は回帰である.
回帰分析はデータモデリングと分析のための重要なツールです. ここで,曲線/線を使ってこれらのデータポイントをマッチします. この方法で,曲線または線からデータポイントまでの距離の差は最小です. 私は次のセクションで詳細に説明します.
上記のように,回帰分析は2つ以上の変数との関係を推定する.以下,それを理解するために簡単な例を挙げましょう:
例えば,現在の経済状況下では,会社の売上高の成長率を推定します. 現在,会社の最新データがあるので,売上高の成長率は経済成長の2.5倍程度です. 逆転分析を使用して,現在の情報と過去の情報に基づいて将来の会社の売上を予測することができます.
逆転分析の利点はいくつかあります.
これは自変数と因変数との間に有意な関係を示しています.
これは,複数の自己変数による変数による影響の強さを表します.
回帰分析はまた,価格変動とプロモーション活動の数との関連など,異なる尺度の変数を測定する相互影響の比較を可能にします. これらは,市場研究者やデータ分析者,およびデータ科学者が予測モデルを構築するために最適な変数を排除し推定するのに役立ちます.
予測に用いられる回帰技術には様々な種類があります.これらの技術は主に3つのメタメタール (自変数の個体数,変数の種類,回帰線の形状) を有します.これらのメタメタールは,次のセクションで詳細に説明します.
創意のある人にとって,上記のパラメータの組み合わせを使用することが必要だと感じるなら,未使用の回帰モデルを作成することもできます. しかし,始められる前に,最もよく使われる回帰方法について以下のように説明します.
これは最もよく知られたモデリング技術の一つである.線形回帰は,予測モデルを学ぶ際にしばしば好まれる技術の一つである.この技術では,変数が連続であるため,自変数は連続または離散である可能性があり,回帰線の性質は線形である.
線形回帰は,因数 (Y) と自己変数 (X) の1つまたは複数の間,最適な適合直線 (すなわち回帰線) を用いて関係性を作る.
これは,y=a+b*x+eという式で表される.ここでaは切片,bは直線の傾き,eは誤差項である.この式は,与えられた予測変数 (s) に基づいて目標変数の値を予測することができる.
単線回帰と多線回帰の違いは,多線回帰には (1) の自己変数があることであり,単線回帰には通常,1 つの自己変数があることです.
適正な線 (aとbの値) をどうやって得るか?
この問題は最小二乗で簡単に完了できる.最小二乗は回帰線を適合させる最も一般的な方法でもある.観測データでは,各データポイントから線への垂直偏差の平方和を最小化して最適な適合線を計算する.加算では偏差が平方に先行するので,正値と負値は抵消されない.
R-square指標を使用してモデル性能を評価することができます.これらの指標について詳細については,以下を参照してください:モデル性能指標 Part 1, Part 2.
ポイント:
論理回帰は,
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
この式では,p の表現が特定の特性を有する確率である.あなたはこんな質問をすべきでしょう. なぜ公式で対数log を使うのか?
ここで我々が使うのは二次分布 (因変数) であるため,この分布に最適な結合関数を選択する必要があります. それはロジット関数です. 上記の方程式では,観測サンプルの大幅な類似推定値によって参数を選択する代わりに,平方と誤差を最小化する (通常の回帰で使用されているように).
ポイント:
回帰方程式については,自変数の指数が1より大きい場合,多項式回帰方程式である.
y=a+b*x^2
この回帰技術では,最適なフィットラインは直線ではなく,データポイントをフィットするために使用される曲線である.
ポイント:
複数の自変を処理するときに,この形式の回帰を使用することができる.この技術では,自変の選択は,非人間操作を含む自動プロセスで行われます.
この偉業は,R-square,t-stats,AIC指標などの統計値を観察することによって重要な変数を識別する. ステップレグネーションは,指定基準に基づく共変数を同時に追加/削除してモデルに適合させる. 以下は,最も一般的に使用されるステップレグネーション方法のいくつかです:
線形回帰方程式は,次の式で表されます.
y=a+ b*x
この方程式には誤差項もあります.
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
線形方程式では,予測誤差は2つの子分数に分割できる. ^1は偏差, ^2は差分である. ^2はこれらの分数,またはそのいずれかに起因する. ^3では,差分によって起因する関連誤差について議論する. ^4は,差分によって起因する関連誤差について議論する. ^5は,差分によって起因する関連誤差について議論する. ^6は,差分によって起因する関連誤差について議論する.
この式には2つの構成要素がある.最初のものは最小二乗項であり,もう1つはβ2 (β−平方) の倍数であるλで,βは関連系数である.縮小参数のために最小二乗項に追加して非常に低い方差を得る.
ポイント:
これは
ラソ回帰はリッジ回帰とは少し異なっており,その罰関数は平方ではなく絶対値である.これは罰 (または制限推定の絶対値の合計に等しい) の値がいくつかの参数推定結果をゼロに等しくする結果になる.罰値が大きいほど,さらに推定がゼロに近い値に縮小する結果になる.これは,与えられたnつの変数から変数を選択する結果になる.
ポイント:
ElasticNetは,Lassoとリッジ回帰技術の混合である.それはL1を訓練するために使用し,L2は規則化マトリックスとして優先される.複数の関連性があるとき,ElasticNetは便利である.Lassoはそれらのうちの1つをランダムに選択し,ElasticNetは2つを選択する.
LassoとRidgeの実用的な優点は,ElasticNetがリサイクル状態でRidgeのいくつかの安定性を継承することを可能にすることである.
ポイント:
逆転モデルを正しく選ぶにはどうすればいいのか?
"技術"や"技術"を2つしか知らないと,人生は簡単になる.ある訓練機関が学生に,結果が連続であれば,線形回帰を使うと教えてくれた.二元であれば,論理回帰を使うと教えてくれた.しかし,私たちの処理では,選択肢が多くなるほど,正しいものを選ぶのが難しくなる.
多種回帰モデルでは,自変と因変の種類,データの次元,およびデータの他の基本的な特性に基づいて,最も適切な技術を選択することが重要です.正しい回帰モデルを選択する際の重要な要素は以下の通りです:
データ探求は予測モデルの構築の必然的な部分である.適切なモデルを選択する際,例えば変数の関係と影響を識別する際の第一歩であるべきである.
異なるモデルに適した優位性としては,統計的意味のパラメータ,R-square,Adjusted R-square,AIC,BIC,および誤差項などの異なる指標パラメータを分析することができる.もう1つは,Mallows's Cube Cp指針である.これは主にモデルをすべての可能なサブモデルと比較して (またはそれらを慎重に選択して) あなたのモデルで発生する可能性のある偏差をチェックする.
クロス検証は予測モデルを評価する最良の方法である.ここで,あなたのデータセットを2つの部分に分割します (訓練と検証の1つ).観察値と予測値の間の単純な均等差を使用してあなたの予測の精度を測定します.
数値セットが複数の混合変数である場合は,すべての変数を同時に同じモデルに置くことを望まないため,自動モデル選択の方法を選択すべきではありません.
また,あなたの目的にもかかることでしょう. 弱いモデルが高度な統計的意味を持つモデルよりも容易に行う場合もあります.
回帰正規化方法 (Lasso,Ridge,ElasticNet) は,高次元とデータセット変数間の多重共線性においてうまく動作する.
CSDNから転送