機械学習では,目標は予測 (prediction) やクラスタリング (clustering) である.この記事の重点は予測である.予測は,入力変数の集合から出力変数の値を予測するプロセスである.例えば,関連する家の特性の集合を得て,その販売価格を予測することができる.予測問題は,2つのカテゴリーに分けられる. このことを理解して,次に,機械学習における最も顕著で,最もよく使われるアルゴリズムを見てみましょう. これらのアルゴリズムを3つのカテゴリーに分けます. 線形モデル,樹木ベースのモデル,神経ネットワーク. 6つの一般的なアルゴリズムに焦点を当てます.
線形回帰,またはより正確に言うなら
線形モデルのもう一つの欠点は,非常に単純であるため,入力変数が独立していないとき,より複雑な行動を予測することが容易ではないことである.
論理回帰は,線形回帰が分類問題への適応である.論理回帰の欠点は線形回帰と同じである.論理関数は分類問題に対して非常に良い,それは
意思決定ツリーとは,分岐式方法を使って決定のあらゆる可能な結果を表示する図である. 例えば,サラダを注文すると決めたとき,最初の決定は,おそらく生菜の種類,次に菜菜,次にサラダの種類である.私たちはすべての可能な結果を決定ツリーで表現することができます.
意思決定ツリーを訓練するには,トレーニングデータセットを使用して,目標に最も有用な属性を特定する必要があります. 例えば,詐欺検出の例では,詐欺リスクの予測に最も影響する属性は国家であることが判明するかもしれません. 最初の属性で分岐した後,最初の属性だけが知られていると仮定すると最も正確に予測できる2つのサブセットが得られます. 次に,これらの2つのサブセットに分岐できる第2の良い属性を再利用し,再分割を行います. そして,十分な属性があれば目標のニーズを満たすまで繰り返します.
ランダムな森は,多くの意思決定樹の平均であり,それぞれの意思決定樹はランダムなデータサンプルで訓練されている.ランダムな森のそれぞれの樹は,完全な意思決定樹よりも弱いが,すべての樹を一緒にすると,多様性の優位性により,よりよい全体的な性能を得ることができる.
ランダムフォレストは,今日機械学習で非常に人気のあるアルゴリズムである.ランダムフォレストは,訓練が容易で,かなりうまく機能している.その欠点は,他のアルゴリズムと比較して,ランダムフォレストの出力予測は遅い可能性があるため,急速な予測が必要な場合,ランダムフォレストを選択しない可能性があるということだ.
梯度増強 (GradientBoosting) は,ランダムな森林のように弱小な
梯度アップのトレーニングも迅速で,非常に良いパフォーマンスである.しかし,トレーニングデータセットの小さな変更はモデルに根本的な変化をもたらす可能性があるため,その結果が最も実行可能ではない可能性があります.
ビッグデータ・プレイスから