機械学習の3大カテゴリー6大アルゴリズムのメリットとデメリット

作者: リン・ハーン発明者 量化 - 微かな夢, 作成日: 2017-10-30 12:01:59, 更新日: 2017-11-08 13:55:03

機械学習の3大カテゴリー6大アルゴリズムのメリットとデメリット

機械学習では,目標は予測 (prediction) やクラスタリング (clustering) である.この記事の焦点は予測である.予測は,入力変数の集合から出力変数の値を予測するプロセスである.例えば,関連する家具の特性の集合を得て,その販売価格を予測することができる.予測問題は,2つのカテゴリーに分けられる. このことを理解した上で,次に,機械学習における最も顕著で,最もよく使われるアルゴリズムを見てみましょう. これらのアルゴリズムを3つのカテゴリーに分けます. 線形モデル,樹木ベースのモデル,神経ネットワーク. 6つの一般的なアルゴリズムに焦点を当てます.

全解机器学习3大分类6大算法的优势和劣势

一,線形モデルのアルゴリズム:線形モデルは,簡単な式を使って,データ点の集合を介して,に最適なをみつける.この方法は200年以上前に遡り,統計学と機械学習の両分野で広く使用されている.そのシンプルさのために,それは統計学に有用である.あなたが予測したい変数 (因変数) は,あなたがすでに知っている変数 (自変数) の方程式として表されるので,予測は単に変数を入力して,方程式の答えを計算する問題である.

  • 線形回転を

線形回帰,またはより正確に言うならの最小二乗回帰回帰回帰は,線形モデルの最も標準的な形態である. 回帰問題において,線形回帰は最も単純な線形モデルである.その欠点は,モデルは容易な過適性であり,すなわち,モデルは訓練されたデータに完全に適応し,新しいデータへの普及能力を犠牲にする.したがって,機械学習における線形回帰 (そして,次に話そうとする論理回帰) は,通常正回帰である.これは,モデルに過適性を防止する一定の罰があることを意味する.

線形モデルのもう一つの欠点は,非常に単純であるため,入力変数が独立していないとき,より複雑な行動を予測することが容易ではないことである.

  • ####2 論理的回帰

論理回帰は,線形回帰が分類問題への適応である.論理回帰の欠点は線形回帰と同じである.論理関数は分類問題に対して非常に良い,それは値効果を導入している.

2 ツリーモデルのアルゴリズム

  • ###############################################################################################################################################################################################################################################################

意思決定ツリーとは,分岐式方法を使って決定のあらゆる可能な結果を表示する図である. 例えば,サラダを注文すると決めたとき,最初の決定は,おそらく生菜の種類,次に菜菜,次にサラダの種類である.私たちはすべての可能な結果を決定ツリーで表現することができます.

意思決定ツリーを訓練するには,トレーニングデータセットを使用して,目標に最も有用な属性を特定する必要があります. 例えば,詐欺検出の例では,詐欺リスクの予測に最も影響する属性は国家であることが判明するかもしれません. 最初の属性で分岐した後,最初の属性だけが知られていると仮定すると最も正確に予測できる2つのサブセットが得られます. 次に,これらの2つのサブセットに分岐できる第2の良い属性を再利用し,再分割を行います. そして,十分な属性があれば目標のニーズを満たすまで繰り返します.

  • ####2 ランダムな森

ランダムな森は,多くの意思決定樹の平均であり,それぞれの意思決定樹はランダムなデータサンプルで訓練されている.ランダムな森のそれぞれの樹は,完全な意思決定樹よりも弱いが,すべての樹を一緒にすると,多様性の優位性により,よりよい全体的な性能を得ることができる.

ランダムフォレストは,今日機械学習で非常に人気のあるアルゴリズムである.ランダムフォレストは,訓練が容易で,かなりうまく機能している.その欠点は,他のアルゴリズムと比較して,ランダムフォレストの出力予測は遅い可能性があるため,急速な予測が必要な場合,ランダムフォレストを選択しない可能性があるということだ.

  • ####3 昇降する

梯度増強 (GradientBoosting) は,ランダムな森林のように弱小なの意思決定樹で構成されている.梯度増強とランダムな森林の最大の違いは,梯度増強では木が"つずつ訓練されていることである.各後木は主に前の木から誤ったデータを認識して訓練されている.これは梯度増強が容易な予測に重点を置くことよりも,より難しい状況に重点を置くことを意味する.

梯度アップのトレーニングも迅速で,非常に良いパフォーマンスである.しかし,トレーニングデータセットの小さな変更はモデルに根本的な変化をもたらす可能性があるため,その結果が最も実行可能ではない可能性があります.

3 ニューラルネットワークアルゴリズム:ニューラルネットワークは,脳内のニューロンで構成される生物学的現象で,脳内のニューロン同士が相互に情報を交換する.この考えは,今や機械学習分野にも適用され,ANN (人工ニューラルネットワーク) と呼ばれている.深層学習は,重ねた複数の層のニューラルネットワークである.ANNは,学習によって人間の脳に似た認知能力を獲得するモデルの一種である.

ビッグデータ・プレイスから


もっと見る