機械学習の問題を理解し,解決する必要があります.http://machinelearningmastery.com/practical-machine-learning-problems/)之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。機械学習の分野には多くのアルゴリズムがあり,それぞれのアルゴリズムには多くの拡張がありますので,特定の問題に対して正しいアルゴリズムをどのように決定するかというのは難しいです.
経験や環境,あるいは我々が入力と呼ぶデータについてどのように処理するかによって,アルゴリズムは様々な種類に分かれます.機械学習とAIの教科書では,通常,アルゴリズムの適応可能な学習方法を考慮します.
ここには,いくつかの主要な学習スタイルや学習モデルのこと,そしていくつかの基本的な例のみが議論されています. このような分類や組織化方法は,データ入力する役割とモデル準備のプロセスを考え,最適な結果を得るために,あなたの問題に最も適したアルゴリズムを選択するよう強制するので,良いものです.
監視学習:入力されたデータはトレーニングデータと呼ばれ,既知の結果またはマークが付けられている. 例えば,メールがスパムなのか,または一時期の株価なのかなど. モデルが予測し,間違っていたら修正される. このプロセスは,トレーニングデータに対して一定の正しい基準に達するまで続きます. 問題例には分類と回帰の問題,アルゴリズム例には論理回帰と逆神経ネットワークが含まれます. 無監督学習:入力されたデータは標識されていないし,結果も決定されていない. モデルはデータの構造と数値にインプットされている. 問題例には,アソシエーションルールの学習とクラグ問題,アルゴリズムの例には,アプリオリアルゴリズムとK-平均値アルゴリズムが含まれている. 半監督学習:入力データは,標示されたデータと標示されていないデータの混合物であり,いくつかの予測問題がありますが,モデルもデータの構造と構成を学ぶ必要があります.問題例には,分類と回帰の問題が含まれ,アルゴリズムの例は基本的に監督されていない学習アルゴリズムの拡張です. 強化学習:入力されたデータはモデルを刺激し,反応させる.フィードバックは,学習の監視過程だけでなく,環境の報酬や罰からも得られる.問題例はロボット制御であり,アルゴリズムの例はQ-learningとTemporal difference learningを含む.
データシミュレーションのビジネス意思決定を統合する際に,大半は監督学習と非監督学習の両方を使用する. 次の熱門話題は,半監督学習である.例えば,画像分類の問題では,大きなデータベースが存在しているが,画像の一部だけがマークされている.強化学習は,ロボット制御やその他の制御システムの開発にもほとんど使用されている.
アルゴリズムは基本的に機能や形式によって分類される.例えば,ツリーベースのアルゴリズム,ニューラルネットワークアルゴリズムなど.これは有用な分類方法ですが,完璧ではありません.多くのアルゴリズムが簡単に2つのカテゴリーに分けられるので,例えば,Learning Vector Quantizationは,同時にニューラルネットワーククラスのアルゴリズムとインスタンスベースの方法である.機械学習アルゴリズムの自己には完璧なモデルがないように,アルゴリズムの分類方法も完璧ではありません.
このセクションでは,私が最も直感的な方法だと考える分類アルゴリズムをリストしています. 私はアルゴリズムや分類方法が尽きていないが,読者に概要的な理解を与えることに役立つと考えます. もしあなたが理解しているものが,私がリストしていない場合は,留言で共有してください. 今始めましょう!
リグレッション (回帰分析) は,変数間の関係に関心がある.これは,いくつかのアルゴリズムの例を含む,統計的方法によって適用される.
普通の最小正方形 ロジスティック回帰 段階 的 に 退却 する マルチ変数適応回帰スプライン (MARS) 地元的に推定された散乱グラフの滑らか (LOESS)
インスタンスベースラーニング (Instance based learning) は,意思決定問題を模擬し,使用するインスタンスまたは例がモデルにとって非常に重要である.この方法では,既存のデータにデータベースを構築し,新しいデータを追加し,類似度測定方法を使用してデータベースで最適なマッチを見つけ,予測を行う.このため,この方法は,勝者王方法とメモリベースの方法とも呼ばれています.現在,焦点は,保存されたデータの表現形式と類似度測定方法です.
k-近隣国 (kNN) 学習ベクトル量子化 (LVQ) 自動組織地図 (SOM)
これは他の方法 (通常は回帰方法) の拡張であり,この拡張は,よりシンプルなモデルに有利であり,より優れたインプットメントである.私は,それが人気があり,強力であるため,ここでリストしています.
リッジ回帰 最低絶対収縮と選択操作者 (LASSO) エラスティックネット
意思決定ツリーメソッドは,データ内の実際の値に基づいて意思決定を行うモデルを構築する.
分類と回帰樹 (CART) 繰り返しの二極化剤3 (ID3) C4.5 自動相互作用検出 (CHAID) 決定の幹 ランダムな森 マルチ変数適応回帰スプライン (MARS) グラディアント・ブーシング・マシン (GBM)
ベイジアン方法 (Bayesian method) は,分類と回帰の問題を解決する際にベイヤス定理の方法を適用する.
ナイヴ・ベイズ 1つの依存関係 (AODE) を推定する平均値 ベイジアン・信念ネットワーク (BBN)
カーネル・メソッドの中で最も有名なのは,Support Vector Machinesである.このメソッドは,インプットデータをより高い次元にマッピングし,いくつかの分類と回帰問題をより簡単にモデル化する.
サポートベクトルマシン (SVM) 半径ベース関数 (RBF) 線形差別分析 (LDA)
クラスタリング (clustering) は,問題や方法について自らを記述する.クラスタリング方法は,通常,モデリング方法によって分類される.すべてのクラスタリング方法は,データを統一されたデータ構造で組織化し,各グループに最も共通点があるようにする.
K-平均値 期待最大化 (EM)
アソシエーションルールの学習 (Association rule learning) は,大量の多次元空間データとの間の関連性を発見するデータ間の規則を抽出する方法であり,これらの重要な関連性が組織によって利用される.
前もってアルゴリズム エクラットアルゴリズム
人工神経ネットワークは,生物神経ネットワークの構造と機能からインスピレーションを受けています. これはパターンのマッチングの一種であり,回帰と分類の問題に使用されることが多いが,数百のアルゴリズムと変数構成が存在します.
パーセプトロン バック 伝播 ホップフィールドネットワーク 自動組織地図 (SOM) 学習ベクトル量子化 (LVQ)
ディープラーニング (Deep Learning) 方法は,人工神経ネットワークの近代的な更新である.従来の神経ネットワークと比較して,より複雑なネットワーク構造があり,多くの方法が半監視学習に関心を持つ.この学習の問題には大量のデータがありますが,そのうちのほとんどがタグ付けされたデータです.
制限ボルトツマン機械 (RBM) 深い信念ネットワーク (DBN) 巻き込みネットワーク スタックされた自動エンコーダー
Dimensionality Reduction (次元縮小) は,クラッグ方法のように,データ内の統一構造を追求し利用するが,より少ない情報でデータをインブレーションや記述する.これはデータを視覚化したり,データを簡素化したりするのに役立ちます.
主成分分析 (PCA) 部分最小平方回帰 (PLS) サモンマッピング 多次元スケーリング (MDS) 投影 の 追求
Ensemble methods (組み合わせ方法) は,多くの小さなモデルで構成され,独立して訓練され,独立した結論に達し,最終的に全体的な予測を形成する.多くの研究が,どのようなモデルが使用され,どのように組み合わせられているかに焦点を当てています.これは非常に強力で一般的な技術です.
刺激する ブートストラップされたアグリゲーション (バッグ) アダブースト 積み重ねた一般化 (混合) グラディアント・ブーシング・マシン (GBM) ランダムな森
これは組み合わせの方法による適合の例です (ウィキから),各消防法が灰色で示され,最終的に合成された最終予測は赤色です.
この機械学習アルゴリズムのツアーでは,どんなアルゴリズムや関連アルゴリズムのツールがあるかを概要します.
以下は他のリソースです. 余計に考えないで,アルゴリズムがいくつあるかを知ることは,あなたにとって有益なものですが,いくつかのアルゴリズムについて深い知識を持つことは,役に立つでしょう.
ベル・コラム/大飛翔のパイトン開発者