Das Problem, das wir mit Machine Learning lösen müssen.http://machinelearningmastery.com/practical-machine-learning-problems/)之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。Es gibt viele Algorithmen im Bereich des maschinellen Lernens, und dann gibt es viele Erweiterungen für jeden Algorithmus, so dass es schwierig ist, zu bestimmen, welche Algorithmen für ein bestimmtes Problem richtig sind.
Algorithmen werden in verschiedene Kategorien eingeteilt, je nachdem, wie sie Erfahrungen, Umgebungen oder irgendwelche Daten, die wir als Input bezeichnen, verarbeiten.
Hier werden nur einige der wichtigsten Lernstile oder Lernmodelle diskutiert, und es gibt einige grundlegende Beispiele. Diese Klassifizierung oder Organisation ist eine gute Methode, da sie Sie dazu zwingt, über die Rolle der eingegebenen Daten und den Modellvorbereitungsprozess nachzudenken und dann einen Algorithmus zu wählen, der am besten zu Ihrer Frage passt, um die besten Ergebnisse zu erzielen.
Überwachungslernen: Die eingegebenen Daten werden als Trainingsdaten bezeichnet und haben bekannte Ergebnisse oder werden markiert. Zum Beispiel, ob eine E-Mail Spam ist oder ob der Aktienpreis über einen bestimmten Zeitraum liegt. Das Modell macht eine Vorhersage, wenn sie falsch ist, wird sie korrigiert. Unüberwachtes Lernen: Die eingegebenen Daten sind nicht markiert und haben keine festgelegten Ergebnisse. Das Modell lässt sich auf die Struktur und die Zahlenwerte der Daten reduzieren. Problembeispiele umfassen Assoziationsregellernen und Clustering-Probleme. Algorithmenbeispiele umfassen Apriori-Algorithmen und K-Mittelwert-Algorithmen. Semi-überwachtes Lernen: Die Eingabedaten sind eine Mischung aus markierten und unmarkierten Daten. Es gibt einige Vorhersageprobleme, aber die Modelle müssen auch die Struktur und Zusammensetzung der Daten lernen. Problembeispiele umfassen Klassifizierungs- und Regressionsprobleme. Verstärktes Lernen: Eingabedaten stimulieren das Modell und lassen es reagieren. Feedback kommt nicht nur aus dem Lernprozess, der überwacht wird, sondern auch aus Belohnungen oder Bestrafungen in der Umgebung. Problembeispiele sind Roboterkontrolle, Algorithmenbeispiele sind Q-Learning und Temporal difference learning.
Bei der Integration von Daten simulieren die meisten Geschäftsentscheidungen mit überwachten und unsupervisierten Lernmethoden. Ein nächstes Thema ist halbüberwachtes Lernen, wie beispielsweise Bildklassifizierungsprobleme, bei denen es eine große Datenbank gibt, aber nur ein kleiner Teil der Bilder markiert ist.
Algorithmen werden grundsätzlich nach Funktion oder Form klassifiziert. Zum Beispiel baumbasierte Algorithmen, neurale Algorithmen. Dies ist eine nützliche Klassifizierungsmethode, aber nicht perfekt.
In diesem Abschnitt habe ich die Algorithmen aufgelistet, die ich für die intuitivste Methode halte. Ich habe nicht alle Algorithmen oder Klassifizierungsmethoden, aber ich denke, dass sie hilfreich sind, um den Leser eine Übersicht zu geben.
Regression (Regressionsanalyse) beschäftigt sich mit den Beziehungen zwischen den Variablen. Es wendet statistische Methoden an. Beispiele für mehrere Algorithmen sind:
Gewöhnliche Kleinste Quadrate Logistische Regression Schrittweise Regression Multivariate Adaptive Regression Splines (MARS) Lokal geschätzte Streuungsgraphie-Gleichung (LOESS)
Instanzbasiertes Lernen simuliert ein Entscheidungsproblem, bei dem die verwendeten Instanzen oder Beispiele für das Modell von großer Bedeutung sind. Dieses Verfahren erstellt eine Datenbank mit vorhandenen Daten und fügt neue Daten hinzu, um dann eine Vorhersage durch eine ähnlichkeitsmeßende Methode durchzuführen, um eine optimale Übereinstimmung in der Datenbank zu finden. Aus diesem Grund wird es auch als Win-Win-Methode und Speicherbasierte Methode bezeichnet.
k-Nächster Nachbar (kNN) Lern-Vektor-Quantifizierung (LVQ) Selbstorganisierende Karte (SOM)
Es ist eine Erweiterung der anderen Methoden (in der Regel der Regressionsmethode), die für das einfachere Modell günstiger ist und besser zu summieren ist.
Ridge-Regression Mindeste absolute Schrumpfung und Auswahloperator (LASSO) Elastische Netze
Decision tree Methoden erstellen ein Modell für Entscheidungen, die auf den tatsächlichen Werten in den Daten basieren.
Klassifizierungs- und Regressionsbaum (CART) Iterativer Dichotomisator 3 (ID3) C4,5 Automatische Interaktionserkennung in Chi-Quadrat (CHAID) Entscheidungsstumpf Zufälliger Wald Multivariate Adaptive Regression Splines (MARS) Maschinen zur Steigerung von Schrägen (GBM)
Die Bayesische Methode (Bayesische Methode) ist die Anwendung von Bayesischen Theoremen bei der Lösung von Klassifizierungs- und Regressionsproblemen.
Naiv Bayes Durchschnittliche Einabhängigkeitsschätzer (AODE) Bayesian Belief Network (BBN)
Der Kernel-Methode ist bekannt als Support Vector Machines, die die Eingabedaten in höhere Dimensionen abbilden und einige Klassifizierungs- und Regressionsprobleme einfacher modellieren.
Unterstützende Vektormaschinen (SVM) Radialbasisfunktion (RBF) Lineare diskriminierende Analyse (LDA)
Clustering (engl. clustering) beschreibt in sich Probleme und Methoden. Clustering Methoden werden häufig durch Modellierungsmethoden klassifiziert. Alle Clustering-Methoden organisieren die Daten mit einer einheitlichen Datenstruktur, so dass jede Gruppe am meisten gemeinsam hat.
K-Mittel Erwartungsmaximierung (EM)
Association rule learning ist eine Methode, um Regeln aus Daten zu extrahieren, die Verbindungen zwischen riesigen Massen von multidimensionalen Daten erkennen, die von Organisationen verwendet werden können.
Vorläufiger Algorithmus Eclat-Algorithmus
Artificial Neural Networks sind von der Struktur und Funktionalität biologischer Neural Netze inspiriert. Sie gehören zur Kategorie der Muster-Matching-Probleme, die häufig für Regressions- und Klassifizierungsprobleme verwendet werden, aber sie bestehen aus hunderten Algorithmen und Varianten. Einige davon sind klassische, beliebte Algorithmen.
Perceptron Rückverbreitung Hopfield Netzwerk Selbstorganisierende Karte (SOM) Lern-Vektor-Quantifizierung (LVQ)
Die Deep Learning-Methode ist eine moderne Aktualisierung eines künstlichen Neuronalnetzes. Im Vergleich zu herkömmlichen Neuronalnetzen hat sie eine viel komplexere Netzwerkstruktur. Viele Methoden konzentrieren sich auf das semi-überwachte Lernen.
Beschränkte Boltzmann-Maschine (RBM) Deep Belief Networks (DBN) Konvolutionelles Netzwerk Auto-Encoder in Stapel
Die Dimensionalitätsreduktion, wie die Clustering-Methode, strebt eine einheitliche Struktur in den Daten an und nutzt sie, aber sie lässt die Daten mit weniger Informationen abstrahieren und beschreiben. Dies ist nützlich, um Daten zu visualisieren oder zu vereinfachen.
Hauptkomponentenanalyse (PCA) Teilregression der kleinsten Quadrate (PLS) Sammon-Mapping Mehrdimensionale Skalierung (MDS) Projektionsverfolgung
Ensemble-Methoden bestehen aus vielen kleinen Modellen, die unabhängig voneinander trainiert werden, unabhängige Schlussfolgerungen ziehen und schließlich eine Gesamtvorhersage bilden. Viele Studien konzentrieren sich darauf, welche Modelle verwendet werden und wie diese Modelle zusammengesetzt werden.
Erhöhung Bootstrapped-Aggregation (Einpackung) AdaBoost Verallgemeinerung in Stapeln (Vermischung) Maschinen zur Steigerung von Schrägen (GBM) Zufälliger Wald
Dies ist ein Beispiel für die Anpassung an die Kombinationsmethode (von Wiki), wobei jede Feuerwehrmethode in grau dargestellt wird und die zuletzt zusammengesetzte Endprognose in rot ist.
Diese Reise durch maschinelle Lernalgorithmen soll Ihnen einen Überblick geben, welche Algorithmen es gibt und welche Tools sie verwenden.
Hier sind einige weitere Ressourcen, die Sie nicht zu sehr brauchen, um zu wissen, wie viele Algorithmen für Sie besser sind, aber es kann auch nützlich sein, ein tieferes Verständnis für einige Algorithmen zu haben.
Übertragen von Bell Column/Fly Python Entwickler