En el caso de los problemas de aprendizaje automático que necesitamos resolver.http://machinelearningmastery.com/practical-machine-learning-problems/)之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。Hay muchos algoritmos en el campo del aprendizaje automático, y cada algoritmo tiene muchas extensiones, por lo que es difícil determinar cuál es el algoritmo correcto para un problema en particular. En este artículo, quiero darles dos métodos para resumir los algoritmos que se encuentran en la realidad.
Los algoritmos se clasifican en diferentes categorías según la forma en que procesan la experiencia, el entorno o cualquier dato que llamemos entrada. Los libros de texto de aprendizaje automático y de inteligencia artificial generalmente consideran primero la forma en que los algoritmos pueden adaptarse.
Aquí sólo se discuten algunos de los principales estilos de aprendizaje o modelos de aprendizaje, y hay algunos ejemplos básicos. Este método de clasificación u organización es bueno, ya que te obliga a pensar en el papel de los datos de entrada y el proceso de preparación del modelo, y luego elegir un algoritmo que se adapte mejor a tu problema para obtener los mejores resultados.
Supervisión del aprendizaje: los datos entrados se llaman datos de entrenamiento y tienen resultados conocidos o marcados. Por ejemplo, si un correo es spam, o el precio de las acciones durante un período de tiempo. El modelo hace predicciones y se corrige si está mal. Aprendizaje no supervisado: los datos de entrada no están marcados y no se determinan los resultados. Los modelos se deducen de la estructura y los valores numéricos de los datos. Los ejemplos de problemas incluyen el aprendizaje de reglas de asociación y los problemas de agrupación, y los ejemplos de algoritmos incluyen el algoritmo de apriori y el algoritmo de media K. Aprendizaje semi-supervisado: los datos de entrada son una mezcla de datos marcados y no marcados, con algunos problemas de predicción, pero los modelos también deben aprender la estructura y la composición de los datos. Los ejemplos de problemas incluyen problemas de clasificación y regresión, los ejemplos de algoritmos son esencialmente una extensión de algoritmos de aprendizaje sin supervisión. Aprendizaje reforzado: los datos de entrada pueden estimular el modelo y hacer que reaccione. La retroalimentación se obtiene no solo del proceso de aprendizaje supervisado, sino también de la recompensa o el castigo en el entorno. Los ejemplos problemáticos son el control robótico, los ejemplos algorítmicos incluyen Q-learning y el aprendizaje por diferencia temporal.
Cuando se integran las decisiones comerciales de simulación de datos, la mayoría utiliza métodos de aprendizaje supervisado y de aprendizaje no supervisado. Un tema de actualidad es el aprendizaje semi-supervisado, como los problemas de clasificación de imágenes, en los que hay una gran base de datos, pero solo una pequeña parte de las imágenes son marcadas. El aprendizaje aumentado se usa principalmente en el desarrollo de controles de robots y otros sistemas de control.
Los algoritmos se clasifican básicamente por función o forma. Por ejemplo, los algoritmos basados en árboles, los algoritmos de redes neuronales. Esta es una forma de clasificar muy útil, pero no perfecta.
En esta sección, he enumerado los algoritmos que considero la forma más intuitiva de clasificar. No tengo una lista completa de algoritmos o métodos de clasificación, pero creo que es muy útil para dar a los lectores una idea general. Si hay algo que no he enumerado, bienvenido a un comentario y compartir. ¡Ahora empezamos!
El análisis de regresión se ocupa de las relaciones entre las variables. Aplica métodos estadísticos, y algunos ejemplos de algoritmos incluyen:
Cuadrados mínimos ordinarios Regresión logística Regresión gradual Splines de regresión adaptativa multivariada (MARS) El valor de las emisiones de gases de efecto invernadero se calculará en función de las emisiones de gases de efecto invernadero.
El aprendizaje basado en instancias simula un problema de decisión en el que el ejemplo o ejemplos utilizados son muy importantes para el modelo. Este método consiste en crear una base de datos sobre los datos existentes y agregar nuevos datos, y luego utilizar un método de medición de similitud para encontrar una mejor coincidencia y hacer una predicción en la base de datos. Por esta razón, este método también se conoce como el método de los ganadores y el método basado en la memoria.
k-Vecinos más cercanos (kNN) Aprendizaje de cuantización vectorial (LVQ) Mapa de autoorganización (SOM)
Es una extensión de otros métodos (generalmente métodos de regresión), que es más favorable a los modelos más simples y mejor deducidos.
Regresión de la cresta Operador de reducción y selección absoluta mínima (LASSO) Red elástica
Los métodos de árbol de decisión construyen un modelo de decisión basado en el valor real de los datos. Los árboles de decisión se usan para resolver problemas de inclusión y regresión.
Árbol de clasificación y regresión (CART) Dichotomisador iterativo 3 (ID3) C4.5 Detección automática de interacción por cuadrado de Chi (CHAID) Estómago de la decisión Bosque aleatorio Splines de regresión adaptativa multivariada (MARS) Máquinas para aumentar el gradiente (GBM)
El método bayesiano es una aplicación del teorema de Bayes en la solución de problemas de clasificación y regresión.
Los Bayes ingenuos Estimadores promediados de una sola dependencia (AODE) Red de creencias bayesianas (BBN)
El método más conocido de los Kernel Method es el de las Support Vector Machines, que permiten mapear los datos de entrada en dimensiones más altas y modelación más fácil de algunos problemas de clasificación y regresión.
Máquinas vectoriales de apoyo (SVM) Función de base radial (RBF) Análisis lineal discriminado (LDA)
Clustering, en sí mismo, describe el problema y el método. Los métodos de agrupación generalmente se clasifican por el modo de modelado. Todos los métodos de agrupación organizan los datos con una estructura de datos uniforme para que cada grupo tenga lo más en común.
K-Medios Maximización de las expectativas (EM)
El aprendizaje de reglas de asociación es un método de extracción de reglas de datos que permiten descubrir las conexiones entre grandes cantidades de datos multidimensionales, y que pueden ser utilizadas por las organizaciones.
Algoritmo a priori Algoritmo de eclat
Las redes neurales artificiales se inspiraron en la estructura y la función de las redes neurales biológicas. Pertenece a la categoría de la coincidencia de patrones, y se utiliza a menudo para problemas de regresión y clasificación, pero existen cientos de algoritmos y composiciones de variaciones. Algunas de ellas son algoritmos clásicos populares (hablo de aprendizaje profundo por separado):
Perceptrón Propagación inversa Red Hopfield Mapa de autoorganización (SOM) Aprendizaje de cuantización vectorial (LVQ)
El método de aprendizaje profundo es una actualización moderna de las redes neurales artificiales. En comparación con las redes neurales tradicionales, tiene una estructura de redes más compleja, y muchos de los métodos se centran en el aprendizaje semisupervisado.
Máquina de Boltzmann restringida (RBM) Red de creencias profundas (DBN) Red de convolución Auto-codificadores apilados
La reducción de dimensionalidad, al igual que el método de agrupación, busca y utiliza una estructura uniforme en los datos, pero hace que los datos se abstraigan y describan con menos información. Esto es útil para visualizar o simplificar datos.
Análisis de los componentes principales (PCA) Regresión parcial de mínimos cuadrados (PLS) Mapeo de las montañas Escalado multidimensional (MDS) La búsqueda de la proyección
Los métodos de ensamblaje se componen de muchos modelos pequeños, que son entrenados de forma independiente, llegan a conclusiones independientes y finalmente forman una predicción general. Mucho de la investigación se centra en qué modelos se utilizan y cómo se combinan estos modelos.
El impulso Agregación de arranque (empaquetado) AdaBoost es el mejor Generalización apilada (mezcla) Máquinas para aumentar el gradiente (GBM) Bosque aleatorio
Este es un ejemplo de ajuste con métodos combinados (de wiki), donde cada método de incendios está representado en gris y el pronóstico final que se sintetizó finalmente está en rojo.
Este recorrido por algoritmos de aprendizaje automático tiene como objetivo darte una idea general de qué algoritmos existen y algunas de las herramientas de algoritmos de asociación.
A continuación se muestran algunos otros recursos, pero no se preocupe, saber más algoritmos es mejor para usted, pero también puede ser útil tener un conocimiento profundo de algunos de ellos.
Traducido por el columnista/desarrollador de Python