No aprendizado de máquina, o objetivo é a previsão ou o agrupamento. O foco deste artigo é a previsão. A previsão é o processo de estimar o valor das variáveis de saída a partir de um conjunto de variáveis de entrada. Por exemplo, se obtermos um conjunto de características de uma casa, podemos prever seu preço de venda. Os problemas de previsão podem ser divididos em duas grandes categorias: Com isso em mente, vamos ver agora os algoritmos mais comuns e destacados em aprendizagem de máquina. Dividimos esses algoritmos em três categorias: modelos lineares, modelos baseados em árvores e redes neurais.
A regressão linear, ou mais precisamente, a regressão linear do quadrado mínimo, é a forma mais padrão de um modelo linear. Para problemas de regressão, a regressão linear é o modelo linear mais simples. Sua desvantagem é que o modelo é facilmente super-adaptável, ou seja, o modelo se adapta perfeitamente aos dados treinados, à custa da capacidade de se difundir para novos dados. Portanto, a regressão linear no aprendizado de máquina (e a regressão lógica que falaremos em seguida) geralmente é super-adaptável, o que significa que o modelo tem uma certa punição para evitar o super-ajuste.
Outra desvantagem dos modelos lineares é que, como são muito simples, não são fáceis de prever comportamentos mais complexos quando as variáveis de entrada não são independentes.
A regressão lógica é a adaptação da regressão linear ao problema de classificação. A desvantagem da regressão lógica é a mesma que a regressão linear. A função lógica é muito boa para o problema de classificação, pois introduz efeitos de limite.
A árvore de decisão é uma ilustração de cada resultado possível da decisão usando o método de ramificação. Por exemplo, você decide encomendar uma salada e sua primeira decisão pode ser a variedade de lentilhas cruas, depois os ingredientes e depois a variedade de salada. Podemos representar todos os resultados possíveis em uma árvore de decisão.
Para treinar árvores de decisão, precisamos usar o conjunto de dados de treinamento e descobrir qual atributo é mais útil para o objetivo. Por exemplo, nos casos de detecção de fraudes, podemos descobrir que o atributo que mais afeta a previsão do risco de fraudes é o país. Depois de ramificar a primeira propriedade, obtemos dois subconjuntos, que são mais acertados se soubermos apenas a primeira propriedade. Em seguida, descobrimos o segundo atributo que é o melhor para ramificar esses dois subconjuntos, dividimos novamente e assim por diante, até que um número suficiente de atributos atenda às necessidades do objetivo.
A floresta aleatória é a média de muitas árvores de decisão, em que cada árvore de decisão é treinada com uma amostra aleatória de dados. Cada árvore na floresta aleatória é mais fraca do que uma árvore de decisão completa, mas colocando todas as árvores juntas, podemos obter um melhor desempenho geral devido às vantagens da diversidade.
A floresta aleatória é um algoritmo muito popular na aprendizagem de máquinas hoje. A floresta aleatória é fácil de treinar e tem um desempenho bastante bom. Sua desvantagem é que, em relação a outros algoritmos, a floresta aleatória pode ser lenta em produzir previsões, por isso, quando uma previsão rápida é necessária, a floresta aleatória pode não ser escolhida.
A maior diferença entre o gradient boosting e o random forest é que, no gradient boosting, as árvores são treinadas uma a uma. Cada árvore posterior é treinada principalmente pela árvore da frente para identificar dados errados. Isso torna o gradient boosting mais focado em situações mais fáceis de prever e mais focado em situações menos difíceis.
O treinamento de elevação de gradiente também é rápido e tem um bom desempenho. No entanto, pequenas mudanças no conjunto de dados de treinamento podem causar mudanças fundamentais no modelo e, portanto, o resultado que ele produz pode não ser o mais viável.
Traduzido do Big Data Plateau