В машинном обучении целью является либо предсказание, либо кластеризация. Основное внимание в данной статье сосредоточено на прогнозировании. Прогнозирование - это процесс предсказания значения выходной переменной из набора входных переменных. Например, получив набор характеристик, относящихся к дому, мы можем предсказать его цену продажи. С учетом этого, давайте посмотрим на наиболее популярные и часто используемые алгоритмы в машинном обучении. Мы разделили их на три категории: линейные модели, модели на основе деревьев и нейронные сети.
Линейная регрессия, или, точнее, рефракционная регрессия с минимальным двукратным возвратом, является наиболее стандартной формой линейной модели. Для регрессионных проблем линейная регрессия является наиболее простой линейной моделью. Недостатком является то, что модель легко перенастраивается, то есть модель полностью адаптируется к обученным данным, в ущерб способности распространяться на новые данные. Таким образом, линейная регрессия в машинном обучении (и логическая регрессия, о которой мы поговорим далее) обычно является рефракционной, что означает, что модель имеет определенное наказание, чтобы предотвратить перенастраивание.
Еще один недостаток линейных моделей заключается в том, что, поскольку они очень просты, они не могут предсказывать более сложное поведение, когда входные переменные не являются независимыми.
Логическая регрессия - это адаптация линейной регрессии к классификационным проблемам. Логическая регрессия имеет те же недостатки, что и линейная регрессия. Логические функции очень хороши для классификационных проблем, поскольку они вводят эффект порога.
Дерево решения представляет собой изображение каждого возможного результата решения с использованием разветвления. Например, вы решили заказать салат, и ваше первое решение может быть разновидностью сырых овощей, затем соусов, а затем разновидностью салатных овощей. Мы можем представить все возможные результаты в дереве решения.
Для обучения дерева мы должны использовать тренировочный набор данных и выяснить, какое свойство является наиболее полезным для цели. Например, в случае использования для обнаружения мошенничества мы можем обнаружить, что наиболее влияющее на прогнозирование риска мошенничества свойство - страна. После разделения на первое свойство мы получаем два подмножества, которые наиболее точно предсказуются, если мы знаем только первое свойство. Затем мы выясняем, какое второе лучшее свойство можно разделить на эти два подмножества, используем разделение снова, и так далее, пока не будет достаточное количество свойств, чтобы удовлетворить потребности цели.
Случайный лес - это средний из многих решений деревьев, каждое из которых тренируется с помощью случайных образцов данных. Каждое дерево в случайном лесу слабее, чем целостное решение дерева, но если собрать все деревья вместе, мы можем получить лучшую общую производительность из-за преимуществ разнообразия.
Random Forests - очень популярный алгоритм в современном машинном обучении. Random Forests легко обучаются и работают довольно хорошо. Его недостаток заключается в том, что Random Forests могут быть медленными по сравнению с другими алгоритмами, поэтому они могут не выбирать Random Forests, когда требуется быстрое предсказание.
Градиент-бустинг, как и случайный лес, состоит из слаборазвитых деревьев решения. Основное отличие от случайного леса заключается в том, что деревья тренируются один за другим. Каждое последующее дерево обучается в основном тому, что дерево впереди распознает неправильные данные.
Тренировка повышения градиента также быстрая и хорошо работает. Однако небольшие изменения в тренировочном наборе данных могут привести к фундаментальным изменениям в модели, поэтому результаты, которые она дает, могут быть не самыми практичными.
Переведено с сайта Big Data Plateau