Что такое машинное обучение?
Машины учатся, анализируя большие объемы данных. Например, вместо того, чтобы программировать распознавание кошек или лиц, они могут обучаться использованию изображений для интуиции и распознавания конкретных целей.
Отношения машинного обучения и искусственного интеллекта
Машинное обучение - это дисциплина исследований и алгоритмов, которая сосредоточена на поиске моделей в данных и использовании этих моделей для прогнозирования. Машинное обучение является частью области искусственного интеллекта и пересекается с знаниями, обнаружением и извлечением данных.
Как работает машинное обучение
1 Выбор данных: разделить ваши данные на три группы: тренировочные данные, данные проверки и данные тестирования. 2 Модельные данные: использование тренировочных данных для построения моделей с использованием соответствующих характеристик 3 Проверка моделей: используйте ваши данные для проверки доступа к модели 4 Тест-модель: используйте свои тестовые данные, чтобы проверить производительность проверенной модели 5 Использование моделей: использование полностью обученных моделей для прогнозирования новых данных 6 Модель настройки: использование большего количества данных, различных характеристик или измененных параметров для улучшения производительности алгоритма
Где находится машинное обучение?
1 Традиционное программирование: программный инженер пишет программу для решения проблемы. Сначала есть данные → для решения проблемы, программный инженер пишет процесс, чтобы сказать машине, что она должна делать→ компьютер выполняет этот процесс и выводит результаты 2 Статистика: Аналитики сравнивают отношения между переменными 3 Машинное обучение: ученый данных использует обученный набор данных, чтобы научить компьютер, что он должен делать, а затем система выполняет эту задачу. 4 Умные приложения: результаты, полученные с помощью искусственного интеллекта, как показано на рисунке, являются примером применения в точном сельском хозяйстве, которое основано на данных, собранных с помощью беспилотных летательных аппаратов.
Практические применения машинного обучения
Есть много сценариев применения машинного обучения, и вот некоторые примеры, как вы можете использовать это.
Быстрое трехмерное картографирование и моделирование: для строительства железнодорожного моста, ученые-данные и эксперты в области PwC применяют машинное обучение к данным, собранным дронами. Эта комбинация обеспечивает точное наблюдение и быстрый отзыв о успехе работы.
Усиленный анализ для снижения риска: для обнаружения внутренних сделок, PwC объединяет машинное обучение и другие аналитические технологии, чтобы разработать более полный профиль пользователя и получить более глубокое понимание сложных подозрительных действий.
Прогнозировать лучшие результаты: PwC использует машинное обучение и другие аналитические методы для оценки потенциала различных лошадей на стадионе Melbourne Cup.
На протяжении многих десятилетий различные "племена" исследователей искусственного интеллекта боролись друг с другом за доминирование. Может быть, сейчас самое время объединить эти племена? Возможно, им придется сделать это, потому что сотрудничество и слияние алгоритмов - это единственный способ достичь истинного универсального искусственного интеллекта (AGI).
Пять основных стилей
1 Символизм: использование символов, правил и логики для обозначения знаний и логического рассуждения. 2 Бейесовский: получение вероятности произошедшего для проведения вероятностного рассуждения, предпочтительными алгоритмами являются: простой Бейес или Марковский 3 Соединение: использование матриц вероятности и взвешенных нейронов для динамического идентификации и индустрирования моделей, предпочтительным алгоритмом является: 4 Эволюционизм: генерирование изменений, а затем извлечение наилучших из них для конкретных целей, предпочтительный алгоритм: генетический алгоритм 5Analogizer: оптимизировать функции в соответствии с ограничительными условиями (добраться как можно выше, но при этом не выходить с дороги), любимый алгоритм: поддержка вектора
Эволюционные этапы
1980-е годы
Преобладающий стиль: символизм Архитектура: сервер или массив Основная теория: инженерия знаний Основная логика принятия решений: система поддержки принятия решений, ограниченная полезность
1990-е - 2000-е годы
Главный жанр: Бейес Архитектура: небольшие серверные кластеры Доминирующая теория: вероятность Категория: Расширяемые сравнения или контрасты, достаточно хорошие для многих задач
Ранние и средние 2010-е годы
Доминирующий стиль: союзник Архитектура: серверные фермы Доминирующая теория: Неврология и вероятность Признание: более точные изображения и звуки, перевод, эмоциональный анализ и многое другое
По мнению экспертов, эти жанры должны сотрудничать и объединять свои методы.
Конец 2010-х годов
Преобладающий стиль: союзник + символист Архитектура: много облаков Доминирующие теории: нейронные сети памяти, масс-интеграция, познавательное рассуждение Простые ответы на вопросы: ограниченные, обмен знаниями в конкретных областях
2020-е годы +
Основные стили: союзник + символизм + Бейес +... Архитектура: облачные и туманные вычисления Доминирующая теория: есть сети для восприятия, есть правила для рассуждения и работы Простое восприятие, рассуждение и действие: ограниченная автоматизация или взаимодействие человека и машины
2040-е годы +
Главный жанр: алгоритмическое слияние Архитектура: вездесущие серверы Доминирующая теория: метаобучение с оптимальной комбинацией Восприятие и реакция: действия или ответы, основанные на знаниях или опыте, полученном в различных способах обучения
Какой алгоритм машинного обучения вам следует использовать? Это во многом зависит от характера и количества доступных данных, а также ваших целей обучения в каждом конкретном случае использования. Не используйте самые сложные алгоритмы, если их результаты не стоят дорогостоящих расходов и ресурсов.
Решающее дерево (Decision Tree): в процессе поэтапного ответа типичный анализ решающего дерева использует слоистые переменные или решения узлов, которые, например, могут классифицировать данного пользователя как кредитоспособный или ненадежный.
Преимущества: умение оценивать различные характеристики, качества и свойства людей, мест и вещей. Примеры сценария: кредитная оценка на основе правил, прогнозирование результатов гонок
Поддержка векторальной машины (Support Vector Machine): основанная на гиперплоскости (hyperplane), поддержка векторальной машины для классификации данных.
Преимущества: поддержка вектора, который хорошо справляется с бинарными классификационными операциями между переменной X и другими переменными, независимо от того, линейны их отношения Примеры сценария: классификация новостей, распознавание почерка.
Регрессия: регрессия может рисовать отношения состояния между причиной и одной или несколькими причиной. В этом случае различают спам и неспам.
Преимущества: регрессия может быть использована для идентификации непрерывных отношений между переменными, даже если это не очень очевидно Примеры сценария: анализ дорожного движения, фильтрация почты
Наивная классификация Байеса: Наивная классификация Байеса используется для вычисления вероятности разветвления возможных условий. Каждая независимая характеристика является "наивной" или независимой от условий, поэтому они не влияют на другие объекты. Например, какова вероятность того, что в коробке, состоящей из 5 желтых и красных шариков, последовательно попадают два желтых шарика?
Преимущества: для относящихся объектов с значительными характеристиками в небольших наборах данных, простой метод Байеса позволяет быстро классифицировать их Примеры сценариев: эмоциональный анализ, классификация потребителей
Скрытая Марковская модель (Hidden Markov model): явный Марковский процесс, при котором одно состояние часто сопровождается другим; светофоры - пример. Напротив, скрытая Марковская модель рассчитывает происхождение скрытого состояния, анализируя видимые данные. Затем, с помощью анализа скрытого состояния, скрытая Марковская модель может оценить возможные модели будущих наблюдений. В этом случае вероятность высокого или низкого давления (которое является скрытым состоянием) может быть использована для прогнозирования вероятности солнечных, дождливых и облачных дней.
Преимущества: позволяет изменчивость данных, используется для распознавания и прогнозирования операций Сценарийные примеры: анализ выражений лица, прогноз погоды
Random forest: алгоритмы Random Forest улучшают точность деревьев решения с использованием нескольких деревьев с подмножеством данных, отобранных на случай. В этом случае на уровне генной экспрессии рассматривается большое количество генов, связанных с рецидивом рака молочной железы, и рассчитывается риск рецидива.
Преимущества: методы рандомизации оказываются полезными для больших наборов данных и пунктов с большим количеством иногда несвязанных характеристик Примеры сценариев: анализ потерь пользователей, оценка рисков
Рекурентная нейронная сеть: в произвольной нейронной сети каждый нейрон преобразует много входящих данных в один или несколько скрытых слоев. Рекурентная нейронная сеть (RNN) передает значения дальше по уровню, что позволяет обучаться по уровню. Другими словами, RNN имеет некоторую форму памяти, которая позволяет предыдущему выходу влиять на последующие входы.
Преимущества: Круговая нейронная сеть обладает предсказательными способностями при наличии большого количества организованной информации Примеры сцены: классификация изображений и добавление субтитров, анализ политических настроений
Длинная кратковременная память (LSTM) с рекурентными сетями (gated recurrent unit nerual network): ранние формы РНН имеют убытки. Хотя эти ранние циркулятивные сети позволяют хранить только небольшое количество ранней информации, новые ЛСТМ с рекурентными сетями (GRU) имеют длительную и кратковременную память. Другими словами, эти новые РНН имеют лучшую способность контролировать память, позволяющую сохранять более раннюю обработку или перемещать эти значения, когда требуется много последовательных шагов, что избегает "градиального упадка" или окончательной деградации передаваемых уровней.
Преимущества: Длинная и кратковременная память и вратоуправляемые циркулятивные нейронные сети имеют те же преимущества, что и другие циркулятивные нейронные сети, но чаще используются, потому что они обладают лучшей памятью Примеры сценария: обработка естественного языка, перевод
Конвульсионная нейронная сеть (convolutional neural network): Конвульсия - это слияние весов от последующих слоев, которые могут использоваться для маркировки выходной слоя.
Преимущества: Квалифицированные нейронные сети очень полезны при наличии очень больших наборов данных, большого количества характеристик и сложных задач классификации. Примеры: распознавание изображений, преобразование текста, обнаружение лекарств.
http://usblogs.pwc.com/emerging-technology/a-look-at-machine-learning-infographic/
http://usblogs.pwc.com/emerging-technology/machine-learning-methods-infographic/
http://usblogs.pwc.com/emerging-technology/machine-learning-evolution-infographic/
Переведено с сайта Big Data Plateau