В статье объясняется регрессионный анализ и его преимущества, сосредоточивается на обобщении семи наиболее часто используемых регрессионных методов и их ключевых элементов: линейный регресс, логический регресс, многопунктный регресс, постепенный регресс, редукторный регресс, регресс запроса, регресс ElasticNet, и, наконец, представляет ключевые факторы для выбора правильной модели регрессии. ** ** Ключевой регрессионный анализ с помощью компиляторов является важным инструментом для моделирования и анализа данных. В статье объясняется, что такое регрессионный анализ и его преимущества. В этой статье подробно обобщены семь наиболее распространенных методов регрессии: линейный регресс, логический регресс, многоточечный регресс, постепенный регресс, регрессия с помощью гипса, регрессия с помощью запросов, регрессия ElasticNet и их ключевые элементы.
Регрессивный анализ - это технология прогнозирования, которая изучает отношения между причиной (цель) и причиной (прогнозчик). Эта технология обычно используется для прогнозирования, моделирования временных последовательностей и причинно-следственных связей между обнаруженными переменными. Например, лучший метод исследования - регрессивность.
Регрессионный анализ является важным инструментом для моделирования и анализа данных. Здесь мы используем кривые/линии, чтобы сопоставить эти точки данных, и в этом случае расстояние от кривой или линии до точки данных будет минимальным. Я объясню это подробно в следующих разделах.
Как уже упоминалось выше, регрессивный анализ оценивает отношения между двумя или более переменными.
Например, в текущих экономических условиях вы хотите оценить рост продаж компании. Теперь у вас есть последние данные компании, которые показывают, что рост продаж примерно в 2,5 раза превышает рост экономики.
Полезные стороны регрессионного анализа:
Он показывает значительную связь между самоизменными и коэффициентными;
Это указывает на силу влияния нескольких самоизменных на одну из переменных.
Регрессивный анализ также позволяет нам сравнивать взаимодействие между измеряемыми переменными разных масштабов, например, между изменениями цен и количеством рекламных акций. Это помогает рыночным исследователям, аналитикам данных и данным ученым исключить и оценить наилучший набор переменных для построения прогнозных моделей.
Существует множество различных методов регрессии, используемых для прогнозирования. Эти методы имеют три основных измерения (число индивидов, типы и форма регрессии). Мы рассмотрим их в деталях в разделе ниже.
Для творческих людей, если вы чувствуете необходимость использовать комбинацию из этих параметров, вы можете даже создать модель регрессии, которая не используется. Но прежде чем вы начнете, ознакомьтесь с наиболее распространенными методами регрессии:
Это одна из наиболее известных модельных технологий. Линейная регрессия часто является одной из предпочтительных для изучения моделей прогнозирования. В этой технике, поскольку переменные являются непрерывными, самопеременные могут быть непрерывными или дискретными.
Линейная регрессия использует оптимально подходящую прямую (т.е. регрессию) для установления отношения между коэффициентом (Y) и одной или несколькими самок (X).
Это выражено уравнением Y = a + b * X + e, где a - сечение, b - наклон прямой линии, e - погрешность. Уравнение может предсказывать значение целевой переменной на основе данной предсказательной переменной (s).
Разница между однолинейной и многолинейной регрессией заключается в том, что многолинейная регрессия имеет ((> 1) самостоятельную переменную, в то время как однолинейная регрессия обычно имеет только одну самостоятельную переменную.
Как получить оптимальные значения линий (a и b)?
Эта задача может быть легко выполнена с помощью минимального двоичного умножения. Минимальное двоичное умножение также является наиболее распространенным методом для соответствия регрессионной линии. Для наблюдений он вычисляет оптимальное соответствие путем минимизации суммы квадратов вертикального отклонения каждой точки данных от линии.
Мы можем использовать показатели R-square для оценки производительности модели. Для получения более подробной информации об этих показателях читайте: показатели производительности модели Часть 1, Часть 2.
Ключевые моменты:
Логическое регрессирование используется для вычисления вероятности событий Y=Success Y и Y=Failure Y. Если тип данной переменной относится к бинарным ((1/0, true/false, yes/no) переменным, мы должны использовать логическое регрессирование. Здесь значение Y от 0 до 1, которое может быть выражено следующей формулой.
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
В приведенных выше формулах p имеет определенную вероятность. Вы должны задать вопрос: почему мы используем логарифм в формуле?
Поскольку здесь мы используем бинарное распределение (из-за переменных), нам нужно выбрать наилучшую для этого распределения связующую функцию. Это функция Логита. В приведенном выше уравнении параметры выбираются путем наблюдения за очень похожими оценками выбранного образца, а не путем минимизации квадрата и погрешности (как это используется в обычном регрессии).
Ключевые моменты:
Для регрессионного уравнения, если индекс самой переменной больше 1, то оно является многочленным регрессионным уравнением.
y=a+b*x^2
В этой регрессионной технике оптимальная линия соответствия не прямая линия, а кривая, используемая для соответствия точек данных.
Основные моменты:
При обработке нескольких самостоятельных переменных мы можем использовать эту форму регрессии. В этой технике выбор самостоятельной переменной выполняется в автоматическом процессе, включая нелюдские операции.
Этот подвиг позволяет идентифицировать важные переменные путем наблюдения за значениями статистики, такими как R-square, t-stats и AIC.
Анализ регрессивности хима - это технология, используемая для наличия множества солинарных данных. В случае множественной солинарности, хотя минимальное двойное множение (OLS) справедливо для каждой из переменных, их различия настолько велики, что наблюдаемые значения отклоняются и удаляются от истинных значений.
Выше мы видим линейное уравнение регрессии.
y=a+ b*x
У этого уравнения также есть предложение об ошибке.
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
В линейном уравнении ошибка предсказания может быть разбита на два подраздела. Один из них - отклонение, другой - расстояние. Ошибка предсказания может быть вызвана этими двумя подразделами или любой из них. Здесь мы обсудим ошибки, вызванные расстоянием.
Возвращение х с помощью сжатия параметров λ ((lambda) решает многолинейную солинейность; см. формулу ниже.
В этой формуле есть два компонента. Первый - это наименьший бинарный пункт, а другой - λ крат β2 ((β-квадрат), где β является соответствующим коэффициентом. Для сжатия параметров добавить его к наименьшему бинарному пункту, чтобы получить очень низкий дифференциал.
Ключевые моменты:
Он похож на редукторную регрессию, и Lasso (Least Absolute Shrinkage and Selection Operator) также наказывает величину абсолютного значения коэффициента регрессии. Кроме того, он может уменьшить изменение и повысить точность модели линейного регрессии. Смотрите формулу ниже:
Lasso regression немного отличается от Ridge regression в том, что он использует наказание как абсолютную, а не квадратную функцию. Это приводит к тому, что наказание (или сумма абсолютных значений, равной сумме абсолютных значений ограничительных оценок) приводит к тому, что некоторые результаты оценки параметров равняются нулю. Чем больше используется наказание, тем более приближается оценка к нулю. Это приводит к тому, что мы выбираем переменную из n переменных.
Ключевые моменты:
ElasticNet - это смесь технологий Lasso и Ridge regression. Она использует L1 для обучения и L2 в качестве приоритета для нормализации матриц. ElasticNet полезен, когда есть несколько связанных характеристик.
Фактическое преимущество между Lasso и Ridge заключается в том, что он позволяет ElasticNet унаследовать некоторую стабильность Ridge в циклическом состоянии.
Ключевые моменты:
Как правильно выбрать модель регрессии?
Когда вы знаете только одну или две технологии, жизнь обычно проще. Я знаю одну учебную организацию, которая говорит своим студентам, что если результат непрерывный, то используйте линейную регрессию. Если бинарный, то используйте логическую регрессию!
В многоклассных регрессионных моделях очень важно выбрать наиболее подходящую технологию, основанную на типах самоизменных и зависимых от них, измерениях данных и других основных характеристиках данных. Вот ключевые факторы, которые помогут вам выбрать правильную регрессионную модель:
Исследование данных является неотъемлемой частью построения модели прогнозирования. Это должен быть приоритетный шаг при выборе подходящей модели, например, при выявлении отношений и влияния переменных.
Для различных моделей мы можем проанализировать параметры различных показателей, такие как параметры статистического значения, R-square, Adjusted R-square, AIC, BIC и пункты ошибки, другой - Mallow's Cube Cp Guideline. Это в основном происходит путем сравнения модели со всеми возможными подмоделями (или их тщательного выбора) и проверки возможных отклонений в вашей модели.
Кросс-проверка является наиболее эффективным методом оценки модели прогноза. Здесь разделите свой набор данных на две части (одна для тренировки и другая для проверки). Используйте простое среднее расстояние между значениями наблюдений и значениями прогноза для измерения точности ваших прогнозов.
Если ваш набор данных состоит из нескольких смешанных переменных, то вы не должны использовать метод автоматического выбора модели, поскольку вы не должны иметь желание одновременно помещать все переменные в одну модель.
Это также будет зависеть от ваших целей. Может возникнуть ситуация, когда менее мощная модель легче реализовать, чем модель с высокой статистической значимостью.
Методы регрессионной нормализации (Lasso, Ridge и ElasticNet) хорошо работают при многократном солинарном взаимодействии между высокими измерениями и переменными на наборе данных.
Перенаправлено с CSDN