Что такое множественная линейная регрессия в машинном обучении?

  • Что такое множественная линейная регрессия в машинном обучении? – RefreshЭто статистический метод прогнозирования одного результата в зависимости от нескольких переменных.
  • Это расширение стандартной регрессии, которая делает прогнозы на основе только одного элемента. MLR использует две или более независимых переменных (факторов), которые влияют на одну зависимую переменную.
  • Представьте себе прямую линию. MLR помогает найти линию, которая лучше всего соответствует данным и наилучшим образом описывает, как различные элементы влияют на результат.
  • MLR предполагает, что связь между факторами и результатом линейна, что не всегда так.

Линейная регрессия — это модель, которая предсказывает значения одной переменной на основе важности другой. Это одна из самых популярных и широко используемых моделей в машинном обучении, и это также одна из первых вещей, которые вы должны изучить, изучая машинное обучение.

Линейная регрессия так популярна, потому что она так проста: все, что она делает, это пытается предсказать значения на основе прошлых данных, что делает ее легкой для начала работы и понимания. Простота означает, что ее также легко реализовать, что делает ее отличной отправной точкой, если вы новичок в машинном обучении.

Существует два типа алгоритмов линейной регрессии:

  • Простой — имеет дело с двумя функциями.
  • Множественный — имеет дело с более чем двумя функциями.

В этом руководстве давайте подробно разберемся с множественной линейной регрессией.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Что такое множественная линейная регрессия (МЛР)?

В машинном обучении и анализе данных множественная линейная регрессия (MLR) — это статистический метод, используемый для прогнозирования взаимосвязи между одной зависимой переменной и двумя или более независимыми переменными. Добавляя больше предикторов к простой линейной регрессионной модели, этот метод помогает лучше понять, как предикторы влияют на переменную результата в целом. Используя уравнение, которое наилучшим образом соответствует наблюдаемым данным, основная цель множественной линейной регрессии (MLR) — прогнозировать значение зависимой переменной на основе значений независимых переменных. Эта методология широко применяется во многих областях, включая экономику, финансы, биологию и социальные науки, для упрощения прогнозирования, обнаружения закономерностей и понимания влияния нескольких элементов на единичный результат.

Формула и расчет множественной линейной регрессии

Несколько обстоятельств, которые одновременно влияют на зависимую переменную, можно контролировать с помощью множественного регрессионного анализа. Регрессионный анализ — это метод анализа взаимосвязи между независимыми и зависимыми переменными.

Пусть k представляет собой число переменных, обозначенных x1, x2, x3, ……, xk.

Для этого метода мы предполагаем, что у нас есть k независимых переменных x1, . . . , xk, которые мы можем задать, и тогда они вероятностно определят результат Y.

Кроме того, мы предполагаем, что Y линейно зависит от факторов согласно

Y = β0 + β1×1 + β2×2 + · · · + βkxk + ε

  • Переменная yi является зависимой или прогнозируемой
  • Наклон y зависит от точки пересечения с осью y, то есть, когда xi и x2 равны нулю, y будет равен β0.
  • Коэффициенты регрессии β1 и β2 представляют собой изменение y в результате изменения xi1 и xi2 на одну единицу.
  • βp относится к коэффициенту наклона всех независимых переменных
  • Член ε описывает случайную ошибку (остаток) в модели.

Где ε — стандартная ошибка, это то же самое, что и для простой линейной регрессии, за исключением того, что k не обязательно должно быть равно 1.

У нас есть n наблюдений, причем n обычно намного больше k.

Для i-го наблюдения мы устанавливаем независимые переменные на значения xi1, xi2…, xik и измеряем значение yi для случайной величины Yi.

Таким образом, модель можно описать уравнениями.

Yi = β0 + β1xi1 + β2xi2 + · · · + βkxik + i для i = 1, 2, . . . , н,

Где ошибки i являются независимыми стандартными переменными, каждая из которых имеет среднее значение 0 и одну и ту же неизвестную дисперсию σ2.

Всего модель множественной линейной регрессии имеет k + 2 неизвестных параметра:

б0, б1, . . . , βk и σ 2.

Когда k было равно 1, мы нашли линию наименьших квадратов y = βˆ 0 +βˆ 1x.

Это была линия в плоскости R 2.

Теперь при k ≥ 1 у нас будет гиперплоскость наименьших квадратов.

y = βˆ 0 + βˆ 1×1 + βˆ 2×2 + · · · + βˆ kxk в Rk+1.

Способ нахождения оценок βˆ 0, βˆ 1, . . . и βˆ k одинаков.

Возьмите частные производные квадрата ошибки.

Q = Xn i=1 (yi − (β0 + β1xi1 + β2xi2 + · · · + βkxik))2

Когда эта система решена, мы имеем подобранные значения

yˆi = βˆ 0 + βˆ 1xi1 + βˆ 2xi2 + · · · + βˆ kxik для i = 1, . . . , n, которые должны быть близки к фактическим значениям yi.

Предположения множественной линейной регрессии

Множественная линейная регрессия основана на нескольких ключевых предположениях для получения достоверных и надежных результатов:

1. Линейность

Связь между зависимой переменной и каждой независимой переменной линейна. Это означает, что изменение зависимой переменной пропорционально изменению каждой независимой переменной.

2. Независимость

Наблюдения независимы друг от друга. Это предположение гарантирует, что значение зависимой переменной для одного наблюдения не зависит от значения для другого.

3. Он гомоскедастик

Дисперсия остатков (ошибок) постоянна на всех уровнях независимых переменных. Это означает, что разброс остатков должен быть примерно одинаковым для всех прогнозируемых значений.

4. Нормальность остатков

Остатки (разницы между наблюдаемыми и прогнозируемыми значениями) обычно распределены. Это особенно важно для проверки гипотез и построения доверительных интервалов.

5. Отсутствие мультиколлинеарности

Независимые переменные не слишком сильно коррелируют. Однако высокая мультиколлинеарность может затруднить определение индивидуального эффекта каждой независимой переменной.

6. Отсутствие автокорреляции

Между остатками нет корреляции. Автокорреляция может указывать на то, что в модели отсутствуют некоторые важные предикторы.

7. Фиксированные независимые переменные

Значения независимых переменных фиксируются в повторных выборках, то есть они измеряются без ошибок.

Пример использования множественной линейной регрессии

из sklearn.datasets импорт load_boston

импортировать панды как pd

из sklearn.model_selection импорт train_test_split

def sklearn_to_df(загрузчик_данных):

X_data = data_loader.data

X_columns = data_loader.feature_names

X = pd.DataFrame(X_data, columns=X_columns)

y_data = data_loader.target

y = pd.Series(y_data, name='target')

вернуть х, у

x, y = sklearn_to_df(load_boston())

x_train, x_test, y_train, y_test = train_test_split(

x, y, test_size=0.2, random_state=42)

из load_dataset импорт x_train, x_test, y_train, y_test

из multiple_linear_regression импорт MultipleLinearRegression

из sklearn.linear_model импортировать ЛинейнуюРегрессию

mulreg = МножественнаяЛинейнаяРегрессия()

# подгоняем наш LR под наши данные

mulreg.fit(x_train, y_train)

# делать прогнозы и подсчитывать очки

pred = mulreg.predict(x_test)

# рассчитать r2_score

оценка = mulreg.r2_score(y_test, pred)

print(f'Наш окончательный счет R^2: {score}')

Разница между линейной и множественной регрессией

При прогнозировании результата сложного процесса лучше всего использовать множественную линейную регрессию вместо простой линейной регрессии.

Простая линейная регрессия может точно улавливать связь между двумя переменными в простых отношениях. С другой стороны, множественная линейная регрессия может улавливать более сложные взаимодействия, которые требуют больше размышлений.

Модель множественной регрессии использует более одной независимой переменной. Она не страдает от тех же ограничений, что и простое уравнение регрессии, и поэтому может подгонять кривые и нелинейные отношения. Ниже приведены примеры использования множественной линейной регрессии.

  1. Планирование и контроль.
  2. Прогнозирование или предсказание.

Оценка взаимосвязей между переменными может быть захватывающей и полезной. Как и все другие модели регрессии, модель множественной регрессии оценивает взаимосвязи между переменными с точки зрения их способности предсказывать значение зависимой переменной.

Почему и когда следует использовать множественную регрессию вместо простой регрессии МНК?

В ситуациях, когда на результирующую переменную влияет более одной переменной-предиктора, вместо простой регрессии OLS (метод наименьших квадратов) следует использовать множественную регрессию. Сложность взаимосвязей в данных может быть упущена простой регрессией OLS, которая использует только один предиктор, что приводит к смещенным или недостаточным результатам. Более тщательная и точная модель, которая учитывает комбинированное воздействие многочисленных факторов на зависимую переменную, может быть создана с помощью множественной регрессии, которая позволяет включать несколько независимых переменных. Это особенно важно в реальных ситуациях, когда на результат обычно влияют различные факторы. Анализ множественной регрессии помогает определить относительную важность каждого предиктора, учесть вмешивающиеся переменные и повысить общую предсказательную силу и объяснительную способность модели.

Наши учащиеся также спрашивают

1. Когда следует использовать множественную линейную регрессию?

Множественная линейная регрессия — это статистический метод, используемый для анализа набора данных с различными независимыми переменными, влияющими на зависимую переменную. При прогнозировании более сложных взаимосвязей это часто так.

Метод позволяет исследователям предсказывать результат зависимой переменной на основе значений определенных переменных. Он также позволит исследователям оценить, есть ли какие-либо взаимодействия между независимыми переменными, что может помочь им лучше понять, как они влияют друг на друга.

2. Для чего используется множественная регрессия?

При составлении прогноза или предсказания лучше всего иметь как можно больше данных. Множественная линейная регрессия — это модель, которая позволяет учитывать все эти потенциально значимые переменные в одной модели.

Преимущества этого подхода включают более точное и подробное представление взаимосвязи между каждым конкретным фактором и результатом. Это означает, что вы можете планировать и контролировать свои данные более эффективно.

3. В чем разница между линейной и множественной регрессией?

Простая линейная регрессия — это способ смоделировать связь между двумя переменными. Но что, если связь более сложная? Вот тогда-то и пригодится множественная линейная регрессия!

Множественные регрессии используются для:

  1. Планирование и мониторинг
  2. Прогнозирование или предсказание.

Множественная линейная регрессия использует множество переменных для прогнозирования результата зависимой переменной. Она может учитывать нелинейные связи и взаимодействия между переменными способами, которые простая линейная регрессия не может. И она делает это с большей точностью!

3. Какова формула множественной линейной регрессии?

Формула MLR выглядит так: y = a + bx1 + cx2 + dx3 + …….

Коэффициенты точно показывают, какой вклад каждая независимая переменная вносит в зависимую переменную и какой вклад каждая независимая переменная вносит в отдельности.

Например, если у вас есть две независимые переменные (x1 и x2), то коэффициент при x1 покажет вам, насколько сильно каждое изменение единицы x1 влияет на y, и то же самое касается x2.

4. Каковы предположения для множественной линейной регрессии?

Чтобы убедиться, что ваши данные подходят для линейного регрессионного анализа, вам необходимо убедиться, что они соответствуют следующим пяти условиям:

  1. Линейная связь между зависимыми и независимыми переменными.
  2. Независимые переменные не сильно коррелируют друг с другом.
  3. Дисперсия остатков постоянна.
  4. Независимость наблюдения (то есть каждое наблюдение должно было собираться независимо).
  5. Многомерная нормальность (то есть все переменные должны быть распределены нормально).

5. Что делает множественную регрессию множественной?

Слово «множественный» относится к регрессии, в которой для прогнозирования одной зависимой переменной используется более одной независимой переменной. Многие регрессионные анализы включают множество предикторов, чтобы охватить сложность реальных сценариев, где на результат влияют несколько факторов одновременно, в отличие от простой регрессии, которая использует только один предиктор. В результате взаимосвязи в данных могут быть поняты более тщательно, учитывая совокупное воздействие всех включенных факторов. Многочисленная регрессия является мощным инструментом для статистического анализа и приложений машинного обучения, поскольку она может давать более точные прогнозы и идеи, когда включено бесчисленное количество факторов.

6. Почему следует использовать множественную регрессию вместо простой регрессии МНК?

Когда на зависимую переменную влияет множество независимых переменных, множественная регрессия предпочтительнее базовой регрессии OLS (Old Least Squares). Анализ связи одного предиктора с результирующей переменной — единственное, что может сделать простая регрессия OLS, которая может лишь частично отражать сложность данных. Напротив, множественная регрессия позволяет включать несколько предикторов, что приводит к более полной модели, которая может учитывать комбинированное воздействие различных элементов. В результате прогнозы и идеи становятся более точными и заслуживающими доверия, поскольку они лучше отражают реальную ситуацию, в которой несколько переменных часто влияют на результаты. Кроме того, множественную регрессию можно использовать для определения относительной значимости каждого предиктора, обеспечивая более глубокое понимание связей в данных.

7. Можно ли выполнить множественную регрессию вручную?

Можно выполнить множественную регрессию вручную, но это сложная и длительная процедура. Процедуры подразумевают вычисление нескольких переменных, включая ковариации между каждой парой переменных, а также средние значения и дисперсии независимых и зависимых переменных. После этого вы создаете набор линейных уравнений для нахождения коэффициентов регрессии. Матричная алгебра обычно необходима для эффективного управления вычислениями. Множественный регрессионный анализ можно выполнить точнее и эффективнее с помощью статистического программного обеспечения, языков программирования, таких как R и Python, или инструментов, таких как Excel, учитывая возможность ошибки и трудоемкость этих вычислений, особенно с более обширными наборами данных.

8. Что означает, что множественная регрессия является линейной?

Линейность в множественной регрессии относится к предположению модели, что прямая линия наилучшим образом представляет связь между зависимой переменной (то, что вы пытаетесь предсказать) и независимыми переменными (факторами, которые, по вашему мнению, влияют на результат). Модель подразумевает, что, подобно точкам на графике, следующим за прямой линией, изменения в независимых переменных вызывают пропорциональные изменения в зависимой переменной. Это контрастирует с нелинейной регрессией, в которой может существовать более сложная или кривая связь.

Оставайтесь впереди технологической игры с нашей программой аспирантуры Caltech по искусственному интеллекту и машинному обучению в партнерстве с Caltech. Узнайте больше!

Заключение

Множественная линейная регрессия — это статистический метод, который использует множественную линейную регрессию для моделирования более сложных взаимосвязей между двумя или более независимыми переменными и одной зависимой переменной. Он используется, когда есть две или более переменных x.

Вы ищете карьеру в области искусственного интеллекта, машинного обучения, глубокого обучения и компьютерного зрения?

Вы можете сделать это с нашей интенсивной программой последипломного образования по ИИ и машинному обучению. Мы предлагаем эту программу в сотрудничестве с IBM и Университетом Пердью и включаем живые сессии от внешних экспертов, лабораторий и бизнес-проектов.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *