Что такое множественная линейная регрессия в машинном обучении?
- Что такое множественная линейная регрессия в машинном обучении? – RefreshIt — это статистический метод прогнозирования одного результата в зависимости от нескольких переменных.
- Это расширение стандартной регрессии, которая делает прогнозы на основе всего одного элемента. MLR использует две или более независимых переменных (факторов), которые влияют на одну зависимую переменную.
- Представьте себе прямую линию. MLR помогает найти строку, которая лучше всего соответствует данным и лучше всего описывает, как различные элементы влияют на результат.
- MLR предполагает, что взаимосвязь между факторами и результатом линейна, что не всегда так.
Линейная регрессия — это модель, которая прогнозирует значения одной переменной на основе важности другой. Это одна из самых популярных и широко используемых моделей машинного обучения, а также одна из первых вещей, которые вам следует изучить при изучении машинного обучения.
Линейная регрессия настолько популярна, потому что она настолько проста: все, что она делает, — это пытается предсказать значения на основе прошлых данных, что упрощает начало работы и понимание. Простота означает, что его также легко реализовать, что делает его отличной отправной точкой, если вы новичок в машинном обучении.
Существует два типа алгоритмов линейной регрессии:
- Простой – имеет дело с двумя функциями.
- Множественный – имеет дело с более чем двумя функциями.
В этом руководстве давайте подробно разберемся в множественной линейной регрессии.
Что такое множественная линейная регрессия (MLR)?
В машинном обучении и анализе данных множественная линейная регрессия (MLR) — это статистический метод, используемый для прогнозирования взаимосвязи между одной зависимой переменной и двумя или более независимыми переменными. Добавляя больше предикторов к простой модели линейной регрессии, этот метод помогает лучше понять, как предикторы влияют на результирующую переменную в целом. Основная цель множественной линейной регрессии (MLR) с использованием уравнения, которое лучше всего соответствует наблюдаемым данным, — спрогнозировать значение зависимой переменной на основе значений независимых переменных. Эта методология широко используется во многих областях, включая экономику, финансы, биологию и социальные науки, для облегчения прогнозирования, выявления закономерностей и понимания влияния множества элементов на единый результат.
Формула и расчет множественной линейной регрессии
Несколько обстоятельств, одновременно влияющих на зависимую переменную, можно контролировать с помощью множественного регрессионного анализа. Регрессионный анализ — это метод анализа взаимосвязи между независимыми переменными и зависимыми переменными.
Пусть k представляет количество переменных, обозначенных x1, x2, x3, ……, xk.
Для этого метода мы предполагаем, что у нас есть k независимых переменных x1, . . . , xk, которые мы можем установить, то они вероятностно определяют результат Y.
Кроме того, мы предполагаем, что Y линейно зависит от факторов согласно
Y = β0 + β1×1 + β2×2 + · · · + βkxk + ε
- Переменная yi является зависимой или прогнозируемой
- Наклон y зависит от точки пересечения y, то есть, когда xi и x2 оба равны нулю, y будет β0.
- Коэффициенты регрессии β1 и β2 представляют собой изменение y в результате изменения на одну единицу xi1 и xi2.
- βp относится к коэффициенту наклона всех независимых переменных.
- Член ε описывает случайную ошибку (невязку) в модели.
Если ε — стандартная ошибка, это происходит так же, как и для простой линейной регрессии, за исключением того, что k не обязательно должно быть равно 1.
У нас есть n наблюдений, обычно n намного больше k.
Для i-го наблюдения мы присваиваем независимым переменным значения xi1, xi2. . . , xik и измерьте значение yi для случайной величины Yi.
Таким образом, модель можно описать уравнениями.
Yi = β0 + β1xi1 + β2xi2 + · · · + βkxik + i для i = 1, 2, . . . ,
Где ошибки i являются независимыми стандартными переменными, каждая со средним значением 0 и одинаковой неизвестной дисперсией σ2.
Всего модель множественной линейной регрессии имеет k + 2 неизвестных параметра:
б0, б1, . . . , βk и σ 2.
Когда k было равно 1, мы нашли линию наименьших квадратов y = βˆ 0 +βˆ 1x.
Это была линия в плоскости R 2.
Теперь, когда k ≥ 1, у нас будет гиперплоскость метода наименьших квадратов.
y = βˆ 0 + βˆ 1×1 + βˆ 2×2 + · · · + βˆ kxk в Rk+1.
Способ нахождения оценок βˆ 0, βˆ 1, . . ., и βˆ k то же самое.
Возьмите частные производные квадрата ошибки.
Q = Xn i=1 (yi − (β0 + β1xi1 + β2xi2 + · · · + βkxik))2
Когда эта система решена, мы установили значения
yˆi = βˆ 0 + βˆ 1xi1 + βˆ 2xi2 + · · · + βˆ kxik для i = 1, . . . , n, что должно быть близко к фактическим значениям yi.
Предположения о множественной линейной регрессии
Множественная линейная регрессия опирается на несколько ключевых предположений для получения достоверных и надежных результатов:
1. Линейность
Связь между зависимой переменной и каждой независимой переменной является линейной. Это означает, что изменение зависимой переменной пропорционально изменению каждой независимой переменной.
2. Независимость
Наблюдения независимы друг от друга. Это допущение гарантирует, что на значение зависимой переменной для одного наблюдения не влияет значение другого.
3. Он гомоскедастик
Дисперсия остатков (ошибок) постоянна на всех уровнях независимых переменных. Это означает, что разброс остатков должен быть примерно одинаковым для всех прогнозируемых значений.
4. Нормальность остатков.
Остатки (разницы между наблюдаемыми и прогнозируемыми значениями) обычно распределены. Это особенно важно для проверки гипотез и построения доверительных интервалов.
5. Никакой мультиколлинеарности.
Независимые переменные не слишком сильно коррелируют. Однако высокая мультиколлинеарность может затруднить определение индивидуального эффекта каждой независимой переменной.
6. Нет автокорреляции
Никакой корреляции между остатками нет. Автокорреляция может указывать на то, что в модели отсутствуют некоторые важные предикторы.
7. Фиксированные независимые переменные
Значения независимых переменных фиксируются в повторяющихся выборках, то есть измеряются без ошибок.
Пример использования множественной линейной регрессии
из sklearn.datasets импорт load_boston
импортировать панд как pd
из sklearn.model_selection импорт train_test_split
защита sklearn_to_df(data_loader):
X_data = data_loader.data
X_columns = data_loader.feature_names
X = pd.DataFrame(X_data, columns=X_columns)
y_data = data_loader.target
y = pd.Series(y_data, name='target')
вернуть х, у
x, y = sklearn_to_df(load_boston())
x_train, x_test, y_train, y_test = train_test_split(
x, y, test_size=0,2, случайное_состояние=42)
из load_dataset импортировать x_train, x_test, y_train, y_test
из Multiple_linear_reгрессии импортировать MultipleLinearRegrade
из sklearn.linear_model импорт LinearReгрессия
mulreg = МножественнаяЛинейнаяРегрессия()
# подогнать наш LR под наши данные
mulreg.fit(x_train, y_train)
# делать прогнозы и забивать
пред = mulreg.predict(x_test)
# вычислить r2_score
оценка = mulreg.r2_score(y_test, pred)
print(f'Наш окончательный результат R^2: {score}')
Разница между линейной и множественной регрессией
При прогнозировании результата сложного процесса лучше всего использовать множественную линейную регрессию вместо простой линейной регрессии.
Простая линейная регрессия может точно отразить взаимосвязь между двумя переменными в простых отношениях. С другой стороны, множественная линейная регрессия может фиксировать более сложные взаимодействия, требующие большего обдумывания.
Модель множественной регрессии использует более одной независимой переменной. Оно не страдает теми же ограничениями, что и простое уравнение регрессии, и, таким образом, может соответствовать кривым и нелинейным отношениям. Ниже приведены варианты использования множественной линейной регрессии.
- Планирование и контроль.
- Предсказание или прогнозирование.
Оценка взаимосвязей между переменными может быть интересной и полезной. Как и все другие модели регрессии, модель множественной регрессии оценивает отношения между переменными с точки зрения их способности прогнозировать значение зависимой переменной.
Почему и когда использовать множественную регрессию вместо простой регрессии OLS?
В ситуациях, когда более чем одна переменная-предиктор влияет на переменную результата, следует использовать множественную регрессию вместо простой регрессии OLS (обычных наименьших квадратов). Сложность взаимосвязей в данных может быть упущена с помощью простой регрессии OLS, которая использует только один предиктор, что дает предвзятые или недостаточные результаты. Более тщательную и точную модель, учитывающую совокупное влияние множества факторов на зависимую переменную, можно создать с помощью множественной регрессии, которая позволяет включать несколько независимых переменных. Это особенно важно в реальных ситуациях, когда на результат обычно влияют различные факторы. Множественный регрессионный анализ помогает определить относительную важность каждого предиктора, учесть мешающие переменные и повысить общую прогностическую силу и объяснительную способность модели.
Наши ученики также задают вопросы
1. Когда следует использовать множественную линейную регрессию?
Множественная линейная регрессия — это статистический метод, используемый для анализа набора данных с различными независимыми переменными, влияющими на зависимую переменную. Так часто бывает при прогнозировании более сложных отношений.
Этот метод позволяет исследователям прогнозировать результат зависимой переменной на основе значений определенных переменных. Это также позволит исследователям оценить, существуют ли какие-либо взаимодействия между независимыми переменными, что поможет им лучше понять, как они влияют друг на друга.
2. Для чего используется множественная регрессия?
Делая прогноз или прогнозирование, лучше всего иметь как можно больше данных. Множественная линейная регрессия — это модель, которая позволяет учитывать все эти потенциально значимые переменные в одной модели.
Преимущества этого подхода включают более точное и детальное представление о взаимосвязи между каждым конкретным фактором и результатом. Это означает, что вы можете более эффективно планировать и контролировать свои данные.
3. В чем разница между линейной и множественной регрессией?
Простая линейная регрессия — это способ смоделировать взаимосвязь между двумя переменными. Но что, если отношения более сложные? Вот тогда и пригодится множественная линейная регрессия!
Множественные регрессии используются для:
- Планирование и мониторинг
- Предсказание или прогнозирование.
Множественная линейная регрессия использует множество переменных для прогнозирования результата зависимой переменной. Он может учитывать нелинейные отношения и взаимодействия между переменными так, как не может простая линейная регрессия. И делает это с большей точностью!
3. Какова формула множественной линейной регрессии?
Формула MLR выглядит так: y = a + bx1 + cx2 + dx3 + …….
Коэффициенты точно говорят вам, какой вклад каждая независимая переменная вносит в зависимую переменную и какой вклад каждая независимая переменная вносит в отдельности.
Например, если у вас есть две независимые переменные (x1 и x2), то коэффициент для x1 покажет вам, насколько сильно каждая единица изменения x1 влияет на y — и то же самое для x2.
4. Каковы предположения для множественной линейной регрессии?
Чтобы гарантировать, что ваши данные подходят для анализа линейной регрессии, вам необходимо убедиться, что они соответствуют следующим пяти условиям:
- Линейная связь между зависимыми и независимыми переменными.
- Независимые переменные не сильно коррелируют друг с другом.
- Дисперсия остатков постоянна.
- Независимость наблюдения (то есть каждое наблюдение должно было собираться независимо).
- Многомерная нормальность (то есть все переменные должны иметь нормальное распределение).
5. Что делает множественную регрессию кратной?
Слово «множественный» относится к регрессии, в которой для прогнозирования одной зависимой переменной используется более одной независимой переменной. Многие регрессионные анализы включают в себя множество предикторов, чтобы охватить сложность реальных сценариев, в которых на результат влияют сразу несколько факторов, в отличие от простой регрессии, в которой используется только один предиктор. В результате взаимосвязи между данными можно понять более тщательно, учитывая совокупное воздействие всех включенных факторов. Многочисленная регрессия является мощным инструментом для статистического анализа и приложений машинного обучения, поскольку она может давать более точные прогнозы и понимание при включении бесчисленного количества факторов.
6. Почему лучше использовать множественную регрессию вместо простой регрессии OLS?
Когда на зависимую переменную влияют многочисленные независимые переменные, множественная регрессия предпочтительнее базовой регрессии OLS (обычных наименьших квадратов). Анализ связи одного предиктора с результирующей переменной — единственное, что может сделать простая регрессия OLS, которая может лишь частично отражать сложность данных. Напротив, множественная регрессия позволяет включать несколько предикторов, что приводит к более полной модели, которая может учитывать совокупное влияние различных элементов. В результате прогнозы и идеи становятся более точными и заслуживающими доверия, поскольку они лучше отражают реальную ситуацию, в которой несколько переменных часто влияют на результаты. Кроме того, множественная регрессия может использоваться для определения относительной значимости каждого предиктора, обеспечивая более глубокое понимание связей внутри данных.
7. Могу ли я выполнить множественную регрессию вручную?
Множественную регрессию можно выполнить вручную, но это сложная и длительная процедура. Процедуры включают в себя вычисление нескольких переменных, включая ковариации между каждой парой переменных, а также средние значения и дисперсии независимых и зависимых переменных. После этого вы строите набор линейных уравнений, чтобы найти коэффициенты регрессии. Матричная алгебра обычно необходима для эффективного управления вычислениями. Множественный регрессионный анализ можно выполнить более точно и эффективно с использованием статистического программного обеспечения, языков программирования, таких как R и Python, или таких инструментов, как Excel, учитывая возможность ошибки и трудоемкий характер этих вычислений, особенно с более обширными наборами данных.
8. Что означает, что множественная регрессия является линейной?
Линейность множественной регрессии означает предположение модели о том, что прямая линия лучше всего отражает взаимосвязь между зависимой переменной (то, что вы пытаетесь предсказать) и независимыми переменными (факторами, которые, по вашему мнению, влияют на результат). Модель подразумевает, что, подобно точкам на графике, следующим за прямой линией, изменения независимых переменных вызывают пропорциональные изменения зависимой переменной. Это контрастирует с нелинейной регрессией, в которой могут существовать более сложные или изогнутые отношения.
Будьте впереди технологической игры с нашей программой последипломного образования Калифорнийского технологического института в области искусственного интеллекта и машинного обучения в партнерстве с Калифорнийским технологическим институтом. Узнайте больше!
Заключение
Множественная линейная регрессия — это статистический метод, который использует множественную линейную регрессию для моделирования более сложных отношений между двумя или более независимыми переменными и одной зависимой переменной. Он используется при наличии двух или более переменных x.
Вы ищете карьеру в области искусственного интеллекта, машинного обучения, глубокого обучения и компьютерного зрения?
Вы можете сделать это с помощью нашей интенсивной программы последипломного образования в области искусственного интеллекта и машинного обучения. Мы предлагаем эту программу в сотрудничестве с IBM и Университетом Пердью и включаем живые занятия с участием внешних экспертов, лабораторий и бизнес-проектов.