Введение в байесовскую линейную регрессию

Прежде чем углубляться в байесовскую линейную регрессию, давайте поймем, что такое линейная регрессия.

Чтобы продемонстрировать взаимосвязь между двумя компонентами, линейная регрессия соответствует прямому условию наблюдаемым данным. Одна переменная рассматривается как иллюстративная, а другая – как необходимая. Например, твердотельное моделирование с использованием модели прямой рекуррентности должно связать многих людей со своими памятниками.

Теперь, когда мы знаем, что такое линейная регрессия, мы узнаем о байесовской линейной регрессии, ее реальном применении, ее преимуществах и недостатках, а также реализуем ее с помощью Python.

Поднимите свои навыки специалиста по данным на новый уровень с помощью магистерской программы Data Scientist от IBMExplore Programme

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Что такое байесовская линейная регрессия?

В байесовской линейной регрессии среднее значение одного параметра характеризуется взвешенной суммой других переменных. Этот тип условного моделирования направлен на определение предварительного распределения регрессоров, а также других переменных, описывающих распределение регрессора) и в конечном итоге позволяет прогнозировать регрессию за пределами выборки при условии наблюдения за коэффициентами регрессии.

Обычное линейное уравнение, в котором распределение стиля отображения YY, заданное стилем отображения XX, является гауссовым, является самым основным и популярным вариантом этой модели. Будущее для этой модели можно определить аналитически, а определенный набор априорных вероятностей для параметров известен как сопряженные априорные значения. Задние обычно имеют более случайно выбранные априоры.

Если в наборе данных слишком мало или плохо разбросаны данные, байесовская регрессия может оказаться весьма полезной. В отличие от традиционных методов регрессии, где выходные данные получаются только из одного числа каждого атрибута, выходные данные модели байесовской регрессии получаются из распределения вероятностей.

Результат «y» получается в результате нормального распределения (где дисперсия и среднее нормированы). Целью модели байесовской регрессии является повторное определение «апостериорного» распределения параметров модели, а не самих параметров модели. Ожидается, что параметры модели будут следовать распределению в дополнение к выходным данным y.

Заднее выражение приведено ниже:

Апостериорный = (Вероятность * Априорный)/Нормализация

Параметры выражения описаны ниже:

Апостериорный: это вероятность того, что событие, такое как H, произойдет при условии возникновения другого события, такого как E, то есть P(H | E).
Правдоподобие: это функция правдоподобия, в которой используется переменная параметра маргинализации.
Приоритет: это относится к вероятности того, что событие H произошло до события A, т. е. P(H) (H)

Это то же самое, что и теорема Байеса, которая гласит следующее:

P(A|B) = (P(B|A) P(A))/P(B)

P(A) — это вероятность того, что событие A произойдет, а P(A|B) — это вероятность того, что событие A произойдет, при условии, что событие B уже произошло. Здесь A и B кажутся событиями. P(B), вероятность события B не может быть равна нулю, поскольку оно уже произошло.

Согласно вышеупомянутой формуле, мы получаем априорную вероятность для параметров модели, которая пропорциональна вероятности данных, разделенной на апостериорное распределение параметров, в отличие от метода наименьших квадратов (OLS), который мы наблюдали в случае ОЛС.

Значение вероятности будет расти по мере сбора большего количества точек данных и в конечном итоге превысит предыдущее значение. Значения параметров сходятся к значениям, полученным с помощью МНК в случае неограниченного количества точек данных. Следовательно, мы начинаем наш метод регрессии с оценки (априорного значения).

Когда мы начинаем включать дополнительные точки данных, точность нашей модели повышается. Следовательно, чтобы сделать модель байесовской регрессии хребта точной, требуется значительный объем данных о поездах.

Давайте теперь быстро рассмотрим математическую сторону ситуации. Если «y» — ожидаемое значение в линейной модели, то

y(w,x) = w0+w1x1+…+wpxp

где Вектор «w» состоит из элементов w0, w1,… Значение веса выражается как «x».

w=(w1…wp)

В результате выходной сигнал «y» теперь считается гауссовским распределением вокруг Xw для байесовской регрессии, что позволяет создать полностью вероятностную модель, как показано ниже:

p(y|X, w. 𝛼) = N(y|Xw, 𝛼)

где присутствует априорный гиперпараметр альфа гамма-распределения. Он обрабатывается как вероятность, рассчитанная на основе данных. Реализация байесовской регрессии хребта представлена ниже.

Формула байесовской регрессии хребта, на которой она основана, выглядит следующим образом:

p(y|λ)=N(w|0, λ^-1Ip)

где альфа — это параметр формы гамма-распределения перед параметром альфа, а лямбда — это параметр формы распределения перед параметром лямбда.

Мы обсудили байесовскую линейную регрессию, поэтому давайте теперь обсудим некоторые из ее реальных приложений.

Реальное применение байесовской линейной регрессии

Некоторые из реальных применений байесовской линейной регрессии приведены ниже:

Использование априорных значений. Рассмотрим сценарий, в котором в ваших супермаркетах продается новый продукт, и мы хотим спрогнозировать его первоначальные рождественские продажи. Для рождественского эффекта нового продукта мы можем просто использовать среднее значение сопоставимых вещей в качестве предыдущего.

Кроме того, как только мы получаем данные о первоначальных рождественских продажах нового товара, предыдущие немедленно обновляются. В результате на прогноз на следующее Рождество влияют как предыдущие, так и новые данные.

Регуляризация приоритетов. С учетом сезона, дня недели, тенденций, праздников и множества индикаторов продвижения наша модель сильно параметризована. Поэтому регуляризация имеет решающее значение для контроля прогнозов.

Поскольку у нас появилось представление о реальном применении байесовской линейной регрессии, теперь мы узнаем о ее преимуществах и недостатках.

Преимущества байесовской регрессии

Некоторые из основных преимуществ байесовской регрессии определены ниже:

Чрезвычайно эффективен, когда набор данных крошечный.
Особенно хорошо подходит для онлайн-обучения, в отличие от пакетного обучения, когда мы знаем полный набор данных до того, как начнем обучение модели. Это сделано для того, чтобы можно было использовать байесовскую регрессию без необходимости сохранять данные.
Байесовский метод успешно применяется и является достаточно сильным математически. Следовательно, использование этого не требует дополнительных предварительных знаний о наборе данных.

Давайте теперь посмотрим на некоторые недостатки байесовской регрессии.

Недостатки байесовской регрессии

Некоторые распространенные недостатки использования байесовской регрессии:

Процесс вывода модели может занять некоторое время.
Байесовская стратегия бесполезна, если для нашего набора данных доступно много данных, а обычный вероятностный подход справляется с этой задачей более эффективно.

После ознакомления с определениями, приложениями, преимуществами и недостатками байесовской линейной регрессии пришло время изучить, как реализовать байесовскую регрессию с помощью Python.

Реализация байесовской регрессии с использованием Python

В этом примере мы применим регрессию Байеса. Однако байесовский метод можно использовать в любом методе регрессии, включая регрессионный анализ, лассо-регрессию и т. д. Для реализации вероятностной регрессии хребта мы будем использовать библиотеку sci-kit-learn.

Мы воспользуемся набором данных Boston Housing, который включает подробную информацию о средней цене домов в различных районах Бостона.

Для оценки будет использоваться балл r2. Оценка r2 должна достигать 1,0. Значение показателя r2 равно нулю, если модель прогнозирует последовательно независимо от атрибутов. Даже худшие модели могут иметь отрицательный показатель r2.

Однако прежде чем мы начнем кодирование, вы должны понять важнейшие компоненты модели байесовской регрессии хребта:

n_iter: Количество итераций. Значение по умолчанию — 100.
tol: Как узнать, когда закончить процедуру после сходимости модели. 1e-3 — значение по умолчанию.
альфа_1: параметр альфа над параметром формы гамма-распределения линии регрессора. 1e-6 — значение по умолчанию.
альфа_2: параметр масштаба, обратный масштабу гамма-распределения относительно параметра альфа. 1e-6 — значение по умолчанию.
лямбда_1: параметр формы гамма-распределения относительно лямбды. 1e-6 — значение по умолчанию.
лямбда_2: параметр обратного масштаба гамма-распределения для переменной лямбда. 1e-6 — значение по умолчанию.

Давайте теперь реализуем это с помощью Python3.

Программа

из sklearn.datasets импорт load_boston

из sklearn.model_selection импорт train_test_split

из sklearn.metrics импорт r2_score

из sklearn.linear_model импорт BayesianRidge

# Загрузка набора данных

набор данных = load_boston()

X, y = набор данных.данные, набор данных.цель

# Разделение набора данных на тестовые и обучающие наборы

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0,15, случайное_состояние = 42)

# Создание для обучения модели

модель = Байесовский хребет()

model.fit(X_train, y_train)

# Модель, прогнозирующая тестовые данные

предсказание = model.predict(X_test)

# Оценка балла r2 модели по тестовому набору данных

print(f”Оценка тестового набора r2: {r2_score(y_test, предсказание)}”)

Выход

Оценка тестового набора r2: 0,7943355984883815

Узнайте больше о байесовской линейной регрессии с помощью Simplilearn

В этой статье мы обсудили байесовскую линейную регрессию, изучили ее реальное применение, а также углубились в ее различные преимущества и недостатки. Мы также узнали, как реализовать модель байесовской линейной регрессии и ее параметры с помощью Python3.

Чтобы всесторонне узнать о таких концепциях, повысить свою квалификацию и развить свою карьеру, посетите учебный лагерь по науке о данных Simplilearn в Калифорнийском технологическом институте сегодня!

Часто задаваемые вопросы

1. Что делает байесова регрессия?

Целью байесовской линейной регрессии является определение априорной вероятности параметров модели, а не определение одного «лучшего» значения параметров модели.

2. Каковы некоторые преимущества использования байесовской линейной регрессии?

Основное преимущество заключается в том, что, в отличие от традиционной регрессии, где вы получаете только доверительный интервал и точечную оценку, с помощью этой байесовской обработки вы получаете полный спектр логических решений.

3. Как вы выполняете байесовскую регрессию?

Мы следуем трем этапам выполнения линейной регрессии Байеса: Чтобы описать наши предположения относительно генерации данных и параметров, мы создали вероятностную модель. Вычисляя апостериорную вероятностную модель по параметрам, мы выполняем выводы для параметров.

4. Является ли байесовская линейная регрессия параметрической?

Это параметрический процесс Байесовской сети, если вы используете только регрессионный анализ (обратный гауссов априор для остальных переменных для регрессии между узлами).

5. Каковы предположения байесовской регрессии?

Ниже приведены предположения, которые мы делаем на основе нашей определенной вероятностной модели:

Модель линейная
Переменные iid
Дисперсия σ2 одинакова для каждого n-го наблюдения, что приводит к гомоскедастичности.
Вероятность (или шум в первой формулировке) следует нормальному распределению, и нам, среди прочего, не следует ожидать появления тяжелых хвостов.

6. Каковы недостатки байесовской регрессии?

Процесс вывода модели может занять некоторое время. Байесовская стратегия бесполезна, если в нашем наборе данных доступно много данных, а обычный частотный подход выполняет задачу более эффективно.

Введение в байесовскую линейную регрессию

Что такое байесовская линейная регрессия?

Реальное применение байесовской линейной регрессии

Преимущества байесовской регрессии

Недостатки байесовской регрессии