Введение в байесовскую линейную регрессию

Прежде чем приступить к изучению байесовской линейной регрессии, давайте разберемся, что такое линейная регрессия.

Чтобы продемонстрировать связь между двумя компонентами, линейная регрессия подгоняет прямое условие к наблюдаемым данным. Одна переменная рассматривается как иллюстративная, а другая — как необходимая. Например, твердотельное моделирование с использованием прямой рекуррентной модели должно связывать многих людей с их памятниками.

Теперь, когда мы знаем, что такое линейная регрессия, мы узнаем о байесовской линейной регрессии, ее реальном применении, ее преимуществах и недостатках, а также реализуем ее с помощью Python.

Станьте специалистом по обработке данных с помощью практического обучения!Программа магистратуры для специалистов по обработке данныхИзучить программу

Что такое байесовская линейная регрессия?

В байесовской линейной регрессии среднее значение одного параметра характеризуется взвешенной суммой других переменных. Этот тип условного моделирования направлен на определение априорного распределения регрессоров, а также других переменных, описывающих распределение регрессанта) и в конечном итоге позволяет прогнозировать регрессант вне выборки, обусловленный наблюдениями за коэффициентами регрессии.

Нормальное линейное уравнение, где распределение стиля отображения YY, заданное стилем отображения XX, является гауссовым, является самым базовым и популярным вариантом этой модели. Будущее может быть определено аналитически для этой модели, и определенный набор априорных вероятностей для параметров известен как сопряженные априорные вероятности. Апостериорные вероятности обычно имеют более случайно выбранные априорные вероятности.

Когда в наборе данных слишком мало или данные плохо распределены, байесовская регрессия может быть весьма полезной. В отличие от традиционных методов регрессии, где выход выводится только из одного числа каждого атрибута, выход модели байесовской регрессии выводится из распределения вероятностей.

Результат “y” получен с помощью нормального распределения (где дисперсия и среднее значение нормализованы). Целью байесовской регрессионной модели является определение “апостериорного” распределения снова для параметров модели, а не самих параметров модели. Ожидается, что параметры модели будут следовать распределению в дополнение к выходу y.

Апостериорное выражение приведено ниже:

Апостериор = (Правдоподобие * Априорное)/Нормализация

Параметры выражения поясняются ниже:

Апостериорная вероятность: это вероятность того, что событие, например H, произойдет при условии наступления другого события, например E, т. е. P(H | E).
Вероятность: это функция правдоподобия, в которой используется переменная параметра маргинализации.
Приоритет: это относится к вероятности того, что событие H произошло до события A, т. е. P(H) (H)

Это то же самое, что и теорема Байеса, которая утверждает следующее:

Р(А|Б) = (Р(Б|А) Р(А))/Р(Б)

P(A) — это вероятность того, что событие A произойдет, в то время как P(A|B) — это вероятность того, что событие A произойдет, при условии, что событие B уже произошло. Здесь A и B кажутся событиями. P(B), вероятность того, что событие B произойдет, не может быть равна нулю, потому что оно уже произошло.

Согласно вышеупомянутой формуле, мы получаем априорную вероятность для параметров модели, которая пропорциональна вероятности данных, деленной на апостериорное распределение параметров, в отличие от метода наименьших квадратов (МНК), который мы наблюдали в случае МНК.

Значение вероятности будет расти по мере сбора большего количества точек данных и в конечном итоге превзойдет предыдущее значение. Значения параметров сходятся к значениям, полученным с помощью OLS в случае неограниченного количества точек данных. Следовательно, мы начинаем наш метод регрессии с оценки (предыдущего значения).

По мере того, как мы начинаем включать дополнительные точки данных, точность нашей модели улучшается. Поэтому, чтобы сделать модель байесовской гребневой регрессии точной, требуется значительный объем данных поезда.

Давайте быстро рассмотрим математическую сторону ситуации. Если 'y' — это ожидаемое значение в линейной модели, то

у(w,x) = w0+w1x1+…+wpxp

где, Вектор «w» состоит из элементов w0, w1,… Значение веса выражается как «x».

в=(в1…вп)

В результате выходной сигнал «y» теперь считается гауссовым распределением вокруг Xw для байесовской регрессии, что позволяет создать полностью вероятностную модель, как показано ниже:

p(y|X, w. 𝛼) = N(y|Xw, 𝛼)

где присутствует распределение Гаммы до гиперпараметра альфа. Он обрабатывается как вероятность, вычисленная из данных. Реализация байесовской гребневой регрессии представлена ниже.

Формула байесовской гребневой регрессии, на которой она основана, выглядит следующим образом:

p(y|λ)=N(w|0, λ^-1Ip)

где альфа — параметр формы гамма-распределения до параметра альфа, а лямбда — параметр формы распределения до параметра лямбда.

Мы обсудили байесовскую линейную регрессию, теперь давайте обсудим некоторые из ее реальных применений.

Реальное применение байесовской линейной регрессии

Ниже приведены некоторые примеры реального применения байесовской линейной регрессии:

Использование априорных данных: Рассмотрим сценарий, в котором ваши супермаркеты продают новый продукт, и мы хотим спрогнозировать его первоначальные рождественские продажи. Для рождественского эффекта нового продукта мы можем просто использовать среднее значение сопоставимых вещей в качестве предыдущего.

Кроме того, как только мы получаем данные о первоначальных рождественских продажах нового товара, предыдущие немедленно обновляются. В результате прогноз на следующее Рождество зависит как от предыдущих, так и от данных нового товара.

Регуляризация априорных данных: с учетом сезона, дня недели, тренда, праздников и массы показателей продвижения наша модель сильно перепараметризована. Поэтому регуляризация имеет решающее значение для контроля прогнозов.

Поскольку мы получили представление о реальном применении байесовской линейной регрессии, теперь мы узнаем о ее преимуществах и недостатках.

Преимущества байесовской регрессии

Некоторые из основных преимуществ байесовской регрессии определены ниже:

Чрезвычайно эффективен, когда набор данных небольшой.
Особенно хорошо подходит для онлайн-обучения в отличие от пакетного обучения, когда мы знаем полный набор данных до начала обучения модели. Это делается для того, чтобы байесовскую регрессию можно было использовать без необходимости сохранения данных.
Байесовский метод успешно применяется и является достаточно сильным математически. Поэтому его использование не требует дополнительных предварительных знаний о наборе данных.

Давайте теперь рассмотрим некоторые недостатки байесовской регрессии.

Недостатки байесовской регрессии

Некоторые распространенные недостатки использования байесовской регрессии:

Процесс построения модели может занять некоторое время.
Байесовская стратегия не имеет смысла, если для нашего набора данных доступен большой объем данных, а обычный вероятностный подход решает эту задачу более эффективно.

После изучения определений, областей применения, преимуществ и недостатков байесовской линейной регрессии настало время изучить, как реализовать байесовскую регрессию с помощью Python.

Реализация байесовской регрессии с использованием Python

В этом примере мы применим байесовскую гребневую регрессию. Однако байесовский метод можно использовать в любой технике регрессии, включая регрессионный анализ, лассо-регрессию и т. д. Для реализации вероятностной гребневой регрессии мы воспользуемся библиотекой sci-kit-learn.

Мы воспользуемся набором данных Boston Housing, который содержит сведения о средней цене домов в различных районах Бостона.

Оценка r2 будет использоваться для оценки. Оценка r2 должна быть не ниже 1,0. Значение оценки r2 равно нулю, если модель предсказывает последовательно независимо от атрибутов. Даже худшие модели могут иметь отрицательную оценку r2.

Однако прежде чем приступить к кодированию, вы должны понять основные компоненты модели байесовской гребневой регрессии:

n_iter: Количество итераций. Значение по умолчанию — 100.
tol: Как узнать, когда следует завершить процедуру после сходимости модели. 1e-3 — значение по умолчанию.
alpha_1: Параметр альфа по параметру формы гамма-распределения линии регрессора. 1e-6 — значение по умолчанию.
alpha_2: Параметр масштаба обратного гамма-распределения относительно параметра альфа. Значение по умолчанию — 1e-6.
lambda_1: Параметр формы гамма-распределения относительно лямбды. 1e-6 — значение по умолчанию.
lambda_2: Обратный масштабный параметр гамма-распределения по переменной лямбда. 1e-6 — значение по умолчанию.

Давайте теперь реализуем это с помощью Python3.

Программа

из sklearn.datasets импорт load_boston

из sklearn.model_selection импорт train_test_split

из sklearn.metrics импорт r2_score

из sklearn.linear_model импортировать BayesianRidge

# Загрузка набора данных

набор данных = load_boston()

X, y = набор данных.данные, набор данных.цель

# Разделение набора данных на проверочный и обучающий наборы

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.15, random_state = 42)

# Создание для обучения модели

модель = BayesianRidge()

модель.fit(X_train, y_train)

# Модель, прогнозирующая тестовые данные

прогноз = модель.прогноз(X_тест)

# Оценка показателя r2 модели по сравнению с тестовым набором данных

print(f”Оценка тестового набора r2: {r2_score(y_test, predict)}”)

Выход

Оценка тестового набора r2: 0,7943355984883815

Узнайте больше о байесовской линейной регрессии с помощью Simplilearn

В этой статье мы обсудили байесовскую линейную регрессию, изучили ее реальное применение, а также погрузились в различные преимущества и недостатки. Мы также узнали, как реализовать модель байесовской линейной регрессии и ее параметры с помощью Python3.

Чтобы всесторонне изучить эти концепции, повысить свою квалификацию и построить карьеру, посетите учебный лагерь по науке о данных от Simplilearn уже сегодня!

Часто задаваемые вопросы

1. Что делает байесовская регрессия?

Целью байесовской линейной регрессии является определение априорной вероятности параметров модели, а не определение одного «наилучшего» значения параметров модели.

2. Каковы преимущества использования байесовской линейной регрессии?

Главное преимущество заключается в том, что в отличие от традиционной регрессии, где вы получаете только доверительный интервал и точечную оценку, при байесовской обработке вы получаете полный спектр выводимых решений.

3. Как выполняется байесовская регрессия?

Мы следуем трем этапам для выполнения линейной регрессии Байеса: Для того чтобы описать наши предположения о генерации данных и параметров, мы создали вероятностную модель. Вычисляя апостериорную вероятностную модель по параметрам, мы выполняем вывод для параметров.

4. Является ли байесовская линейная регрессия параметрической?

Это параметрический байесовский процесс, если вы используете только регрессионный анализ (обратный гауссовский априорный анализ по оставшимся переменным для регрессий между узлами).

5. Каковы предположения байесовской регрессии?

Ниже приведены предположения, которые мы делаем на основе нашей определенной вероятностной модели:

Модель линейная.
Переменные iid
Дисперсия σ2 одинакова для каждого n-го наблюдения, что приводит к гомоскедастичности.
Вероятность (или шум в первой формулировке) следует нормальному распределению, и мы не должны ожидать, помимо прочего, появления тяжелых хвостов.

6. Каковы недостатки байесовской регрессии?

Процесс вывода модели может занять некоторое время. Байесовская стратегия не имеет смысла, если в нашем наборе данных много данных, а обычный частотный подход выполняет задачу более эффективно.

Введение в байесовскую линейную регрессию

Что такое байесовская линейная регрессия?

Реальное применение байесовской линейной регрессии

Преимущества байесовской регрессии

Недостатки байесовской регрессии