Что такое простая линейная регрессия в машинном обучении?

Регрессия — это инструмент, который позволяет оценить, как изменяется зависимая переменная по мере изменения независимой переменной (переменных).

Модели регрессии описывают взаимосвязь между переменными путем подгонки линии к наблюдаемым данным. В моделях линейной регрессии используется прямая линия, а в моделях логистической и нелинейной регрессии — изогнутая линия.

Регрессионные модели можно использовать для многих целей:

  • Оценка влияния независимой переменной на зависимую переменную.
  • Прогнозирование будущих значений зависимой переменной на основе предыдущих наблюдений обеих переменных.

Что такое простая линейная регрессия?

Простая линейная регрессия — это статистический метод установления связи между двумя переменными с помощью прямой линии. Линия рисуется путем нахождения наклона и точки пересечения, которые определяют линию и минимизируют ошибки регрессии.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Самая простая форма простой линейной регрессии имеет только одну переменную x и одну переменную y. Переменная x является независимой переменной, поскольку она не зависит от того, что вы пытаетесь предсказать зависимой переменной. Переменная y является зависимой переменной, поскольку она зависит от того, что вы пытаетесь предсказать.

y = β0 +β1x+ε — формула, используемая для простой линейной регрессии.

  • y — прогнозируемое значение зависимой переменной (y) для любого заданного значения независимой переменной (x).
  • B0 — это точка пересечения, предсказанное значение y, когда x равен 0.
  • B1 — коэффициент регрессии — насколько мы ожидаем, что y изменится с увеличением x.
  • x — независимая переменная (переменная, которую мы ожидаем, влияет на y).
  • e — это ошибка оценки, или насколько сильно варьируется наша оценка коэффициента регрессии.

Простая линейная регрессия устанавливает линию, соответствующую вашим данным, но не гарантирует, что линия достаточно хороша. Например, если ваши точки данных имеют восходящий тренд и находятся очень далеко друг от друга, то простая линейная регрессия даст вам нисходящую линию, которая не будет соответствовать вашим данным.

Простая линейная регрессия против множественной линейной регрессии

При прогнозировании результата сложного процесса лучше всего использовать множественную линейную регрессию вместо простой линейной регрессии. Но не обязательно использовать сложные алгоритмы для решения простых задач.

Простая линейная регрессия может точно отразить взаимосвязь между двумя переменными в простых отношениях. Но когда вы имеете дело с более сложными взаимодействиями, требующими большего обдумывания, вам необходимо переключиться с простой регрессии на множественную.

Модель множественной регрессии использует более одной независимой переменной. Оно не страдает теми же ограничениями, что и простое уравнение регрессии, и, таким образом, может соответствовать кривым и нелинейным отношениям.

Реализация простого алгоритма линейной регрессии с использованием Python

импортировать numpy как np

импортировать matplotlib.pyplot как plt

Защиту Assessment_coef (х, у):

# количество наблюдений/точек

n = np.size(x)

# среднее значение вектора x и y

m_x = np.mean(x)

m_y = np.mean(y)

# вычисление перекрестного отклонения и отклонения относительно x

SS_xy = np.sum(y*x) – n*m_y*m_x

SS_xx = np.sum(x*x) – n*m_x*m_x

# расчет коэффициентов регрессии

b_1 = СС_xy/SS_xx

b_0 = m_y – b_1*m_x

возврат (b_0, b_1)

Защитуplot_reгрессия_line (x, y, b):

# построение фактических точек в виде точечной диаграммы

plt.scatter(x, y, color = “m”,

mark=”о”, s=30)

# прогнозируемый вектор ответа

y_pred = b(0) + b(1)*x

# построение линии регрессии

plt.plot(x, y_pred, цвет = “g”)

# ставим метки

plt.xlabel('x')

plt.ylabel('y')

# функция для отображения сюжета

plt.show()

защита основной():

# наблюдений/данных

x = np.array((0, 1, 2, 3, 4, 5, 6, 7, 8, 9))

y = np.array((1, 3, 2, 5, 7, 8, 8, 9, 10, 12))

# оценочные коэффициенты

б = оценочный_коэф (х, у)

print(“Оценочные коэффициенты:\nb_0 = {} \

\nb_1 = {}”.format(b(0), b(1)))

# построение линии регрессии

сюжет_регрессия_линия (х, у, б)

если __name__ == “__main__”:

основной()

Предположения простой линейной регрессии

Линейность

Связь между x и y должна быть линейной. Это означает, что с увеличением одного значения соответственно увеличивается и другое. Диаграмма рассеяния должна показать эту линейность.

Независимость от ошибок

Очень важно проверить, не зависят ли ваши данные от ошибок. Если между остатками и переменной существует связь, это может вызвать проблемы с вашей моделью. Чтобы проверить независимость ошибок, изучите диаграмму рассеяния «остатков и подгонок»; это не должно выглядеть так, будто есть связь.

Нормальное распределение

Также важно проверить, нормально ли распределяются ваши данные. Для этого изучите гистограмму остатков; оно должно быть примерно нормально распределено. Гистограмма также должна показывать, что большинство ваших наблюдений близки к 0 или 1 (максимальные/минимальные значения). Это поможет вам убедиться в точности и надежности вашей модели.

Дисперсия Равенство

Наконец, важно проверить, имеют ли ваши данные равные дисперсии. Для этого изучите диаграмму рассеяния и найдите любые выбросы или точки, которые кажутся далекими друг от друга и конфликтуют (вы также можете использовать статистическое программное обеспечение, такое как Minitab или Excel). Если есть выбросы или точки с высокой дисперсией по сравнению с другими.

Наши ученики также задали вопрос

1. Что такое простая линейная регрессия и когда мы ее используем?

Простая линейная регрессия — это статистический метод, который можно использовать для оценки взаимосвязи между двумя количественными переменными. Чаще всего его используют в ситуациях, когда между ними существует линейная зависимость.

Простая линейная регрессия может хорошо отразить эту взаимосвязь, если она проста и ясна. Тем не менее, это может оказаться невозможным, если данные зашумлены или их трудно интерпретировать по другим причинам.

2. В чем разница между простой регрессией и простой линейной регрессией?

Регрессия — это инструмент, который позволяет оценить, как изменяется зависимая переменная по мере изменения независимой переменной (переменных).

Модели регрессии описывают взаимосвязь между переменными путем подгонки линии к наблюдаемым данным. В моделях линейной регрессии используется прямая линия, а в моделях логистической и нелинейной регрессии — изогнутая линия.

Простая модель линейной регрессии предполагает, что существует только одна независимая переменная. Основная форма этой модели: y = β0 +β1x+ε.

3. Каковы этапы простой линейной регрессии?

В мире статистики линейный регрессионный анализ является основным продуктом. Но то, что вы знаете, как это сделать, не означает, что вы понимаете, о чем идет речь.

Линейный регрессионный анализ предполагает нечто большее, чем просто сопоставление линейной линии с облаком точек данных. Он состоит из 3 этапов:

  1. Анализ корреляции и направленности данных.
  2. Оценка модели, т.е. подгонка линии.
  3. Оценка достоверности и полезности модели.

Если вы проводите статистический анализ, эти три этапа жизненно важны для понимания того, что вы делаете и почему это важно!

4. Что такое, например, простая линейная регрессия?

Используя прямую линию, простая линейная регрессия устанавливает связь между двумя переменными – зависимой и независимой.

Независимые и зависимые переменные — это термины, используемые для описания взаимосвязи между двумя или более переменными.

Одна переменная называется независимой переменной, и ее значение определяет значение другой переменной. Другая переменная называется зависимой переменной, и ее значение зависит от значения другой переменной.

Например, если вы хотите узнать, какой будет зарплата человека на основе его опыта работы в этой компании, то опыт будет независимой переменной, а компенсация — зависимой переменной.

5. Каковы предположения простой линейной регрессии?

Простая линейная регрессия — это параметрический тест, который делает определенные предположения о данных. Эти предположения таковы:

  1. Гомоскедастичность: дисперсия каждого наблюдения должна быть постоянной во всем диапазоне значений x.
  2. Независимость наблюдений. Распределение вероятностей для каждого наблюдения должно быть независимым от всех наблюдений в выборке.
  3. Нормальность: распределение остатков должно быть примерно нормальным при построении графика относительно их стандартных ошибок.
  4. Связь между независимыми и зависимыми переменными линейна.

Выберите правильную программу

Освойте будущее технологий с помощью курсов Simplilearn по искусственному интеллекту и машинному обучению. Откройте для себя возможности искусственного интеллекта и машинного обучения и приобретите навыки, необходимые для достижения успеха в отрасли. Выберите подходящую программу и раскройте свой потенциал уже сегодня. Зарегистрируйтесь сейчас и проложите свой путь к успеху!

Название программы

Инженер по искусственному интеллекту

Последипломная программа в области искусственного интеллекта

Последипломная программа в области искусственного интеллекта

ГеоВсе регионыВсе регионыВ/СТРОКА
УниверситетПростое обучениеПердьюКалтех
Длительность курса11 месяцев11 месяцев11 месяцев
Требуется опыт кодированияБазовыйБазовыйНет
Навыки, которые вы изучитеБолее 10 навыков, включая структуру данных, манипулирование данными, NumPy, Scikit-Learn, Tableau и многое другое.16+ навыков, включая
чат-боты, НЛП, Python, Keras и многое другое.
8+ навыков, включая
Контролируемое и неконтролируемое обучение
Глубокое обучение
Визуализация данных и многое другое.
Дополнительные преимуществаПолучите доступ к эксклюзивным хакатонам, мастер-классам и сеансам «Спроси меня о чем-нибудь» от IBM
Прикладное обучение посредством 3 основных и 12 отраслевых проектов.
Членство в Ассоциации выпускников Purdue Бесплатное членство в IIMJobs на 6 месяцев Помощь в составлении резюмеДо 14 кредитов CEU Членство в кружке Caltech CTME
Расходы$$$$$$$$$$
Изучите программуИзучите программуИзучите программу

Заключение

Простая линейная регрессия — это подход к прогнозированию ответа с использованием одного признака. Это базовый метод, который можно использовать для анализа данных из широкого спектра областей.

Вы можете сделать это с помощью нашей интенсивной программы последипломного образования Калифорнийского технологического института в области искусственного интеллекта и машинного обучения. Эта программа включает в себя живые занятия с участием внешних экспертов, лабораторий и бизнес-проектов.

Программа предназначена для профессионалов, которые хотят узнать об искусственном интеллекте, машинном обучении и технологиях глубокого обучения. Этот курс подходит как новичкам, так и опытным специалистам, желающим улучшить свои навыки в данных областях.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *