Ковариация против корреляции: вот разница, которую вы должны знать

Ковариация и корреляция — это два противоположных термина, которые используются как в статистике, так и в регрессионном анализе. Ковариация показывает, чем различаются две переменные, тогда как корреляция показывает, как эти две переменные связаны. Здесь, в этом уроке, вы изучите ковариацию и корреляцию, что поможет вам понять разницу между ковариацией и корреляцией.

Что такое ковариация?

Ковариация — это статистический термин, обозначающий систематическую связь между двумя случайными величинами, в которой изменение другой отражает изменение одной переменной.

Значение ковариации может варьироваться от -∞ до +∞, при этом отрицательное значение указывает на отрицательную связь, а положительное значение указывает на положительную связь.

Чем больше это число, тем более надежными являются отношения. Положительная ковариация обозначает прямую связь и обозначается положительным числом.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

С другой стороны, отрицательное число обозначает отрицательную ковариацию, что указывает на обратную зависимость между двумя переменными. Ковариация отлично подходит для определения типа отношений, но она ужасна для интерпретации величины.

Пусть Σ(X) и Σ(Y) — ожидаемые значения переменных, ковариационную формулу можно представить как:

коронавирус-1

Где,

  • xi = значение данных x
  • yi = значение данных y
  • x̄ = среднее значение x
  • ş = среднее значение y
  • N = количество значений данных.

Типы ковариации

Ковариация может быть как положительной, так и отрицательной. В зависимости от этого его подразделяют на два вида:

Положительная ковариация

Положительная ковариация между двумя переменными указывает на то, что они движутся в одном направлении. Переменные в этом случае ведут себя аналогично. То есть, если значения одной переменной (больше или меньше) соответствуют значениям другой переменной, говорят, что они находятся в положительной ковариации.

Отрицательная ковариация

Когда две переменные имеют отрицательную ковариацию, они смещаются в противоположном направлении. Это обратная положительная ковариация, при которой более высокие значения одной переменной коррелируют с более низкими значениями другой и наоборот.

Применение ковариации

Ниже приведены наиболее распространенные применения ковариации:

  • Моделирование систем с несколькими коррелирующими переменными осуществляется с использованием разложения Холецкого. Ковариационная матрица помогает определить разложение Холецкого, поскольку она положительно полуопределена. Матрица разлагается на произведение нижней матрицы и ее транспонирование.
  • Для уменьшения размеров больших наборов данных используется анализ главных компонент. Для выполнения анализа главных компонент к ковариационной матрице применяется собственное разложение.

Что такое ковариационная матрица?

Матрица ковариации — это квадратная матрица, которая иллюстрирует дисперсию элементов набора данных и ковариацию между двумя наборами данных. Дисперсия — это мера дисперсии, определяемая как разброс данных от среднего значения предоставленного набора данных. Ковариация между двумя переменными рассчитывается и используется для измерения того, как эти две переменные колеблются вместе.

Что такое корреляционная матрица?

Корреляционную матрицу можно определить как матрицу с коэффициентами корреляции между различными переменными. Связь между двумя переменными представлена ​​каждой ячейкой таблицы. Корреляционную матрицу можно использовать для обобщения данных, в качестве входных данных для более сложного анализа или в качестве диагностики для дальнейших исследований.

При разработке корреляционной матрицы ключевые соображения включают использование статистики корреляции, кодирование переменных, обработку недостающих данных и представление.

Что такое корреляция?

В статистике корреляция — это мера, определяющая степень последовательного изменения двух или более случайных величин. Когда эквивалентное движение другой переменной тем или иным образом повторяет возвратно-поступательное движение одной переменной во время изучения двух переменных, переменные называются коррелированными. Формула корреляции:

cov-2.

где,

var(X) = стандартное отклонение X

var(Y) = стандартное отклонение Y

Положительная корреляция возникает, когда две переменные движутся в одном направлении. Когда переменные движутся в противоположном направлении, говорят, что они отрицательно коррелируют.

Корреляция бывает трех типов:

  1. Простая корреляция: В простой корреляции одно число выражает степень связи двух переменных.
  2. Частичная корреляция: Когда эффекты одной переменной удаляются, корреляция между двумя переменными проявляется в виде частичной корреляции.
  3. Множественная корреляция: Статистический метод, использующий две или более переменных для прогнозирования значения одной переменной.

Методы расчета корреляции

Существует несколько методов расчета коэффициента корреляции. Вот некоторые из наиболее распространенных:

Коэффициент корреляции

Это наиболее распространенный метод определения коэффициента корреляции двух переменных. Его получают путем деления ковариации двух переменных на произведение их стандартных отклонений.

Ков-Кор

Коэффициент ранговой корреляции

Коэффициент ранговой корреляции измеряет степень сходства между двумя переменными и может использоваться для оценки значимости связи между ними. Он измеряет степень, в которой по мере увеличения одной переменной другая уменьшается.

классифицировать

где,

ρ = коэффициент рангового отношения

D = разница между парными рангами

N = количество элементов в рейтинге

Коэффициент одновременных отклонений

Коэффициент параллельных отклонений используется, когда вы хотите изучить корреляцию простым способом и нет особой необходимости в достижении точности.

одновременно.

где,

rc = коэффициент параллельных отклонений

n = количество пар отклонений

Мы продолжим изучение различий между ковариацией и корреляцией с помощью этих применений корреляционной матрицы.

Приложения корреляции

Корреляционная матрица рассчитывается по трем основным причинам:

  • Целью работы с большими объемами данных является обнаружение закономерностей. В результате корреляционная матрица используется для поиска закономерностей в данных и определения степени корреляции переменных.
  • Для использования в других анализах. При попарном исключении пропущенных значений корреляционные матрицы обычно используются в качестве входных данных для исследовательского факторного анализа, подтверждающего факторного анализа, моделей структурных уравнений и линейной регрессии.
  • При проверке других анализов, в качестве диагностики. Например, когда дело доходит до линейной регрессии, большое количество корреляций указывает на то, что оценки линейной регрессии будут ненадежными.

Корреляция против ковариации

Теперь вы увидите разницу между ковариацией и корреляцией.

Основа для сравнения

Ковариация

Корреляция

Определение

Ковариация — это показатель того, насколько две случайные величины зависят друг от друга. Более высокое число означает более высокую зависимость.

Корреляция — это статистическая мера, которая показывает, насколько сильно связаны две переменные.

Ценности

Значение ковариации лежит в диапазоне -∞ и +∞.

Корреляция ограничена значениями в диапазоне от -1 до +1.

Изменение масштаба

Влияет на ковариацию

Не влияет на корреляцию

Безразмерная мера

Нет

Да

Сходства: ковариация против корреляции

И корреляция, и ковариация измеряют только линейные отношения между двумя переменными. Это означает, что когда коэффициент корреляции равен нулю, ковариация также равна нулю. Изменение местоположения также не влияет на меры корреляции и ковариации.

Однако когда дело доходит до выбора между ковариацией и корреляцией для измерения взаимосвязи между переменными, корреляция предпочтительнее ковариации, поскольку на нее не влияет изменение масштаба.

Пример на Python

Теперь рассчитайте и поймите ковариацию и корреляцию в Python. Здесь вы возьмете две переменные X и Y.

cov4

Матрица здесь 2X2. Давайте посчитаем ковариацию для cov(a,b).

5.

Теперь вычислите корреляцию между (a,b)

6

Какое отношение ковариация и корреляция имеют к анализу данных?

Ковариация и корреляция очень помогают понять взаимосвязь между двумя непрерывными переменными. Ковариация показывает, колеблются ли две переменные в одном и том же (положительная ковариация) или противоположном направлении (отрицательная ковариация). Числовое значение ковариации не имеет значения; важен только знак. С другой стороны, корреляция описывает, как изменение одной переменной приводит к изменению процентной доли второй переменной. Корреляция находится в диапазоне от -1 до +1. Если значение корреляции равно 0, это говорит о том, что между переменными нет линейной связи, но может существовать другая функциональная связь.

Выберите правильную программу

Хотите построить карьеру в захватывающей области науки о данных? Наши курсы по науке о данных созданы для того, чтобы предоставить вам навыки и знания, необходимые для достижения успеха в этой быстрорастущей отрасли. Наши опытные инструкторы проведут вас через практические проекты, реальные сценарии и тематические исследования, предоставив вам практический опыт, необходимый для достижения успеха. На наших курсах вы научитесь анализировать данные, создавать подробные отчеты и принимать решения на основе данных, которые помогут добиться успеха в бизнесе.

Название программыстепень магистраПоследипломная программа в области науки о данныхПоследипломная программа в области науки о данных
ГеоВсе регионыВсе регионыВ/СТРОКА
УниверситетПростое обучениеПердьюКалтех
Продолжительность курса11 месяцев11 месяцев11 месяцев
Требуется опыт кодированияБазовыйБазовыйНет
Навыки, которые вы изучитеБолее 10 навыков, включая структуру данных, манипулирование данными, NumPy, Scikit-Learn, Tableau и многое другое.8+ навыков, включая
Исследовательский анализ данных, описательная статистика, логическая статистика и многое другое.
8+ навыков, включая
Контролируемое и неконтролируемое обучение
Глубокое обучение
Визуализация данных и многое другое.
Дополнительные преимуществаПрикладное обучение через Capstone и более 25 проектов по науке о данныхЧленство в Ассоциации выпускников Purdue
Бесплатное членство IIMJobs Pro на 6 месяцев
Возобновить помощь в построении
До 14 кредитов CEU Членство в кружке Caltech CTME
Расходы$$$$$$$$$$
Изучите программуИзучите программуИзучите программу

Вот что вы можете сделать дальше

Хорошее понимание математических концепций имеет основополагающее значение для построения успешной карьеры в области науки о данных. Это гарантирует, что вы сможете помочь организации быстро решить проблемы, независимо от отрасли, в которой вы работаете. Программа профессиональных сертификатов Simplilearn в области науки о данных и магистерская программа Data Scientist в сотрудничестве с IBM помогут вам ускорить вашу карьеру в области науки о данных и добиться успеха. на следующий уровень. Этот курс познакомит вас с интегрированным смешанным изучением ключевых технологий, включая науку о данных с R, Python, Hadoop, Spark и многими другими. Он также включает в себя реальные отраслевые проекты в различных областях, которые помогут вам освоить концепции науки о данных и больших данных.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *