Ковариация и корреляция: вот разница, которую вам следует знать
Ковариация и корреляция — это два противоположных термина, которые оба используются в статистике и регрессионном анализе. Ковариация показывает, как различаются две переменные, тогда как корреляция показывает, как эти две переменные связаны. Здесь, в этом руководстве, вы изучите ковариацию и корреляцию, что поможет вам понять разницу между ковариацией и корреляцией.
Что такое ковариация?
Ковариация — статистический термин, обозначающий систематическую связь между двумя случайными величинами, при которой изменение другой величины отражает изменение одной переменной.
Значение ковариации может находиться в диапазоне от -∞ до +∞, при этом отрицательное значение указывает на отрицательную связь, а положительное значение — на положительную связь.
Чем больше это число, тем надежнее связь. Положительная ковариация обозначает прямую связь и представлена положительным числом.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
С другой стороны, отрицательное число обозначает отрицательную ковариацию, которая указывает на обратную связь между двумя переменными. Ковариация отлично подходит для определения типа связи, но она ужасна для интерпретации величины.
Пусть Σ(X) и Σ(Y) — ожидаемые значения переменных, формулу ковариации можно представить как:
Где,
- xi = значение данных x
- yi = значение данных y
- x̄ = среднее значение x
- ȳ = среднее значение y
- N = количество значений данных.
Типы ковариации
Ковариация может быть как положительной, так и отрицательной. Она подразделяется на два вида на основе этого:
Положительная ковариация
Положительная ковариация между двумя переменными указывает на то, что они движутся в одном направлении. В этом случае переменные ведут себя схожим образом. То есть, если значения одной переменной (больше или меньше) соответствуют значениям другой переменной, говорят, что они находятся в положительной ковариации.
Отрицательная ковариация
Когда две переменные имеют отрицательную ковариацию, переменные смещаются в противоположном направлении. Это обратная сторона положительной ковариации, при которой более высокие значения одной переменной коррелируют с более низкими значениями другой и наоборот.
Применение ковариации
Ниже приведены наиболее распространенные применения ковариации:
- Моделирование систем с несколькими коррелированными переменными выполняется с использованием разложения Холецкого. Ковариационная матрица помогает определить разложение Холецкого, поскольку она является положительно полуопределенной. Матрица разлагается произведением нижней матрицы и ее транспонированной матрицы.
- Для уменьшения размеров больших наборов данных используется анализ главных компонент. Для проведения анализа главных компонент к ковариационной матрице применяется собственное разложение
Что такое ковариационная матрица?
Ковариационная матрица — это квадратная матрица, которая иллюстрирует дисперсию элементов набора данных и ковариацию между двумя наборами данных. Дисперсия — это мера дисперсии, определяемая как разброс данных относительно среднего значения предоставленного набора данных. Ковариация между двумя переменными вычисляется и используется для измерения того, как две переменные колеблются вместе.
Что такое матрица корреляции?
Матрица корреляции может быть определена как матрица с коэффициентами корреляции между различными переменными. Связь между двумя переменными представлена каждой ячейкой в таблице. Матрица корреляции может использоваться для обобщения данных, в качестве входных данных для более продвинутого анализа или в качестве диагностики для дальнейших исследований.
При разработке корреляционной матрицы ключевыми моментами являются использование статистики корреляции, кодирование переменных, обработка отсутствующих данных и представление.
Что такое корреляция?
В статистике корреляция — это мера, которая определяет степень, в которой две или более случайных переменных движутся последовательно. Когда эквивалентное движение другой переменной отвечает движению одной переменной тем или иным образом во время изучения двух переменных, переменные называются коррелированными. Формула для корреляции:
где,
var(X) = стандартное отклонение X
var(Y) = стандартное отклонение Y
Положительная корреляция возникает, когда две переменные движутся в одном направлении. Когда переменные движутся в противоположном направлении, говорят, что они отрицательно коррелируют.
Корреляция бывает трех типов:
- Простая корреляция: В простой корреляции одно число выражает степень связи двух переменных.
- Частичная корреляция: При устранении эффектов одной переменной корреляция между двумя переменными проявляется в виде частичной корреляции.
- Множественная корреляция: Статистический метод, использующий две или более переменных для прогнозирования значения одной переменной.
Методы расчета корреляции
Существует ряд методов расчета коэффициента корреляции. Вот некоторые из наиболее распространенных:
Коэффициент корреляции
Это наиболее распространенный метод определения коэффициента корреляции двух переменных. Он получается путем деления ковариации двух переменных на произведение их стандартных отклонений.
Коэффициент ранговой корреляции
Коэффициент ранговой корреляции измеряет степень сходства между двумя переменными и может использоваться для оценки значимости связи между ними. Он измеряет степень, в которой при увеличении одной переменной уменьшается другая.
где,
ρ = коэффициент рангового отношения
D = разница между парными рангами
N = количество ранжированных элементов
Коэффициент сопутствующих отклонений
Коэффициент сопутствующих отклонений используется, когда вы хотите изучить корреляцию очень поверхностно и нет особой необходимости в достижении точности.
где,
rc = коэффициент сопутствующих отклонений
n = количество пар отклонений
Мы продолжим изучение различий между ковариацией и корреляцией с помощью этих приложений корреляционной матрицы.
Применение корреляции
Корреляционная матрица вычисляется по трем основным причинам:
- Цель при работе с большими объемами данных — найти закономерности. В результате корреляционная матрица используется для поиска закономерности в данных и определения того, являются ли переменные сильно коррелированными.
- Для использования в других анализах. При исключении пропущенных значений попарно корреляционные матрицы обычно используются в качестве входных данных для разведочного факторного анализа, подтверждающего факторного анализа, моделей структурных уравнений и линейной регрессии.
- При проверке других анализов, в качестве диагностики. Например, когда речь идет о линейной регрессии, большое количество корреляций указывает на то, что оценки линейной регрессии будут ненадежными.
Корреляция против ковариации
Теперь вы увидите разницу между ковариацией и корреляцией.
Основа для сравнения | Ковариация | Корреляция |
Определение | Ковариация — это показатель степени зависимости двух случайных величин друг от друга. Большее число означает большую зависимость. | Корреляция — это статистическая мера, показывающая, насколько сильно связаны две переменные. |
Ценности | Значение ковариации лежит в диапазоне от -∞ до +∞. | Корреляция ограничена значениями в диапазоне от -1 до +1. |
Изменение масштаба | Влияет на ковариацию | Не влияет на корреляцию |
Безразмерная мера | Нет | Да |
Сходства: Ковариация против корреляции
Корреляция и ковариация измеряют только линейные отношения между двумя переменными. Это означает, что когда коэффициент корреляции равен нулю, ковариация также равна нулю. Как корреляция, так и ковариация не зависят от изменения местоположения.
Однако когда дело доходит до выбора между ковариацией и корреляцией для измерения взаимосвязи между переменными, корреляция предпочтительнее ковариации, поскольку на нее не влияет изменение масштаба.
Пример на Python
Теперь вычислите и поймите ковариацию и корреляцию в Python. Здесь вы возьмете две переменные X и Y.
Матрица здесь 2X2. Давайте вычислим ковариацию для cov(a,b).
Теперь вычислим корреляцию между (a,b)
Какое отношение ковариация и корреляция имеют к анализу данных?
Ковариация и корреляция значительно помогают понять связь между двумя непрерывными переменными. Ковариация показывает, колеблются ли две переменные в одном и том же направлении (положительная ковариация) или в противоположном (отрицательная ковариация). Числовое значение ковариации не имеет значения; важен только знак. Корреляция, с другой стороны, описывает, как изменение одной переменной приводит к изменению процентного содержания второй переменной. Корреляция колеблется от -1 до +1. Если значение корреляции равно 0, это говорит о том, что между переменными нет линейной связи, но может существовать другая функциональная связь.
Выберите правильную программу
Хотите построить карьеру в захватывающей области науки о данных? Наши курсы по науке о данных разработаны, чтобы предоставить вам навыки и знания, необходимые для достижения успеха в этой быстрорастущей отрасли. Наши опытные инструкторы проведут вас через практические проекты, реальные сценарии и тематические исследования, давая вам практический опыт, необходимый для успеха. С нашими курсами вы научитесь анализировать данные, создавать содержательные отчеты и принимать решения на основе данных, которые могут помочь добиться успеха в бизнесе.
Название программы | DS Магистр | Программа последипломного образования в области науки о данных | Программа последипломного образования в области науки о данных |
Гео | Все Гео | Все Гео | В/РЯД |
Университет | Simplelearn | Пердью | Калтех |
Продолжительность курса | 11 месяцев | 11 месяцев | 11 месяцев |
Требуется опыт кодирования | Базовый | Базовый | Нет |
Навыки, которые вы приобретете | Более 10 навыков, включая структуру данных, обработку данных, NumPy, Scikit-Learn, Tableau и многое другое | 8+ навыков, включая Исследовательский анализ данных, описательная статистика, выводная статистика и многое другое | 8+ навыков, включая Контролируемое и неконтролируемое обучение Глубокое обучение Визуализация данных и многое другое |
Дополнительные преимущества | Прикладное обучение через Capstone и более 25 проектов по науке о данных | Членство в Ассоциации выпускников Пердью Бесплатное членство IIMJobs Pro на 6 месяцев Помощь в составлении резюме | До 14 кредитов CEU Членство в кружке Caltech CTME |
Расходы | $$ | $$$$ | $$$$ |
Программа исследования | Программа исследования | Программа исследования |
Вот что вы можете сделать дальше
Глубокое понимание математических концепций имеет основополагающее значение для построения успешной карьеры в области науки о данных. Это гарантирует, что вы сможете помочь организации быстро решать проблемы, независимо от отрасли, в которой вы работаете. Программа профессиональной сертификации Simplilearn в области науки о данных и магистерская программа Data Scientist в сотрудничестве с IBM помогут вам ускорить вашу карьеру в области науки о данных и вывести ее на новый уровень. Этот курс познакомит вас с интегрированным смешанным обучением ключевым технологиям, включая науку о данных с R, Python, Hadoop, Spark и многими другими. Он также включает в себя реальные отраслевые проекты в различных областях, которые помогут вам освоить концепции науки о данных и больших данных.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)