Ковариация против корреляции: вот разница, которую вы должны знать
Ковариация и корреляция — это два противоположных термина, которые используются как в статистике, так и в регрессионном анализе. Ковариация показывает, чем различаются две переменные, тогда как корреляция показывает, как эти две переменные связаны. Здесь, в этом уроке, вы изучите ковариацию и корреляцию, что поможет вам понять разницу между ковариацией и корреляцией.
Что такое ковариация?
Ковариация — это статистический термин, обозначающий систематическую связь между двумя случайными величинами, в которой изменение другой отражает изменение одной переменной.
Значение ковариации может варьироваться от -∞ до +∞, при этом отрицательное значение указывает на отрицательную связь, а положительное значение указывает на положительную связь.
Чем больше это число, тем более надежными являются отношения. Положительная ковариация обозначает прямую связь и обозначается положительным числом.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
С другой стороны, отрицательное число обозначает отрицательную ковариацию, что указывает на обратную зависимость между двумя переменными. Ковариация отлично подходит для определения типа отношений, но она ужасна для интерпретации величины.
Пусть Σ(X) и Σ(Y) — ожидаемые значения переменных, ковариационную формулу можно представить как:
Где,
- xi = значение данных x
- yi = значение данных y
- x̄ = среднее значение x
- ş = среднее значение y
- N = количество значений данных.
Типы ковариации
Ковариация может быть как положительной, так и отрицательной. В зависимости от этого его подразделяют на два вида:
Положительная ковариация
Положительная ковариация между двумя переменными указывает на то, что они движутся в одном направлении. Переменные в этом случае ведут себя аналогично. То есть, если значения одной переменной (больше или меньше) соответствуют значениям другой переменной, говорят, что они находятся в положительной ковариации.
Отрицательная ковариация
Когда две переменные имеют отрицательную ковариацию, они смещаются в противоположном направлении. Это обратная положительная ковариация, при которой более высокие значения одной переменной коррелируют с более низкими значениями другой и наоборот.
Применение ковариации
Ниже приведены наиболее распространенные применения ковариации:
- Моделирование систем с несколькими коррелирующими переменными осуществляется с использованием разложения Холецкого. Ковариационная матрица помогает определить разложение Холецкого, поскольку она положительно полуопределена. Матрица разлагается на произведение нижней матрицы и ее транспонирование.
- Для уменьшения размеров больших наборов данных используется анализ главных компонент. Для выполнения анализа главных компонент к ковариационной матрице применяется собственное разложение.
Что такое ковариационная матрица?
Матрица ковариации — это квадратная матрица, которая иллюстрирует дисперсию элементов набора данных и ковариацию между двумя наборами данных. Дисперсия — это мера дисперсии, определяемая как разброс данных от среднего значения предоставленного набора данных. Ковариация между двумя переменными рассчитывается и используется для измерения того, как эти две переменные колеблются вместе.
Что такое корреляционная матрица?
Корреляционную матрицу можно определить как матрицу с коэффициентами корреляции между различными переменными. Связь между двумя переменными представлена каждой ячейкой таблицы. Корреляционную матрицу можно использовать для обобщения данных, в качестве входных данных для более сложного анализа или в качестве диагностики для дальнейших исследований.
При разработке корреляционной матрицы ключевые соображения включают использование статистики корреляции, кодирование переменных, обработку недостающих данных и представление.
Что такое корреляция?
В статистике корреляция — это мера, определяющая степень последовательного изменения двух или более случайных величин. Когда эквивалентное движение другой переменной тем или иным образом повторяет возвратно-поступательное движение одной переменной во время изучения двух переменных, переменные называются коррелированными. Формула корреляции:
где,
var(X) = стандартное отклонение X
var(Y) = стандартное отклонение Y
Положительная корреляция возникает, когда две переменные движутся в одном направлении. Когда переменные движутся в противоположном направлении, говорят, что они отрицательно коррелируют.
Корреляция бывает трех типов:
- Простая корреляция: В простой корреляции одно число выражает степень связи двух переменных.
- Частичная корреляция: Когда эффекты одной переменной удаляются, корреляция между двумя переменными проявляется в виде частичной корреляции.
- Множественная корреляция: Статистический метод, использующий две или более переменных для прогнозирования значения одной переменной.
Методы расчета корреляции
Существует несколько методов расчета коэффициента корреляции. Вот некоторые из наиболее распространенных:
Коэффициент корреляции
Это наиболее распространенный метод определения коэффициента корреляции двух переменных. Его получают путем деления ковариации двух переменных на произведение их стандартных отклонений.
Коэффициент ранговой корреляции
Коэффициент ранговой корреляции измеряет степень сходства между двумя переменными и может использоваться для оценки значимости связи между ними. Он измеряет степень, в которой по мере увеличения одной переменной другая уменьшается.
где,
ρ = коэффициент рангового отношения
D = разница между парными рангами
N = количество элементов в рейтинге
Коэффициент одновременных отклонений
Коэффициент параллельных отклонений используется, когда вы хотите изучить корреляцию простым способом и нет особой необходимости в достижении точности.
где,
rc = коэффициент параллельных отклонений
n = количество пар отклонений
Мы продолжим изучение различий между ковариацией и корреляцией с помощью этих применений корреляционной матрицы.
Приложения корреляции
Корреляционная матрица рассчитывается по трем основным причинам:
- Целью работы с большими объемами данных является обнаружение закономерностей. В результате корреляционная матрица используется для поиска закономерностей в данных и определения степени корреляции переменных.
- Для использования в других анализах. При попарном исключении пропущенных значений корреляционные матрицы обычно используются в качестве входных данных для исследовательского факторного анализа, подтверждающего факторного анализа, моделей структурных уравнений и линейной регрессии.
- При проверке других анализов, в качестве диагностики. Например, когда дело доходит до линейной регрессии, большое количество корреляций указывает на то, что оценки линейной регрессии будут ненадежными.
Корреляция против ковариации
Теперь вы увидите разницу между ковариацией и корреляцией.
Основа для сравнения | Ковариация | Корреляция |
Определение | Ковариация — это показатель того, насколько две случайные величины зависят друг от друга. Более высокое число означает более высокую зависимость. | Корреляция — это статистическая мера, которая показывает, насколько сильно связаны две переменные. |
Ценности | Значение ковариации лежит в диапазоне -∞ и +∞. | Корреляция ограничена значениями в диапазоне от -1 до +1. |
Изменение масштаба | Влияет на ковариацию | Не влияет на корреляцию |
Безразмерная мера | Нет | Да |
Сходства: ковариация против корреляции
И корреляция, и ковариация измеряют только линейные отношения между двумя переменными. Это означает, что когда коэффициент корреляции равен нулю, ковариация также равна нулю. Изменение местоположения также не влияет на меры корреляции и ковариации.
Однако когда дело доходит до выбора между ковариацией и корреляцией для измерения взаимосвязи между переменными, корреляция предпочтительнее ковариации, поскольку на нее не влияет изменение масштаба.
Пример на Python
Теперь рассчитайте и поймите ковариацию и корреляцию в Python. Здесь вы возьмете две переменные X и Y.
Матрица здесь 2X2. Давайте посчитаем ковариацию для cov(a,b).
Теперь вычислите корреляцию между (a,b)
Какое отношение ковариация и корреляция имеют к анализу данных?
Ковариация и корреляция очень помогают понять взаимосвязь между двумя непрерывными переменными. Ковариация показывает, колеблются ли две переменные в одном и том же (положительная ковариация) или противоположном направлении (отрицательная ковариация). Числовое значение ковариации не имеет значения; важен только знак. С другой стороны, корреляция описывает, как изменение одной переменной приводит к изменению процентной доли второй переменной. Корреляция находится в диапазоне от -1 до +1. Если значение корреляции равно 0, это говорит о том, что между переменными нет линейной связи, но может существовать другая функциональная связь.
Выберите правильную программу
Хотите построить карьеру в захватывающей области науки о данных? Наши курсы по науке о данных созданы для того, чтобы предоставить вам навыки и знания, необходимые для достижения успеха в этой быстрорастущей отрасли. Наши опытные инструкторы проведут вас через практические проекты, реальные сценарии и тематические исследования, предоставив вам практический опыт, необходимый для достижения успеха. На наших курсах вы научитесь анализировать данные, создавать подробные отчеты и принимать решения на основе данных, которые помогут добиться успеха в бизнесе.
Название программы | степень магистра | Последипломная программа в области науки о данных | Последипломная программа в области науки о данных |
Гео | Все регионы | Все регионы | В/СТРОКА |
Университет | Простое обучение | Пердью | Калтех |
Продолжительность курса | 11 месяцев | 11 месяцев | 11 месяцев |
Требуется опыт кодирования | Базовый | Базовый | Нет |
Навыки, которые вы изучите | Более 10 навыков, включая структуру данных, манипулирование данными, NumPy, Scikit-Learn, Tableau и многое другое. | 8+ навыков, включая Исследовательский анализ данных, описательная статистика, логическая статистика и многое другое. | 8+ навыков, включая Контролируемое и неконтролируемое обучение Глубокое обучение Визуализация данных и многое другое. |
Дополнительные преимущества | Прикладное обучение через Capstone и более 25 проектов по науке о данных | Членство в Ассоциации выпускников Purdue Бесплатное членство IIMJobs Pro на 6 месяцев Возобновить помощь в построении | До 14 кредитов CEU Членство в кружке Caltech CTME |
Расходы | $$ | $$$$ | $$$$ |
Изучите программу | Изучите программу | Изучите программу |
Вот что вы можете сделать дальше
Хорошее понимание математических концепций имеет основополагающее значение для построения успешной карьеры в области науки о данных. Это гарантирует, что вы сможете помочь организации быстро решить проблемы, независимо от отрасли, в которой вы работаете. Программа профессиональных сертификатов Simplilearn в области науки о данных и магистерская программа Data Scientist в сотрудничестве с IBM помогут вам ускорить вашу карьеру в области науки о данных и добиться успеха. на следующий уровень. Этот курс познакомит вас с интегрированным смешанным изучением ключевых технологий, включая науку о данных с R, Python, Hadoop, Spark и многими другими. Он также включает в себя реальные отраслевые проекты в различных областях, которые помогут вам освоить концепции науки о данных и больших данных.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)