Идентификация и влияние на анализ!

Анализ данных включает в себя тщательное изучение наборов данных для получения значимых идей, выявления закономерностей и поддержки принятия решений. Среди различных концепций анализа данных понимание выбросов имеет решающее значение, поскольку они могут существенно влиять на статистические расчеты и общую интерпретацию данных. В этой статье рассматриваются выбросы, методы описания данных, способы выявления выбросов и расчет квартилей в наборах данных с нечетным и четным числом наблюдений.

Определение понятия «выброс»

Выброс — это наблюдение в наборе данных, которое заметно отклоняется от других наблюдений. Это отклонение может быть вызвано изменчивостью данных или может указывать на ошибку или редкое событие. Выбросы могут быть проблематичными, поскольку они могут исказить результаты анализа, что приведет к вводящим в заблуждение выводам. Поэтому выявление и понимание выбросов имеет важное значение для точной интерпретации данных.

Способы описания данных

Эффективное описание данных имеет решающее значение в различных контекстах, от научных исследований до бизнес-аналитики и не только. То, как описываются данные, может влиять на решения, интерпретации и общее понимание их значимости. Вот несколько основных способов всестороннего и точного представления данных:

  1. Контекстуальный фон: Начните с предоставления четкого и краткого фона данных. Объясните, откуда они взялись, их источник, как они были собраны, и любые соответствующие детали о процессе генерации данных. Эта контекстная информация помогает заинтересованным сторонам понять основу данных и их потенциальные ограничения.
  2. Описательная статистика: используйте описательную статистику для обобщения основных характеристик набора данных. Сюда входят такие меры, как среднее значение, медиана, мода, стандартное отклонение, диапазон и процентили. Эти статистики показывают центральную тенденцию данных, дисперсию и распределение.
  3. Визуальное представление: визуально представляйте данные с помощью таких инструментов, как диаграммы, графики и графики. Столбчатые диаграммы, гистограммы, диаграммы рассеяния и круговые диаграммы могут передавать закономерности, тенденции и взаимосвязи в данных, которые могут быть не сразу очевидны из одних лишь числовых описаний.
  4. Распределение данных: Опишите распределение точек данных по различным категориям или интервалам. Понимание того, распределены ли данные обычно, искажены или демонстрируют другие закономерности, имеет решающее значение для принятия обоснованных решений о методах анализа и интерпретациях.
  5. Качество данных: Оцените и опишите качество данных. Это включает такие соображения, как полнота (присутствуют ли все ожидаемые точки данных), точность (насколько близко данные отражают реальность), согласованность (единообразны ли точки данных) и релевантность (насколько хорошо данные соответствуют целям анализа).
  6. Временные тенденции: Если применимо, проанализируйте и опишите временные тенденции в данных. Выделите изменения с течением времени, сезонные колебания или любые другие временные закономерности, которые могут повлиять на интерпретацию результатов.
  7. Корреляции и отношения: исследуйте корреляции и отношения между различными переменными в наборе данных. Используйте коэффициенты корреляции, регрессионный анализ или другие статистические методы для количественной оценки и описания силы и направления отношений между переменными.
  8. Выбросы и аномалии: Определите и опишите любые выбросы или аномалии в данных. Объясните их потенциальное влияние на результаты анализа и процессы принятия решений и рассмотрите, следует ли включать, исключать или исследовать эти выбросы более подробно.
  9. Интерпретация данных: Предоставьте интерпретации и выводы, полученные в результате анализа данных. Объясните значение результатов для исследовательского вопроса или бизнес-проблемы. Предложите рекомендации или действия на основе выводов из данных.
  10. Улучшение визуализации: Улучшите визуализацию данных с помощью соответствующих меток, заголовков, легенд и аннотаций, чтобы сделать визуальное представление понятным и значимым. Убедитесь, что визуальные элементы поддерживают, а не отвлекают от основного сообщения, передаваемого данными.
  11. Ясная коммуникация: Наконец, эффективно доносите описанные данные до целевой аудитории. Используйте понятный, краткий и доступный язык, избегая жаргона или технических терминов, которые могут быть не знакомы всем заинтересованным сторонам.

Определите выброс в наборе данных

Выявление выбросов в наборе данных является важным шагом в анализе данных, поскольку выбросы могут существенно повлиять на результаты и интерпретации статистического анализа. Выбросы — это точки данных, которые заметно отклоняются от других наблюдений в наборе данных. Они могут указывать на изменчивость в измерении, ошибки в сборе данных или новые явления. Вот подробный взгляд на то, как выявлять выбросы в наборе данных:

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

  1. Визуальный осмотр

  • Диаграмма ящиков (диаграмма ящиков и усов): Диаграмма ящиков отображает распределение данных на основе пятичислового резюме: минимум, первый квартиль (Q1), медиана (Q2), третий квартиль (Q3) и максимум. Выбросы обычно отображаются как отдельные точки за пределами усов, которые обычно простираются до 1,5-кратного межквартильного размаха (IQR) от квартилей.
  • Диаграмма рассеяния: Диаграммы рассеяния могут помочь идентифицировать выбросы, отображая отдельные точки данных для двумерных данных. Точки, которые сильно отличаются от общего кластера точек данных, можно считать выбросами.
  • Гистограмма: Гистограмма показывает распределение частот набора данных. Выбросы могут выглядеть как изолированные полосы на крайних концах распределения.
  • Статистические методы

  • Z-оценка: Z-оценка измеряет, сколько стандартных отклонений имеет точка данных от среднего значения. Точки данных с Z-оценкой больше 3 или меньше -3 часто считаются выбросами.
  • Межквартильный размах (IQR): IQR — это диапазон между первым квартилем (Q1) и третьим квартилем (Q3). Выброс определяется как любое значение ниже Q1 – 1,5IQR или выше Q3 + 1,5IQR.
  • Модифицированная Z-оценка: для небольших наборов данных модифицированная Z-оценка, которая использует медиану и медианное абсолютное отклонение (MAD), а не среднее значение и стандартное отклонение, может быть более эффективной.
  • Методы машинного обучения

  • Лес изоляции: этот алгоритм работает путем случайного выбора признака, а затем случайного выбора значения разделения между максимальным и минимальным значениями выбранного признака. Выбросы изолируются быстрее, чем обычные наблюдения.
  • DBSCAN (пространственная кластеризация приложений с шумом на основе плотности): DBSCAN — это метод кластеризации, который определяет точки в регионах с низкой плотностью как выбросы.
  • Автокодировщики: При обнаружении аномалий автокодировщики можно обучить точно восстанавливать нормальные точки данных, тогда как выбросы будут иметь более существенные ошибки восстановления.

Верхний и нижний квартили в равномерном наборе данных

Расчет квартилей в нечетном наборе данных

  1. Упорядочите данные: сначала отсортируйте точки данных в порядке возрастания.
  2. Найдите медиану (Q2):
  • Медиана — это среднее значение для набора данных с нечетным числом точек данных.
  • Если набор данных содержит nnn точек данных, медиана равна (n+1)/2(n+1)/2(n+1)/2-му значению.
  • Определите первый квартиль (Q1):
  • Q1 — медиана нижней половины набора данных, исключая общую медиану.
  • Для нечетного числа точек данных нижняя половина включает все точки данных ниже общей медианы.
  • Найдите медиану этой нижней половины, чтобы получить Q1.
  • Определите третий квартиль (Q3):
  • Q3 — это медиана верхней половины набора данных, за исключением общей медианы.
  • Для нечетного числа точек данных верхняя половина включает все точки данных выше общей медианы.
  • Найдите медиану этой верхней половины, чтобы получить Q3.

Пример

Рассмотрим набор данных с 9 точками данных: 3,7,8,12,13,14,18,21,223, 7, 8, 12, 13, 14, 18, 21, 223,7,8,12,13,14,18,21,22

Пошаговый расчет

  1. Сортировка данных (уже отсортированных в этом примере): 3,7,8,12,13,14,18,21,223, 7, 8, 12, 13, 14, 18, 21, 223,7,8,12,13,14,18,21,22
  2. Найдите медиану (Q2):
  • Имеется 9 точек данных, поэтому n=9n = 9n=9.
  • Медиана — это (9+1)/2=5(9+1)/2 = 5(9+1)/2=5-е значение.
  • Медиана (Q2) = 13.
  • Определите нижнюю половину:
  • Нижняя половина включает: 3,7,8,123, 7, 8, 123,7,8,12
  • Количество точек данных в нижней половине = 4.
  • Найдите первый квартиль (Q1):

Медиана нижней половины:

  • Имеется 4 точки данных.
  • Медиана нижней половины представляет собой среднее значение 2-го и 3-го значений.
  • Q1 = (7 + 8) / 2 = 7,5.
  1. Определите верхнюю половину:
  • Верхняя половина включает: 14,18,21,2214, 18, 21, 2214,18,21,22
  • Количество точек данных в верхней половине = 4.
  • Найдите третий квартиль (Q3):

Медиана верхней половины:

  • Имеется 4 точки данных.
  • Медиана верхней половины представляет собой среднее значение 2-го и 3-го значений.
  • Q3 = (18 + 21) / 2 = 19.5.

Сводка квартилей для примера набора данных

  • Первый квартиль (Q1): 7,5
  • Медиана (Q2): 13
  • Третий квартиль (Q3): 19,5

Запишитесь на программу последипломного образования по аналитике данных, чтобы освоить более десятка инструментов и навыков анализа данных, а также получить доступ к мастер-классам преподавателей Университета Пердью и экспертов IBM, эксклюзивным хакатонам и сессиям Ask Me Anything от IBM.

Верхний и нижний квартили в равномерном наборе данных

Расчет квартилей в равномерном наборе данных

  1. Упорядочите данные: отсортируйте точки данных в порядке возрастания.
  2. Найдите медиану (Q2):
  • Медиана — это среднее арифметическое двух средних значений для набора данных с четным числом точек данных.
  • Если набор данных содержит nnn точек данных, медиана представляет собой среднее значение n/2n/2n/2-го и (n/2)+1(n/2) + 1(n/2)+1-го значений.
  • Определите первый квартиль (Q1):
  • Q1 — это медиана нижней половины набора данных, включая общую медиану, если набор данных четный.
  • Для четного числа точек данных нижняя половина включает все точки данных ниже медианы.
  • Определите третий квартиль (Q3):
  • Q3 — медиана верхней половины набора данных, включая общую медиану, если набор данных четный.
  • Для четного числа точек данных верхняя половина включает все точки данных выше медианы.

Пример

Рассмотрим набор данных с 10 точками данных: 2,4,5,7,10,12,14,18,21,232, 4, 5, 7, 10, 12, 14, 18, 21, 232,4,5,7,10,12,14,18,21,23

Пошаговый расчет

  1. Сортировать данные (уже отсортированные в этом примере): 2,4,5,7,10,12,14,18,21,232, 4, 5, 7, 10, 12, 14, 18, 21, 232,4,5,7,10,12,14,18,21,23
  2. Найдите медиану (Q2):
  • Имеется 10 точек данных, поэтому n=10n = 10n=10.
  • Медиана — это среднее значение 5-го и 6-го значений.
  • Медиана (Q2) = (10 + 12) / 2 = 11.
  • Определите нижнюю половину:
  • Нижняя половина включает: 2,4,5,7,102, 4, 5, 7, 102,4,5,7,10
  • Найдите первый квартиль (Q1):
  • Медиана нижней половины:
    • Имеется 5 точек данных.
    • Медиана нижней половины — это третье значение.
    • В1 = 5.
  • Определите верхнюю половину:
  • Верхняя половина включает: 12,14,18,21,2312, 14, 18, 21, 2312,14,18,21,23
  • Найдите третий квартиль (Q3):
  • Медиана верхней половины:
    • Имеется 5 точек данных.
    • Медиана верхней половины — это третье значение.
    • Q3 = 18.

Сводка квартилей для примера набора данных

  • Первый квартиль (Q1): 5
  • Медиана (Q2): 11
  • Третий квартиль (Q3): 18

Примеры отклонений

Выбросы — это точки данных, которые значительно отклоняются от других наблюдений в наборе данных. Они могут быть результатом ошибок измерения, ошибок ввода данных или фактической изменчивости данных.

Пример 1: данные о температуре

Рассмотрим показания температуры за неделю в градусах Цельсия: 22,23,21,24,30,22,23,4522, 23, 21, 24, 30, 22, 23, 4522,23,21,24,30,22,23,45

В этом наборе данных значение 45°C является выбросом, поскольку оно намного выше других показаний температуры.

Пример 2: баллы за экзамен

Рассмотрим результаты экзаменов студентов из 100: 55,60,62,65,70,75,80,85,90,92,95,3055, 60, 62, 65, 70, 75, 80, 85, 90, 92, 95, 3055,60,62,65,70,75,80,85,90,92,95,30

В этом наборе данных значение 30 является выбросом, поскольку оно значительно ниже других оценок.

Пример 3: Данные о зарплате

Рассмотрим годовые зарплаты сотрудников компании (в тысячах долларов): 50,52,53,54,55,56,60,20050, 52, 53, 54, 55, 56, 60, 20050,52,53,54,55,56,60,200

В этом наборе данных значение 200 является выбросом, поскольку оно намного выше других зарплат.

Заключение

Понимание и вычисление квартилей, как в нечетных, так и в четных наборах данных, необходимо для обобщения и анализа распределений данных. Квартили предоставляют способ измерения разброса и центральной тенденции данных. Выявление выбросов имеет решающее значение, поскольку они могут существенно повлиять на статистический анализ и интерпретацию. Для обнаружения выбросов можно использовать различные методы, включая визуальный осмотр, статистические методы и алгоритмы машинного обучения. Правильная обработка выбросов обеспечивает точность и надежность анализа данных, что приводит к более надежным и содержательным выводам. Регистрация на Программу профессиональной сертификации по аналитике данных и генеративному ИИ может снабдить людей навыками, необходимыми для освоения этих методов и их эффективного применения в реальных сценариях.

Часто задаваемые вопросы

1. Можно ли выявить выбросы в текстовых данных?

Выбросы могут быть выявлены в текстовых данных путем анализа необычных шаблонов, частот или аномалий в использовании слов и контексте. Такие методы, как обработка естественного языка (NLP) и интеллектуальный анализ текста, обнаруживают эти выбросы, которые могут указывать на ошибки, уникальные события или нетипичное содержание в тексте.

2. Как можно обрабатывать выбросы в приложениях обработки изображений?

При обработке изображений выбросы можно обрабатывать с помощью алгоритмов фильтрации, пороговой обработки и обнаружения аномалий. Эти методы помогают удалить шум, улучшить качество изображения и выявить необычные закономерности или дефекты, которые могут указывать на ошибки или существенные особенности изображения.

3. Могут ли выбросы дать ценную информацию о необычных событиях?

Да, выбросы могут предоставить ценную информацию о необычных событиях или редких случаях, которые отклоняются от нормы. Анализируя эти аномалии, организации могут обнаружить мошенничество, определить уникальные возможности или раскрыть основные проблемы, требующие внимания, что приводит к более обоснованному принятию решений.

4. Могут ли выбросы быть субъективными в зависимости от контекста анализа?

Выбросы действительно могут быть субъективными в зависимости от контекста анализа, поскольку то, что считается выбросом в одном сценарии, может быть ожидаемым в другом. Определение выброса зависит от конкретных целей, распределения данных и знаний, специфичных для предметной области, что делает контекстное понимание решающим для точного обнаружения выбросов.

5. Как выбросы влияют на надежность статистического анализа?

Выбросы могут существенно повлиять на надежность статистического анализа, искажая результаты, влияя на показатели центральной тенденции и раздувая дисперсию. Если их не учитывать должным образом, они могут привести к вводящим в заблуждение выводам, что делает необходимым выявление и устранение выбросов для обеспечения точных и надежных результатов анализа.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *