Идентификация и влияние на анализ!
Анализ данных включает в себя тщательное изучение наборов данных для получения значимой информации, выявления закономерностей и поддержки принятия решений. Среди различных концепций анализа данных понимание выбросов имеет решающее значение, поскольку они могут существенно повлиять на статистические расчеты и общую интерпретацию данных. В этой статье рассматриваются выбросы, методы описания данных, способы выявления выбросов и расчет квартилей в наборах данных с нечетным и четным количеством наблюдений.
Определение выброса
Выброс — это наблюдение в наборе данных, которое заметно отличается от других наблюдений. Это отклонение может быть связано с изменчивостью данных или указывать на ошибку или редкое событие. Выбросы могут быть проблематичными, поскольку они могут исказить результаты анализа, что приведет к ошибочным выводам. Таким образом, выявление и понимание выбросов имеет важное значение для точной интерпретации данных.
Способы описания данных
Эффективное описание данных имеет решающее значение в различных контекстах: от научных исследований до бизнес-аналитики и за ее пределами. То, как описываются данные, может влиять на решения, интерпретации и общее понимание их значимости. Вот несколько ключевых способов комплексного и точного представления данных:
- Контекстуальная информация. Начните с предоставления четкой и краткой информации. Объясните, откуда они берутся, их источник, как они были собраны, а также любые соответствующие подробности о процессе создания данных. Эта контекстная информация помогает заинтересованным сторонам понять основу данных и их потенциальные ограничения.
- Описательная статистика. Используйте описательную статистику для обобщения основных характеристик набора данных. Сюда входят такие меры, как среднее значение, медиана, мода, стандартное отклонение, диапазон и процентили. Эти статистические данные показывают основную тенденцию, разброс и распределение данных.
- Визуальное представление. Представляйте данные визуально с помощью таких инструментов, как диаграммы, графики и графики. Гистограммы, гистограммы, диаграммы рассеяния и круговые диаграммы могут отображать закономерности, тенденции и взаимосвязи в данных, которые могут быть не сразу очевидны из одних только числовых описаний.
- Распределение данных: опишите распределение точек данных по различным категориям или интервалам. Понимание того, распределены ли данные, искажены или демонстрируют другие закономерности, имеет решающее значение для принятия обоснованных решений о методах анализа и интерпретации.
- Качество данных: оцените и опишите качество данных. Сюда входят такие соображения, как полнота (присутствуют ли все ожидаемые точки данных), точность (насколько близко данные отражают реальность), последовательность (единообразно ли отформатированы точки данных) и актуальность (насколько хорошо данные соответствуют целям анализа).
- Временные тенденции: если применимо, проанализируйте и опишите временные тенденции в данных. Выделите изменения с течением времени, сезонные колебания или любые другие временные закономерности, которые могут повлиять на интерпретацию результатов.
- Корреляции и взаимосвязи. Изучите корреляции и взаимосвязи между различными переменными в наборе данных. Используйте коэффициенты корреляции, регрессионный анализ или другие статистические методы для количественной оценки и описания силы и направления связей между переменными.
- Выбросы и аномалии. Определите и опишите любые выбросы или аномалии в данных. Объясните их потенциальное влияние на результаты анализа и процессы принятия решений и подумайте, следует ли включать, исключать или исследовать эти выбросы.
- Интерпретация данных: предоставьте интерпретации и идеи, полученные в результате анализа данных. Объясните значение результатов исследования для рассматриваемого вопроса исследования или бизнес-задачи. Предлагайте рекомендации или действия на основе анализа данных.
- Улучшение визуализации. Улучшите визуализацию данных с помощью соответствующих меток, заголовков, легенд и аннотаций, чтобы сделать визуальное представление ясным и содержательным. Убедитесь, что визуальные элементы поддерживают, а не отвлекают от основного сообщения, передаваемого данными.
- Четкая коммуникация: Наконец, эффективно сообщите описанные данные целевой аудитории. Используйте ясный, краткий и доступный язык, избегая жаргона и технических терминов, которые могут быть знакомы не всем заинтересованным сторонам.
Определите выброс в наборе данных
Выявление выбросов в наборе данных является важным шагом в анализе данных, поскольку выбросы могут существенно повлиять на результаты и интерпретацию статистического анализа. Выбросы — это точки данных, которые заметно отличаются от других наблюдений в наборе данных. Они могут указывать на изменчивость измерений, ошибки в сборе данных или новые явления. Вот подробный взгляд на то, как идентифицировать выбросы в наборе данных:
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Визуальный осмотр
- Ящичная диаграмма (ящик с усами): Ящиковая диаграмма отображает распределение данных на основе пятизначной сводки: минимум, первый квартиль (Q1), медиана (Q2), третий квартиль (Q3) и максимум. Выбросы обычно наносятся в виде отдельных точек за пределами «усов», которые обычно простираются до 1,5-кратного межквартильного диапазона (IQR) от квартилей.
- Точечная диаграмма. Точечная диаграмма может помочь выявить выбросы, отображая отдельные точки данных для двумерных данных. Точки, которые находятся далеко от общего кластера точек данных, можно считать выбросами.
- Гистограмма: гистограмма показывает частотное распределение набора данных. Выбросы могут выглядеть как отдельные столбцы на крайних концах распределения.
Статистические методы
- Z-показатель: Z-показатель измеряет, на сколько стандартных отклонений точка данных отличается от среднего значения. Точки данных с Z-показателем больше 3 или меньше -3 часто считаются выбросами.
- Межквартильный размах (IQR): IQR — это диапазон между первым квартилем (Q1) и третьим квартилем (Q3). Выбросом считается любое значение ниже Q1 – 1,5IQR или выше Q3 + 1,5IQR.
- Модифицированный Z-показатель: для небольших наборов данных более эффективным может быть модифицированный Z-показатель, в котором используются медиана и медианное абсолютное отклонение (MAD), а не среднее и стандартное отклонение.
Методы машинного обучения
- Изоляционный лес: этот алгоритм работает путем случайного выбора объекта, а затем случайным выбором значения разделения между максимальным и минимальным значениями выбранного объекта. Выбросы изолируются быстрее, чем обычные наблюдения.
- DBSCAN (пространственная кластеризация приложений с шумом на основе плотности): DBSCAN — это метод кластеризации, который идентифицирует точки в регионах с низкой плотностью как выбросы.
- Автоэнкодеры. При обнаружении аномалий автоэнкодеры можно обучить точно восстанавливать нормальные точки данных, тогда как выбросы будут иметь более крупные ошибки реконструкции.
Верхние и нижние квартили в четном наборе данных
Расчет квартилей в нечетном наборе данных
- Упорядочите данные. Сначала отсортируйте точки данных в порядке возрастания.
- Найдите медиану (Q2):
- Медиана — это среднее значение для набора данных с нечетным количеством точек данных.
- Если набор данных содержит nnn точек данных, медианой является (n+1)/2(n+1)/2(n+1)/2-е значение.
- Определите первый квартиль (Q1):
- Q1 — это медиана нижней половины набора данных, исключая общую медиану.
- Для нечетного числа точек данных нижняя половина включает все точки данных ниже общей медианы.
- Найдите медиану этой нижней половины, чтобы получить Q1.
- Определите третий квартиль (Q3):
- Q3 — это медиана верхней половины набора данных, исключая общую медиану.
- Для нечетного числа точек данных верхняя половина включает все точки данных выше общей медианы.
- Найдите медиану этой верхней половины, чтобы получить Q3.
Пример
Рассмотрим набор данных с 9 точками данных: 3,7,8,12,13,14,18,21,223, 7, 8, 12, 13, 14, 18, 21, 223,7,8,12,13,14, 18,21,22
Пошаговый расчет
- Сортировка данных (уже отсортированных в этом примере): 3,7,8,12,13,14,18,21,223, 7, 8, 12, 13, 14, 18, 21, 223,7,8,12,13. ,14,18,21,22
- Найдите медиану (Q2):
- Имеется 9 точек данных, поэтому n=9n = 9n=9.
- Медианой является (9+1)/2=5(9+1)/2 = 5(9+1)/2=5-е значение.
- Медиана (Q2) = 13.
- Определите нижнюю половину:
- В нижнюю половину входят: 3,7,8,123, 7, 8, 123,7,8,12.
- Количество точек данных в нижней половине = 4.
- Найдите первый квартиль (Q1):
Медиана нижней половины:
- Есть 4 точки данных.
- Медиана нижней половины представляет собой среднее значение 2-го и 3-го значений.
- Q1 = (7 + 8)/2 = 7,5.
- Определите верхнюю половину:
- В верхнюю половину входят: 14,18,21,2214, 18, 21, 2214,18,21,22.
- Количество точек данных в верхней половине = 4.
- Найдите третий квартиль (Q3):
Медиана верхней половины:
- Есть 4 точки данных.
- Медиана верхней половины представляет собой среднее значение 2-го и 3-го значений.
- Q3 = (18 + 21) / 2 = 19.5.
Сводка квартилей для примера набора данных
- Первый квартиль (1 квартал): 7,5
- Медиана (2 квартал): 13
- Третий квартиль (3 квартал): 19,5
Зарегистрируйтесь в аспирантуре по аналитике данных, чтобы изучить более десятка инструментов и навыков анализа данных, а также получить доступ к мастер-классам преподавателей Purdue и экспертов IBM, эксклюзивным хакатонам и сеансам Ask Me Anything от IBM.
Верхние и нижние квартили в четном наборе данных
Расчет квартилей в четном наборе данных
- Упорядочить данные: отсортируйте точки данных в порядке возрастания.
- Найдите медиану (Q2):
- Медиана — это среднее значение двух средних значений для набора данных с четным количеством точек данных.
- Если набор данных содержит nnn точек данных, медиана представляет собой среднее значение n/2n/2n/2-го и (n/2)+1(n/2) + 1(n/2)+1-го значений.
- Определите первый квартиль (Q1):
- Q1 — это медиана нижней половины набора данных, включая общую медиану, если набор данных четный.
- Для четного числа точек данных нижняя половина включает все точки данных ниже медианы.
- Определите третий квартиль (Q3):
- Q3 — это медиана верхней половины набора данных, включая общую медиану, если набор данных четный.
- Для четного числа точек данных верхняя половина включает все точки данных выше медианы.
Пример
Рассмотрим набор данных с 10 точками данных: 2,4,5,7,10,12,14,18,21,232, 4, 5, 7, 10, 12, 14, 18, 21, 232,4,5,7, 10,12,14,18,21,23
Пошаговый расчет
- Сортировка данных (уже отсортированных в этом примере): 2,4,5,7,10,12,14,18,21,232, 4, 5, 7, 10, 12, 14, 18, 21, 232,4,5. ,7,10,12,14,18,21,23
- Найдите медиану (Q2):
- Имеется 10 точек данных, поэтому n=10n = 10n=10.
- Медиана представляет собой среднее значение 5-го и 6-го значений.
- Медиана (Q2) = (10 + 12) / 2 = 11.
- Определите нижнюю половину:
- В нижнюю половину входят: 2,4,5,7,102, 4, 5, 7, 102,4,5,7,10.
- Найдите первый квартиль (Q1):
- Медиана нижней половины:
- Есть 5 точек данных.
- Медиана нижней половины – 3-е значение.
- К1 = 5.
- Определите верхнюю половину:
- В верхнюю половину входят: 12,14,18,21,2312, 14, 18, 21, 2312,14,18,21,23.
- Найдите третий квартиль (Q3):
- Медиана верхней половины:
- Есть 5 точек данных.
- Медиана верхней половины – 3-е значение.
- Q3 = 18.
Сводка квартилей для примера набора данных
- Первый квартиль (1 квартал): 5
- Медиана (2 квартал): 11
- Третий квартиль (3 квартал): 18
Примеры выбросов
Выбросы — это точки данных, которые значительно отличаются от других наблюдений в наборе данных. Они могут быть результатом ошибок измерения, ошибок ввода данных или фактической изменчивости данных.
Пример 1: Данные о температуре
Рассмотрим показания температуры за неделю в градусах Цельсия: 22,23,21,24,30,22,23,4522, 23, 21, 24, 30, 22, 23, 4522,23,21,24,30,22. ,23,45
В этом наборе данных значение 45°C является выбросом, поскольку оно намного выше, чем другие показания температуры.
Пример 2: Результаты экзаменов
Рассмотрим экзаменационные баллы студентов из 100: 55,60,62,65,70,75,80,85,90,92,95,3055, 60, 62, 65, 70, 75, 80, 85, 90, 92, 95, 3055,60,62,65,70,75,80,85,90,92,95,30
В этом наборе данных показатель 30 является выбросом, поскольку он значительно ниже, чем другие баллы.
Пример 3: Данные о зарплате
Рассмотрим годовые зарплаты сотрудников компании (в тысячах долларов): 50,52,53,54,55,56,60,20050, 52, 53, 54, 55, 56, 60, 20050,52,53, 54,55,56,60,200
В этом наборе данных цифра 200 является исключением, поскольку она намного выше, чем другие зарплаты.
Заключение
Понимание и расчет квартилей, будь то в нечетных или четных наборах данных, имеет важное значение для обобщения и анализа распределения данных. Квартили позволяют измерить разброс и центральную тенденцию данных. Выявление выбросов имеет решающее значение, поскольку они могут существенно повлиять на статистический анализ и интерпретацию. Для обнаружения выбросов можно использовать различные методы, включая визуальный осмотр, статистические методы и алгоритмы машинного обучения. Правильная обработка выбросов обеспечивает точность и надежность анализа данных, что приводит к более надежным и значимым выводам. Регистрация на программу профессиональных сертификатов в области анализа данных и генеративного искусственного интеллекта может дать людям навыки, необходимые для освоения этих методов и эффективного их применения в реальных сценариях.
Часто задаваемые вопросы
1. Можно ли выявить выбросы в текстовых данных?
Выбросы можно выявить в текстовых данных путем анализа необычных закономерностей, частот или аномалий в использовании слов и контексте. Такие методы, как обработка естественного языка (NLP) и анализ текста, обнаруживают эти выбросы, которые могут указывать на ошибки, уникальные события или нетипичное содержимое в тексте.
2. Как можно обрабатывать выбросы в приложениях обработки изображений?
При обработке изображений выбросы можно обрабатывать с помощью алгоритмов фильтрации, определения порогов и обнаружения аномалий. Эти методы помогают удалить шум, улучшить качество изображения и выявить необычные закономерности или дефекты, которые могут указывать на ошибки или существенные особенности изображения.
3. Могут ли выбросы дать ценную информацию о необычных событиях?
Да, выбросы могут дать ценную информацию о необычных событиях или редких случаях, которые отклоняются от нормы. Анализируя эти аномалии, организации могут обнаружить мошенничество, выявить уникальные возможности или выявить основные проблемы, требующие внимания, что приведет к более обоснованному принятию решений.
4. Могут ли выбросы быть субъективными в зависимости от контекста анализа?
Выбросы действительно могут быть субъективными в зависимости от контекста анализа, поскольку то, что считается выбросом в одном сценарии, можно ожидать в другом. Определение выброса зависит от конкретных целей, распределения данных и знаний в конкретной области, поэтому понимание контекста имеет решающее значение для точного обнаружения выброса.
5. Как выбросы влияют на надежность статистического анализа?
Выбросы могут существенно повлиять на надежность статистического анализа, искажая результаты, влияя на показатели центральной тенденции и увеличивая дисперсию. Если их не учитывать должным образом, они могут привести к ошибочным выводам, поэтому необходимо выявлять и устранять выбросы для обеспечения точных и достоверных результатов анализа.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)