Что такое описательная статистика?

Если вы работаете с наборами данных достаточно долго, вам в конечном итоге придется иметь дело со статистикой. Спросите обычного человека, что такое статистика, и он, вероятно, назовет такие слова, как «цифры», «цифры» и «исследования».

Статистика — это наука или раздел математики, который включает сбор, классификацию, анализ, интерпретацию и представление числовых фактов и данных. Это особенно удобно при работе с популяциями, слишком многочисленными и обширными для проведения конкретных детальных измерений. Статистика имеет решающее значение для получения общих выводов, касающихся набора данных, на основе выборки данных.

Статистика далее делится на два типа: описательную и умозаключительную. Сегодня мы рассмотрим описательную статистику, включая ее определение, типы описательной статистики и различия между описательной статистикой и статистикой, основанной на выводах.

Что такое описательная статистика?

Описательная статистика относится к разделу статистики, который включает обобщение, организацию и представление данных осмысленно и кратко. Он фокусируется на описании и анализе основных особенностей и характеристик набора данных без каких-либо обобщений или выводов для более широкой популяции.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Основная цель описательной статистики — предоставить четкое и краткое изложение данных, позволяющее исследователям или аналитикам получить ценную информацию и понять закономерности, тенденции и распределения в наборе данных. Эта сводка обычно включает такие показатели, как центральная тенденция (например, среднее значение, медиана, мода), дисперсия (например, диапазон, дисперсия, стандартное отклонение) и форма распределения (например, асимметрия, эксцесс).

Описательная статистика также включает графическое представление данных с помощью диаграмм, графиков и таблиц, что может дополнительно помочь в визуализации и интерпретации информации. Общие графические методы включают гистограммы, гистограммы, круговые диаграммы, диаграммы рассеяния и ящичковые диаграммы.

Используя описательную статистику, исследователи могут эффективно обобщать и сообщать ключевые характеристики набора данных, способствуя лучшему пониманию данных и обеспечивая основу для дальнейшего статистического анализа или процессов принятия решений.

Читайте также: Разница между интеллектуальным анализом данных и статистикой

Примеры описательной статистики

Пример 1:

Результаты экзаменов Предположим, у вас есть следующие оценки 20 студентов на экзамене:

85, 90, 75, 92, 88, 79, 83, 95, 87, 91, 78, 86, 89, 94, 82, 80, 84, 93, 88, 81

Чтобы вычислить описательную статистику:

  • Среднее значение: сложите все баллы и разделите на количество баллов. Среднее = (85 + 90 + 75 + 92 + 88 + 79 + 83 + 95 + 87 + 91 + 78 + 86 + 89 + 94 + 82 + 80 + 84 + 93 + 88 + 81) / 20 = 1770 / 20 = 88,5
  • Медиана: расположите баллы в порядке возрастания и найдите среднее значение. Медиана = 86 (среднее значение)
  • Режим: Определите оценки, которые появляются чаще всего. Режим = 88
  • Диапазон: подсчитайте разницу между самым высоким и самым низким баллом. Диапазон = 95–75 = 20
  • Дисперсия: вычислите среднее значение квадратов различий от среднего значения. Дисперсия = ((85-88,5)^2 + (90-88,5)^2 + … + (81-88,5)^2) / 20 = 33,25
  • Стандартное отклонение: извлеките квадратный корень из дисперсии. Стандартное отклонение = √33,25 = 5,77

Пример 2:

Ежемесячный доход. Рассмотрим выборку из 50 человек и их ежемесячные доходы:

2500$, 3000$, 3200$, 4000$, 2800$, 3500$, 4500$, 3200$, 3800$, 3500$, 2800$, 4200$, 3900$, 3600$, 3000$, 2700$, 2900$, 3,7$ 00, 3500 долларов, 3200 долларов, 3600 долларов, 4300 долларов, 4100 долларов, 3800 долларов, 3600 долларов, 2500$, 4200$, 4200$, 3400$, 3300$, 3800$, 3900$, 3500$, 2800$, 4100$, 3200$, 3600$, 4000$, 3700$, 3000$, 3100$, 2900$, 3,4$ 00, 3800 долларов, 4000 долларов, 3300 долларов, 3100 долларов, 3200 долларов, 4200 долларов, 3400 долларов.

Чтобы рассчитать описательную статистику:

  • Среднее значение: сложите все доходы и разделите на количество доходов. Среднее = (2500 долларов США + 3000 долларов США + … + 3400 долларов США) / 50 = 166 200 долларов США / 50 = 3324 доллара США.
  • Медиана: расположите доходы в порядке возрастания и найдите среднее значение. Медиана = 3400 долларов США (среднее значение).
  • Диапазон: Рассчитайте разницу между самым высоким и самым низким доходом. Диапазон = 4500–2500 долларов США = 2000 долларов США.
  • Дисперсия: вычислите среднее значение квадратов различий от среднего значения. Отклонение = ((2500–3324 доллара США)^2 + (3000–3324 доллара США)^2 + … + (3400–3324 доллара США)^2) / 50 = 221 684 000 долларов США / 50 = 4 433 680 долларов США
  • Стандартное отклонение: извлеките квадратный корень из дисперсии. Стандартное отклонение = √4 433 680 долларов США = 2 105,18 долларов США.

Эти расчеты предоставляют описательную статистику, которая суммирует основную тенденцию, дисперсию и форму данных в этих примерах.

Типы описательной статистики

Описательная статистика распадается на несколько типов, характеристик или показателей. Некоторые авторы говорят, что существует два типа. Другие говорят, что три или даже четыре.

Распределение (также называемое частотным распределением)

Наборы данных состоят из распределения оценок или значений. Статистики используют графики и таблицы для суммирования частоты каждого возможного значения переменной, выраженной в процентах или числах. Например, если бы вы провели опрос, чтобы определить любимого битла среди людей, вы бы создали один столбец со всеми возможными переменными (Джон, Пол, Джордж и Ринго), а другой — с количеством голосов.

Статистики изображают частотные распределения в виде графика или таблицы.

Меры центральной тенденции

Меры центральной тенденции оценивают среднее значение или центр набора данных, находя результат с использованием трех методов: среднего, моды и медианы.

Среднее значение. Среднее значение также известно как «М» и является наиболее распространенным методом определения средних значений. Среднее значение можно получить, сложив все значения ответов вместе и разделив сумму на количество ответов или «N». Например, предположим, что кто-то пытается выяснить, сколько часов в день он спит в неделю. Таким образом, набор данных будет представлять собой записи часов (например, 6,8,7,10,8,4,9), а сумма этих значений равна 52. Имеется семь ответов, поэтому N=7. Вы делите сумму значений 52 на N или 7, чтобы найти M, которое в данном случае равно 7,3.

Режим: Режим — это наиболее часто встречающееся значение ответа. Наборы данных могут иметь любое количество режимов, включая «нулевой». Вы можете найти режим, расположив набор данных в порядке от наименьшего к наибольшему значению, а затем найдя наиболее распространенный ответ. Итак, используя наше исследование сна из последней части: 4,6,7,8,8,9,10. Как видите, режима восемь.

Медиана. Наконец, у нас есть медиана, определяемая как значение точно в центре набора данных. Расположите значения в порядке возрастания (как мы это делали для режима) и найдите число в середине набора. В данном случае медиана равна восьми.

Изменчивость (также называемая дисперсией)

Мера изменчивости дает статистикам представление о том, насколько разбросаны ответы. Спред имеет три аспекта: диапазон, стандартное отклонение и дисперсию.

Диапазон: используйте диапазон, чтобы определить, насколько далеко друг от друга находятся наиболее экстремальные значения. Начните с вычитания наименьшего значения набора данных из его наибольшего значения. Еще раз обращаемся к нашему исследованию сна: 4,6,7,8,8,9,10. Отнимаем четыре (самый низкий) от десяти (самый высокий) и получаем шесть. Вот ваш диапазон.

Стандартное отклонение: этот аспект требует немного больше работы. Стандартное отклонение (а) — это средняя величина изменчивости вашего набора данных, показывающая, насколько далеко каждый балл находится от среднего значения. Чем больше ваше стандартное отклонение, тем больше переменная вашего набора данных. Выполните следующие шесть шагов:

  1. Перечислите баллы и их значения.
  2. Найдите отклонение, вычитая среднее значение из каждого балла.
  3. Возведите в квадрат каждое отклонение.
  4. Суммируйте все квадраты отклонений.
  5. Разделите сумму квадратов отклонений на N-1.
  6. Найдите квадратный корень результата.

Необработанное число/данные

Отклонение от среднего

Отклонение в квадрате

4

4-7,3= -3,3

10.89

6

6-7,3= -1,3

1,69

7

7-7,3= -0,3

0,09

8

8-7,3= 0,7

0,49

8

8-7,3= 0,7

0,49

9

9-7,3=1,7

2,89

10

10-7,3= 2,7

7.29

М=7,3

Сумма = 0,9

Квадратные суммы = 23,83

Если вы разделите сумму квадратов отклонений на 6 (N-1): 23,83/6, вы получите 3,971, а квадратный корень из этого результата составит 1,992. В результате теперь мы знаем, что каждая оценка отклоняется от среднего значения в среднем на 1,992 балла.

Дисперсия: Дисперсия отражает разброс степеней набора данных. Чем больше степень разброса данных, тем больше отклонение относительно среднего значения. Вы можете получить дисперсию, просто возведя в квадрат стандартное отклонение. Используя приведенный выше пример, мы возводим в квадрат 1,992 и получаем 3,971.

Одномерная описательная статистика

Одномерная описательная статистика одновременно исследует только одну переменную и не сравнивает переменные. Скорее, это позволяет исследователю описывать отдельные переменные. В результате такого рода статистика также известна как описательная статистика. Закономерности, выявленные в такого рода данных, можно объяснить следующим образом:

  • Меры центральной тенденции (среднее, мода и медиана)
  • Дисперсия данных (стандартное отклонение, дисперсия, диапазон, минимум, максимум и квартили) (стандартное отклонение, дисперсия, диапазон, минимум, максимум и квартили)
  • Таблицы распределения частот
  • Круговые диаграммы
  • Гистограммы полигонов частот
  • Гистограммы

Двумерная описательная статистика

При использовании двумерной описательной статистики две переменные одновременно анализируются (сравниваются), чтобы увидеть, коррелируют ли они. Обычно по соглашению независимая переменная представлена ​​столбцами, а строки представляют зависимую переменную».

Существует множество реальных приложений для двумерных данных. Например, весьма ценно оценить, когда произойдет природное явление. Двумерный анализ данных — это инструмент в арсенале статистика. Иногда такая простая вещь, как проецирование одного параметра на другой на двухмерной плоскости, может лучше понять, в чем вас пытается убедить информация. Например, диаграмма рассеяния ниже демонстрирует связь между периодом между извержениями в Старом Фейтфуле и продолжительностью извержения.

Одномерная и двумерная статистика

Одномерный

Двумерный

Включает только одну переменную

Включает две переменные

Не имеет дело с отношениями или причинами

Работает с причинами или отношениями

Основная цель одномерного описания:

  • Дисперсия: дисперсия, диапазон, стандартное отклонение, квартили, максимум, минимум.
  • Центральная тенденция: средняя медиана и мода
  • Гистограмма, круговая диаграмма, гистограмма, прямоугольная диаграмма, линейный график

Основная цель двумерной переменной – объяснить:

  • Корреляции: сравнения, объяснения, причины, связи.
  • Зависимые и независимые переменные
  • Таблицы, в которых только одна переменная зависит от значений других переменных
  • Одновременный анализ двух переменных

Какова основная цель описательной статистики?

Описательная статистика может быть полезна для двух целей: 1) предоставления базовой информации о переменных в наборе данных и 2) выделения потенциальных связей между переменными. Графические/иллюстративные методы представляют собой измерения трех наиболее распространенных описательных статистических данных, которые можно отобразить графически или графически. Он используется для обобщения данных. Описательная статистика делает заявления только о наборе данных, использованном для ее расчета; они никогда не выходят за рамки ваших данных.

Диаграммы рассеяния

На диаграмме рассеяния точки обозначают значения двух отдельных числовых переменных. Местоположение каждой точки на горизонтальной и вертикальной осях представляет значения точки данных. Диаграммы рассеяния используются для мониторинга взаимосвязей между переменными.

Основными целями диаграмм рассеяния являются изучение и отображение взаимосвязей между двумя числовыми переменными. Точки на точечной диаграмме документируют значения отдельных точек и тенденции, когда данные получены в целом. Идентификация корреляционных связей широко распространена с помощью диаграмм рассеяния. В таких ситуациях мы хотим знать, какой хороший прогноз вертикального значения будет иметь конкретное горизонтальное значение.

Это может привести к чрезмерному отображению данных, если на графике нужно построить много точек данных. Когда точки данных накладываются до такой степени, что становится трудно увидеть связи между ними и переменными, это называется наложением графика. Может быть трудно определить, насколько плотно упакованы точки данных, когда их много в крошечном пространстве.

Есть несколько простых способов решить эту проблему. Один из подходов заключается в выборе только подмножества точек данных: случайная выборка точек по-прежнему должна отражать основной смысл закономерностей во всех данных. Кроме того, мы можем изменить форму точек, увеличив прозрачность, чтобы сделать перекрытие видимым, или уменьшив размер точки, чтобы минимизировать перекрытие.

В чем разница между описательной статистикой и статистикой, основанной на выводах?

Итак, в чем же разница между двумя статистическими формами? Мы уже касались этого, когда упоминали, что описательная статистика не делает никаких выводов или предсказаний, а это означает, что статистика, основанная на выводах, делает это.

Инференциальная статистика берет случайную выборку данных из части населения, описывает и делает выводы обо всей совокупности. Например, если спросить 50 человек, понравился ли им фильм, который они только что посмотрели, на основе этого будут построены статистические выводы и предполагается, что эти результаты будут справедливы и для остальной части аудитории, смотрящей кино, в целом.

Поэтому, если вы стоите возле кинотеатра и опросите 50 человек, которые только что посмотрели «Рокки 20»: хватит уже! и 38 из них он не понравился (около 76 процентов), вы можете экстраполировать, что 76% остального мира, смотрящего кино, он тоже не понравится, даже если у вас нет средств, времени и возможности спросить всех этих людей .

Проще говоря: описательная статистика дает вам четкое представление о том, что показывают ваши текущие данные. Инференциальная статистика делает прогнозы на основе этих данных.

Почему бы не стать специалистом по данным?

Любите ли вы описательную или индуктивную статистику, вы можете найти множество возможностей в области анализа данных и науки о данных. Программа профессиональных сертификатов Simplilearn в области науки о данных дает вам широкое представление о ключевых концепциях и инструментах науки о данных, таких как Python, R, машинное обучение и многое другое. Практические лабораторные работы и работа над проектами в рамках этой знаменитой программы воплощают идеи в жизнь, а опытные инструкторы и ассистенты будут сопровождать вас на этом пути.

Учебный лагерь, проводимый в сотрудничестве с Университетом Пердью и IBM, представляет собой идеальное сочетание теории, тематических исследований и обширной практической практики. Экономические времена поставила эту программу сертификации Data Science на первое место в своем списке.

В соответствии с Стеклянная дверьУченые, работающие с данными, зарабатывают в среднем 113 309 долларов США в год. Шкала заработной платы показывает, что специалист по данным в Индии зарабатывает в среднем 817 366 фунтов стерлингов в год. Наука о данных — отличный выбор карьеры, если вы ищете надежную работу и получаете при этом хорошую оплату!

Ознакомьтесь с курсами Simplilearn по науке о данных сегодня и воспользуйтесь этой новой захватывающей возможностью!

Выберите правильную программу

Вы заинтересованы в области науки о данных? Наши курсы по науке о данных тщательно разработаны, чтобы дать вам необходимые знания и ноу-хау для процветания в этом быстро расширяющемся секторе. Ниже приведено подробное сравнение, которое поможет вам лучше понять:

Название программыстепень магистраПоследипломная программа в области науки о данныхПоследипломная программа в области науки о данных
ГеоВсе регионыВсе регионыВ/СТРОКА
УниверситетПростое обучениеПердьюКалтех
Длительность курса11 месяцев11 месяцев11 месяцев
Требуется опыт кодированияБазовыйБазовыйНет
Навыки, которые вы изучитеБолее 10 навыков, включая структуру данных, манипулирование данными, NumPy, Scikit-Learn, Tableau и многое другое.8+ навыков, включая
Исследовательский анализ данных, описательная статистика, логическая статистика и многое другое.
8+ навыков, включая
Контролируемое и неконтролируемое обучение
Глубокое обучение
Визуализация данных и многое другое.
Дополнительные преимуществаПрикладное обучение через Capstone и более 25 проектов по науке о данныхЧленство в Ассоциации выпускников Purdue
Бесплатное членство IIMJobs Pro на 6 месяцев
Возобновить помощь в построении
До 14 кредитов CEU Членство в кружке Caltech CTME
Расходы$$$$$$$$$$
Изучите программуИзучите программуИзучите программу

Часто задаваемые вопросы

1. Что вы подразумеваете под описательной статистикой?

Описательная статистика относится к набору методов, используемых для обобщения и описания основных характеристик набора данных, таких как его центральная тенденция, изменчивость и распределение. Эти методы обеспечивают обзор данных и помогают выявить закономерности и взаимосвязи.

2. Что такое описательная статистика. Объясните примерами.

Описательная статистика — это методы, используемые для обобщения и описания основных характеристик набора данных. Примеры включают показатели центральной тенденции, такие как среднее значение, медиана и мода, которые предоставляют информацию о типичном значении в наборе данных. Меры изменчивости, такие как диапазон, дисперсия и стандартное отклонение, описывают разброс или дисперсию данных. Описательная статистика может также включать графические методы, в том числе гистограммы, коробчатые диаграммы и диаграммы рассеяния, для визуального представления данных.

3. Каковы четыре типа описательной статистики?

Четыре типа описательной статистики:

  • Меры центральной тенденции
  • Меры изменчивости
  • Стандарты взаимного положения
  • Графические методы

Меры центральной тенденции описывают типичное значение в наборе данных и включают среднее значение, медиану и моду. Меры изменчивости представляют собой разброс или дисперсию данных и включают диапазон, дисперсию и стандартное отклонение. Меры относительного положения описывают расположение определенного значения в наборе данных, например процентили. Графические методы используют диаграммы, гистограммы и другие визуальные представления для отображения данных.

4. Какова основная цель описательной статистики?

Основная цель описательной статистики — эффективно суммировать и описать основные характеристики набора данных, обеспечивая обзор данных и помогая выявить закономерности и взаимосвязи внутри них. Описательная статистика обеспечивает полезную отправную точку для анализа данных, поскольку она может помочь выявить выбросы, обобщить ключевые характеристики данных и предоставить информацию для выбора соответствующих статистических методов для дальнейшего анализа. Они обычно используются во многих областях, включая социальные науки, бизнес и здравоохранение.

5. Можно ли использовать описательную статистику для выводов и прогнозов?

Описательная статистика в основном используется для обобщения и описания данных, но она не предполагает делать выводы или прогнозы, выходящие за рамки самих данных. Статистические методы вывода необходимы для того, чтобы делать выводы или прогнозы относительно более крупной популяции, которые выходят за рамки описательной статистики и включают оценку параметров и проверку гипотез.

6. Почему важна описательная статистика?

Описательная статистика важна, потому что она позволяет нам обобщать и осмысленно описывать данные. Это помогает нам понять основные особенности и характеристики набора данных, выявить закономерности и тенденции и получить ценную информацию на основе данных. Описательная статистика обеспечивает основу для дальнейшего анализа, принятия решений и распространения результатов.

7. Для чего используется описательная статистика?

Описательная статистика используется для обобщения и представления данных кратко и осмысленно. Он широко используется в различных областях, таких как исследования, бизнес, экономика, социальные науки и здравоохранение. Описательная статистика помогает исследователям и аналитикам описывать центральную тенденцию (среднее значение, медиану, моду), дисперсию (диапазон, дисперсию и стандартное отклонение) и форму распределения набора данных. Он также включает графическое представление данных для облегчения визуализации и понимания.

8. Объясните разницу между инференциальной и описательной статистикой?

Основное различие между описательной и инференциальной статистикой заключается в их цели и сфере применения. Описательная статистика фокусируется на обобщении и описании характеристик выборки или совокупности, не делая выводов или обобщений на более широкую совокупность. Его цель – предоставить краткое изложение данных и выявить закономерности в наблюдаемом наборе данных.

Напротив, статистика выводов включает в себя получение выводов, предсказание или проверку гипотез о популяции на основе выборки данных. Он использует теорию вероятностей и статистические методы для обобщения результатов выборки на большую популяцию. Инференциальная статистика позволяет исследователям делать выводы, оценивать параметры, оценивать взаимосвязи и делать прогнозы, выходящие за рамки наблюдаемых данных.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *