Гистограмма SAS: типы представления данных
Человеческие глаза созданы для того, чтобы улавливать цвета и узоры. Мы можем быстро отличить красную часть от зеленой или круг от квадрата. В наши дни и век, когда огромные объемы данных генерируются каждый день, визуализация данных помогает захватить наш интерес и удерживать наше основное внимание на сообщении для принятия решений на основе данных. Существует множество методов и инструментов визуализации данных, таких как диаграммы, графики или карты, которые предоставляют доступный способ выявления тенденций, выбросов и закономерностей в данных. Еще один популярный метод представления данных — это гистограмма, которая представляет собой оценку вероятности распределения непрерывной переменной. В этой статье мы покажем вам два разных способа создания гистограммы SAS. Но сначала давайте рассмотрим некоторые из наиболее распространенных типов представлений данных.
Станьте экспертом в области науки о данных и получите работу своей мечтыПрограмма аспирантуры Калифорнийского технологического института по науке о данныхИзучить программу
Типы представления данных
1. Столбчатая диаграмма
Столбчатая диаграмма визуализирует данные по горизонтали или вертикали, например, суммы и частоту. Это могут быть отдельные столбцы или сгруппированные столбцы. Наиболее распространенное использование столбчатых диаграмм — сравнение различных элементов. Легко сказать, какие типы данных влияют на другие, посмотрев на все столбцы на диаграмме.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Рис.: Столбчатая диаграмма (источник)
2. Гистограмма
Гистограмма похожа на столбчатую диаграмму. Однако между гистограммой и столбчатой диаграммой есть большая разница. Столбчатая диаграмма измеряет частоту категориальных данных (пол, месяцы, отметки и т. д.), тогда как гистограмма используется для количественных данных (данных о категориальных переменных).
Рис.: Гистограмма (источник)
3. Линейный график
Линейный график использует линии и точки для представления изменений во времени. Их можно использовать для представления ежедневного увеличения населения мира, количества животных, оставшихся на Земле, или ежедневного увеличения количества данных и т. д. Он дает вам представление об изменениях, происходящих в мире с течением времени.
Рис. График зависимости скорости от времени (источник)
4. Круговая диаграмма
Круговая диаграмма — это круговая статистическая диаграмма, используемая для представления числовой пропорции. Они часто используются для отображения процентов от целого и процентов в заданный момент времени. Однако круговые диаграммы не показывают изменения с течением времени, в отличие от других представлений данных. В большинстве случаев ее можно заменить другими представлениями данных, такими как столбчатая диаграмма, ящичная диаграмма, точечная диаграмма и т. д.
Рис.: Круговая диаграмма населения, для которого английский язык является родным (источник)
Станьте экспертом в области науки о данных и получите работу своей мечтыПрограмма аспирантуры Калифорнийского технологического института по науке о данныхИзучить программу
5. Таблица распределения частот
Таблица распределения частот помогает вам суммировать значение и частоту диаграммы. Обычно она состоит из двух или трех столбцов. В первом столбце перечислены все различные результаты как отдельные значения, а во втором столбце перечислена частота каждого результата данных. Такое представление данных дает вам снимок данных, чтобы помочь вам определить закономерности.
Классифицировать | Степень согласия | Число |
1 | Полностью согласен | 23 |
2 | Согласен отчасти | 31 |
3 | Не уверен | 22 |
4 | Не согласен в некоторой степени | 19 |
5 | Категорически не согласен | 16 |
6. Диаграмма рассеяния
Диаграмма рассеяния — это тип графика или математической диаграммы, которая использует значения двух переменных, нанесенных на декартову плоскость. В случае, если точки закодированы, вы можете отобразить одну дополнительную переменную. Данные отображаются в виде набора точек — значение одной переменной определяется положением на горизонтальной оси, а значение другой переменной определяется положением на вертикальной оси.
Рис.: Диаграммы рассеяния (источник)
7. Диаграмма ящиков
Ящичная диаграмма — это графическое представление локальности, распространения и асимметрии числовых данных через их квартили. В дополнение к ячейкам на ячейковой диаграмме, ящичные диаграммы могут также иметь линии, идущие вертикально от ячеек или усы, которые указывают на изменчивость за пределами верхнего и нижнего квартилей. Выбросы, которые значительно отличаются от остального набора данных, могут быть нанесены на график в виде отдельных точек.
Рис.: Диаграммы ящиков (источник)
Станьте экспертом в области науки о данных и получите работу своей мечтыПрограмма аспирантуры Калифорнийского технологического института по науке о данныхИзучить программу
Гистограмма SAS
Гистограмма SAS помогает вам исследовать ваши данные, отображая распределение непрерывной переменной по категориям значения. Ее можно создать с помощью PROC UNIVARIATE, PROC CHART или PROC GCHART.
Синтаксис
Синтаксис создания гистограммы в SAS следующий:
ПРОЦЕСС ОДНОМЕРНЫЕ ДАННЫЕ = НАБОР ДАННЫХ; Переменные ГИСТОГРАММЫ; БЕГАТЬ; |
Где «DATASET» — это имя используемого набора данных, а «переменные» — это значения, используемые для построения гистограммы.
Простая гистограмма
Простую гистограмму можно создать, указав имя переменной и диапазон для группировки значений. В этом примере мы возьмем минимальное и максимальное значения переменной «лошадиная сила» и диапазон 50. Значения сформируют группу с шагом 50.
proc одномерные данные = sashelp.cars; гистограмма лошадиных сил / средние точки = 176-350 на 50; бегать; |
Выполнив приведенный выше код, вы получите следующий результат:
Гистограмма с подгонкой кривой
Мы также можем подогнать некоторые кривые распределения под гистограмму SAS, используя некоторые дополнительные опции. Например, давайте подогнать кривую распределения со средним значением и стандартным отклонением, обозначенными как EST. Эта опция использует оценку параметров.
proc одномерные данные = sashelp.cars noprint; гистограмма лошадиных сил / нормальный ( му = есть сигма = есть цвет = синий ш = 2,5 ) barlabel = процент средние точки = от 70 до 550 на 50; бегать; |
Выполнив приведенный выше код, вы получите следующий результат:
- Наборы данных SAS
- SAS-петли
- Руководство по макросам SAS
- SAS-массивы
- Линейная регрессия SAS
Вы рассматриваете профессию в области науки о данных? Тогда получите сертификат Data Science Certification уже сегодня!
Хотите узнать больше?
Одним из самых важных навыков, необходимых любому человеку в области науки о данных, является визуализация данных. В этой статье мы обсудили наиболее распространенные типы представления данных и два разных способа проектирования гистограммы SAS. Для создания лучших гистограмм в SAS есть репозиторий стилей текста, цветов и множества других опций, которые можно добавлять к гистограмме для лучшей читаемости. Если вы хотите глубже погрузиться в эту тему, вы можете ознакомиться с магистерской программой Simplilearn Data Scientist, разработанной в сотрудничестве с IBM. Она включает эксклюзивные хакатоны IBM, мастер-классы, сессии Ask-me-anything, живое взаимодействие с практиками, практические лабораторные работы и проекты. Начните этот курс сегодня и ускорьте свою карьеру в науке о данных.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)