Типы методов выборки в анализе данных, которые вы должны знать
Одним из самых больших препятствий, с которыми приходится сталкиваться при анализе данных, является работа с огромными объемами данных. Всякий раз, когда вы проводите исследование определенной демографической группы, было бы непрактично и даже невозможно изучить все население. Так как же нам преодолеть эту проблему? Есть ли способ выбрать подмножество данных, которое представляет весь набор данных? Как оказалось, есть. В анализе данных существует несколько различных типов методов выборки, которые можно использовать для исследования без необходимости исследовать весь набор данных. Прежде чем мы начнем с типов методов выборки в анализе данных, нам нужно знать, что такое выборка и как она работает?
Что такое выборка?
Это практика отбора отдельной группы из совокупности для изучения всей популяции.
Допустим, мы хотим узнать, например, процент людей, использующих iPhone в городе. Один из способов сделать это — обзвонить всех жителей города и спросить, каким типом телефона они пользуются. Другой способ — собрать меньшую подгруппу людей и задать им тот же вопрос, а затем использовать эту информацию как приблизительную оценку общей численности населения.
Однако этот процесс не так прост, как кажется. Всякий раз, когда вы следуете этому методу, размер вашей выборки должен быть идеальным — он не должен быть слишком большим или слишком маленьким. Затем, как только вы определились с размером выборки, вы должны использовать правильный тип методов выборки для сбора выборки из совокупности. В конечном счете, каждый тип выборки можно разделить на две большие категории:
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
- Вероятностная выборка. Для отбора выборки используются методы случайного отбора.
- Невероятностная выборка. Для отбора выборки используются методы неслучайного отбора, основанные на определенных критериях.
Типы методов выборки в аналитике данных.
Теперь давайте обсудим типы выборки в анализе данных. Во-первых, давайте начнем с методов вероятностной выборки.
Методы вероятностной выборки
Методы вероятностной выборки являются одним из важных типов методов выборки. Вероятностная выборка дает каждому члену совокупности шанс быть выбранным. Он в основном используется в количественных исследованиях, когда вы хотите получить результаты, репрезентативные для всей совокупности.
1. Простая случайная выборка
При простой случайной выборке исследователь выбирает участников случайным образом. Существует ряд инструментов анализа данных, таких как генераторы случайных чисел и таблицы случайных чисел, которые полностью основаны на случайности.
Пример: исследователь присваивает каждому участнику в базе данных компании номер от 1 до 1000 (в зависимости от размера вашей компании), а затем использует генератор случайных чисел, чтобы выбрать 100 участников.
2. Систематический отбор проб
При систематической выборке каждой совокупности присваивается номер, как и при простой случайной выборке. Однако вместо случайного генерирования чисел образцы выбираются через равные промежутки времени.
Пример: исследователь присваивает каждому члену базы данных компании номер. Вместо случайной генерации чисел выбирается случайная начальная точка (скажем, 5). Начиная с этого числа, исследователь выбирает каждого, скажем, 10-го человека в списке (5, 15, 25 и т. д.), пока не будет получен образец.
3. Стратифицированная выборка
При стратифицированной выборке население подразделяется на подгруппы, называемые стратами, на основе некоторых характеристик (возраст, пол, доход и т. д.). После формирования подгруппы вы можете использовать случайную или систематическую выборку для отбора выборки для каждой подгруппы. Этот метод позволяет сделать более точные выводы, поскольку гарантирует правильное представление каждой подгруппы.
Пример: если в компании 500 сотрудников-мужчин и 100 сотрудников-женщин, исследователь хочет убедиться, что выборка также отражает пол. Таким образом, население делится на две подгруппы по гендерному признаку.
4. Кластерная выборка
При кластерной выборке совокупность делится на подгруппы, но каждая подгруппа имеет характеристики, аналогичные характеристикам всей выборки. Вместо того, чтобы выбирать образец из каждой подгруппы, вы случайным образом выбираете всю подгруппу. Этот метод полезен при работе с большими и разнообразными популяциями.
Пример: компания имеет более сотни офисов в десяти городах по всему миру, в которых работает примерно одинаковое количество сотрудников на аналогичных должностях. Исследователь случайным образом выбирает 2–3 офиса и использует их в качестве выборки.
Здесь идет следующий тип методов выборки, то есть методы невероятностной выборки.
Методы невероятностной выборки
Методы невероятностной выборки являются одним из важных типов методов выборки. При невероятностной выборке не у каждого человека есть шанс попасть в выборку. Этот метод выборки проще и дешевле, но также имеет высокий риск систематической ошибки выборки. Его часто используют в поисковых и качественных исследованиях с целью развития первоначального понимания населения.
1. Выборка по удобству
При этом методе выборки исследователь просто выбирает людей, которые ему наиболее легко доступны. Это простой способ сбора данных, но невозможно определить, является ли выборка репрезентативной для всей совокупности. Единственным критерием является то, что люди доступны и готовы участвовать.
Пример: Исследователь стоит возле компании и просит приходящих сотрудников ответить на вопросы или пройти опрос.
2. Выборка добровольных ответов
Выборка добровольных ответов аналогична выборке по удобству в том смысле, что единственным критерием является готовность людей участвовать. Однако вместо того, чтобы исследователь выбирал участников, участники сами добровольно выбирают участников.
Пример: исследователь рассылает опрос каждому сотруднику компании и дает им возможность принять в нем участие.
3. Целенаправленный отбор проб
При целенаправленной выборке исследователь использует свой опыт и суждения, чтобы выбрать образец, который, по его мнению, лучше всего подходит. Его часто используют, когда популяция очень мала и исследователь хочет получить знания только о конкретном явлении, а не сделать статистические выводы.
Пример: Исследователь хочет узнать об опыте сотрудников с ограниченными возможностями в компании. Таким образом, выборка целенаправленно отбирается из этой совокупности.
4. Выборка снежного кома
При выборке снежным комом участники исследования набирают других участников для исследования. Его используют, когда трудно найти участников, необходимых для исследования. Это называется выборкой снежного кома, потому что, подобно снежному кому, она собирает все больше участников и становится все больше и больше.
Пример: Исследователь хочет узнать об опыте бездомных в городе. Поскольку подробного списка бездомных не существует, вероятностная выборка невозможна. Единственный способ получить образец — связаться с одним бездомным, который затем познакомит вас с другими бездомными в определенном районе.
Какой метод выборки использовать?
В этой статье о типах методов выборки в аналитике данных мы рассмотрели все о методах вероятностной и невероятностной выборки. Для любого типа исследования необходимо выбрать правильные методы выборки, прежде чем приступить к исследованию. Эффективность вашего исследования во многом зависит от выборки, которую вы выберете. Это лишь основные методы выборки, и есть еще множество других, которые вы можете выбрать для уточнения своего исследования.
Выберите и запишитесь на подходящую программу
Название программы | Магистерская программа аналитика данных | Последипломная программа по аналитике данных | Учебный курс по аналитике данных |
Гео | Все регионы | Все регионы | НАС |
Университет | Простое обучение | Пердью | Калтех |
Продолжительность курса | 11 месяцев | 8 месяцев | 6 месяцев |
Требуется опыт кодирования | Нет | Базовый | Нет |
Навыки, которые вы изучите | Более 10 навыков, включая Python, MySQL, Tableau, NumPy и другие. |
Аналитика данных, статистический анализ с использованием Excel, анализ данных Python и R и многое другое. | Визуализация данных с помощью таблиц, линейной и логистической регрессии, манипулирования данными и многого другого. |
Дополнительные преимущества | Прикладное обучение через Capstone и более 20 отраслевых проектов по анализу данных | Членство в Ассоциации выпускников Purdue Бесплатное членство IIMJobs Pro на 6 месяцев | Доступ к интегрированным практическим лабораториям. Членство в кружке CTME Caltech. |
Расходы | $$ | $$$$ | $$$$ |
Изучите программу | Изучите программу | Изучите программу |
Заключение и следующие шаги
Чтобы стать аналитиком данных, вы должны точно знать, какие методы выборки вам следует использовать и когда. Если вы хотите узнать больше об анализе данных, программа сертификации аналитиков данных Simplilearn в партнерстве с Университетом Пердью и в сотрудничестве с IBM предлагает мастер-классы и следует модели учебного лагеря, разработанной с использованием реальных проектов и бизнес-кейсов. Начните изучение этого курса сегодня и начните успешную карьеру в области анализа данных.
Если у вас есть какие-либо сомнения в статье о типах методов отбора проб, оставьте комментарий ниже, и специалисты нашей команды свяжутся с вами как можно скорее!
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)