Типы методов выборки в аналитике данных, которые вам следует знать

Одной из самых больших проблем, с которой приходится сталкиваться при анализе данных, является работа с огромными объемами данных. Всякий раз, когда вы проводите исследование определенной демографической группы, было бы непрактично и даже невозможно изучать всю популяцию. Так как же нам преодолеть эту проблему? Есть ли способ выбрать подмножество данных, которое представляет весь набор данных? Как оказалось, есть. Существует несколько различных типов методов выборки в анализе данных, которые можно использовать для исследования без необходимости исследовать весь набор данных. Прежде чем мы начнем с типов методов выборки в анализе данных, нам нужно знать, что именно представляет собой выборка и как она работает?

Что такое выборка?

Это практика отбора отдельной группы из популяции для изучения всей популяции.

Допустим, мы хотим узнать процент людей, которые используют iPhone в городе, например. Один из способов сделать это — позвонить всем в городе и спросить, какой тип телефона они используют. Другой способ — взять меньшую подгруппу людей и задать им тот же вопрос, а затем использовать эту информацию как приблизительную оценку общей численности населения.

Однако этот процесс не так прост, как кажется. Всякий раз, когда вы следуете этому методу, размер вашей выборки должен быть идеальным — он не должен быть слишком большим или слишком маленьким. Затем, как только вы определились с размером вашей выборки, вы должны использовать правильный тип методов выборки, чтобы собрать выборку из популяции. В конечном счете, каждый тип выборки делится на две широкие категории:

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

  • Вероятностная выборка. Для формирования выборки используются методы случайного отбора.
  • Неслучайная выборка — для формирования выборки используются методы неслучайного отбора, основанные на определенных критериях.

Типы методов выборки в аналитике данных-

Теперь давайте обсудим типы выборки в аналитике данных. Для начала давайте начнем с методов вероятностной выборки.

Методы вероятностной выборки

Методы вероятностной выборки являются одним из важных типов методов выборки. Вероятностная выборка дает каждому члену популяции шанс быть выбранным. Она в основном используется в количественных исследованиях, когда вы хотите получить результаты, репрезентативные для всей популяции.

1. Простая случайная выборка

При простой случайной выборке исследователь выбирает участников случайным образом. Существует ряд инструментов анализа данных, таких как генераторы случайных чисел и таблицы случайных чисел, которые полностью основаны на случайности.

Пример: исследователь присваивает каждому члену базы данных компании номер от 1 до 1000 (в зависимости от размера вашей компании), а затем с помощью генератора случайных чисел выбирает 100 членов.

2. Систематическая выборка

При систематической выборке каждой популяции присваивается номер, как и при простой случайной выборке. Однако вместо случайной генерации чисел выборки выбираются через регулярные интервалы.

Пример: исследователь присваивает каждому члену в базе данных компании номер. Вместо случайной генерации номеров выбирается случайная начальная точка (например, 5). Начиная с этого номера, исследователь выбирает каждого, скажем, 10-го человека в списке (5, 15, 25 и т. д.), пока не будет получена выборка.

3. Стратифицированная выборка

При стратифицированной выборке население делится на подгруппы, называемые стратами, на основе некоторых характеристик (возраст, пол, доход и т. д.). После формирования подгруппы вы можете использовать случайную или систематическую выборку для формирования образца для каждой подгруппы. Этот метод позволяет делать более точные выводы, поскольку он гарантирует, что каждая подгруппа представлена ​​должным образом.

Пример: Если в компании 500 сотрудников-мужчин и 100 сотрудников-женщин, исследователь хочет убедиться, что выборка также отражает пол. Поэтому популяция делится на две подгруппы по половому признаку.

4. Кластерная выборка

При кластерной выборке популяция делится на подгруппы, но каждая подгруппа имеет схожие характеристики со всей выборкой. Вместо того, чтобы выбирать образец из каждой подгруппы, вы случайным образом выбираете целую подгруппу. Этот метод полезен при работе с большими и разнообразными популяциями.

Пример: компания имеет более сотни офисов в десяти городах по всему миру, в которых работает примерно одинаковое количество сотрудников на схожих должностях. Исследователь случайным образом выбирает 2-3 офиса и использует их в качестве выборки.

А вот и следующий тип методов выборки, а именно методы невероятностной выборки.

Методы невероятностной выборки

Методы выборки с невероятностью являются одним из важных типов методов выборки. При выборке с невероятностью не у каждого человека есть шанс попасть в выборку. Этот метод выборки проще и дешевле, но также имеет высокие риски смещения выборки. Он часто используется в разведочных и качественных исследованиях с целью разработки начального понимания популяции.

1. Удобный отбор проб

В этом методе выборки исследователь просто выбирает людей, которые наиболее доступны для него. Это простой способ сбора данных, но нет способа узнать, является ли выборка репрезентативной для всей популяции. Единственный задействованный критерий — это то, что люди доступны и готовы участвовать.

Пример: исследователь стоит возле компании и просит входящих сотрудников ответить на вопросы или заполнить опрос.

2. Выборка добровольных ответов

Выборка добровольных ответов похожа на выборку по удобству в том смысле, что единственным критерием является готовность людей участвовать. Однако вместо того, чтобы исследователь выбирал участников, участники сами добровольно выбирают.

Пример: исследователь рассылает опрос всем сотрудникам компании и дает им возможность принять в нем участие.

3. Целенаправленная выборка

При целенаправленной выборке исследователь использует свой опыт и суждение, чтобы выбрать образец, который, по его мнению, лучше всего подходит. Это часто используется, когда популяция очень мала, и исследователь хочет только получить знания о конкретном явлении, а не делать статистические выводы.

Пример: Исследователь хочет узнать об опыте сотрудников-инвалидов в компании. Поэтому выборка целенаправленно отбирается из этой популяции.

4. Метод «снежного кома»

В выборке методом снежного кома участники исследования набирают других участников для исследования. Она используется, когда участников, необходимых для исследования, трудно найти. Она называется выборкой методом снежного кома, потому что, как снежный ком, она подбирает больше участников по пути и становится все больше и больше.

Пример: Исследователь хочет узнать об опыте бездомных людей в городе. Поскольку нет подробного списка бездомных людей, вероятностная выборка невозможна. Единственный способ получить выборку — связаться с одним бездомным человеком, который затем свяжет вас с другими бездомными людьми в определенном районе.

Какой метод отбора проб использовать?

В этой статье о типах методов выборки в Data Analytics мы рассмотрели все о вероятностных и невероятностных методах выборки. Для любого типа исследования необходимо выбрать правильные методы выборки, прежде чем приступать к изучению. Эффективность вашего исследования в огромной степени зависит от выбранной вами выборки. Это лишь основные типы методов выборки, и есть еще много других, из которых вы можете выбрать, чтобы усовершенствовать свое исследование.

Выберите и зарегистрируйтесь в нужной программе

Название программыМагистерская программа по анализу данныхПрограмма последипломного образования по анализу данныхУчебный лагерь по аналитике данных
ГеоВсе ГеоВсе ГеоНАС
УниверситетSimplelearnПердьюКалтех
Продолжительность курса11 месяцев8 месяцев6 месяцев
Требуется опыт кодированияНетБазовыйНет
Навыки, которые вы приобрететеБолее 10 навыков, включая Python, MySQL, Tableau, NumPy и другие
Аналитика данных, статистический анализ с использованием Excel, анализ данных Python и R и многое другое
Визуализация данных с помощью Tableau, линейной и логистической регрессии, манипулирования данными и многого другого
Дополнительные преимуществаПрикладное обучение через Capstone и более 20 отраслевых проектов по анализу данныхЧленство в Ассоциации выпускников Пердью
Бесплатное членство IIMJobs Pro на 6 месяцев
Доступ к интегрированным практическим лабораториям Членство в кружке Caltech CTME
Расходы$$$$$$$$$$
Программа исследованияПрограмма исследованияПрограмма исследования

Заключение и дальнейшие шаги

Чтобы стать аналитиком данных, вы должны быть точно уверены в том, какие методы выборки вам следует использовать и когда. Если вы хотите узнать больше об аналитике данных, программа сертификации по аналитике данных Simplilearn в партнерстве с Университетом Пердью и в сотрудничестве с IBM включает мастер-классы и следует модели учебного лагеря, разработанной с использованием реальных проектов и бизнес-кейсов. Начните этот курс сегодня и начните успешную карьеру в области аналитики данных.

Если у вас возникли какие-либо сомнения по поводу типов методов отбора проб в статье, оставьте комментарий ниже, и наши эксперты свяжутся с вами как можно скорее!

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *