Введение в подстановку данных | Simplilearn
Подстановка в статистике относится к процедуре использования альтернативных значений вместо отсутствующих данных. Она называется «подстановкой единицы» при замене точки данных и «подстановкой элемента» при замене составляющей точки данных.
Отсутствующая информация может внести значительную степень предвзятости, затруднить обработку и анализ данных и снизить эффективность, что является тремя основными проблемами, которые она вызывает. Импутация рассматривается как альтернатива списковому исключению случаев с отсутствующими значениями, поскольку отсутствующие данные могут усложнить анализ данных.
Другими словами, большинство статистических программ по умолчанию отклоняют любой случай с пропущенным значением, если для случая отсутствуют одни или несколько данных, что может добавить смещенности или ухудшить обобщаемость результатов.
Заменяя отсутствующую информацию оценочным значением, зависящим от другой доступной информации, вменение сохраняет все случаи. Набор данных можно проанализировать с помощью методов, используемых для полных данных, после того как все значения были вменены. Ученые приняли множество идей для объяснения отсутствующих данных, но большинство из них создают смещение.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
В этой статье мы погрузимся в мир импутации данных, обсудим ее важность и методы, а также узнаем о множественной импутации.
Узнайте последние тенденции в области аналитики данных!Программа последипломного образования в области аналитики данныхИзучить программу
Что такое вменение данных?
Импутация данных — это метод сохранения большей части данных и информации набора данных путем замены отсутствующих данных другим значением. Эти методы применяются, поскольку было бы непрактично удалять данные из набора данных каждый раз. Кроме того, это существенно сократит размер набора данных, что поставит вопросы о предвзятости и ухудшении анализа.
Давайте теперь узнаем важность вменения данных.
Важность вменения данных
Теперь, когда мы узнали, что такое вменение данных, давайте разберемся, почему именно это важно.
Мы используем вменение, поскольку отсутствие данных может привести к следующим проблемам:
- Искажает набор данных: большой объем отсутствующих данных может привести к аномалиям в распределении переменных, что может изменить относительную важность различных категорий в наборе данных.
- Невозможность работы с большинством библиотек Python, связанных с машинным обучением: при использовании библиотек машинного обучения (самой популярной является SkLearn) могут возникать ошибки, поскольку автоматическая обработка отсутствующих данных отсутствует.
- Влияние на окончательную модель: отсутствие данных может привести к смещению набора данных, что может повлиять на окончательный анализ модели.
- Желание восстановить весь набор данных: Обычно это происходит, когда мы не хотим потерять какие-либо (или больше) данные в нашем наборе данных, потому что все они имеют решающее значение. Кроме того, хотя набор данных не очень большой, удаление его части может оказать существенное влияние на окончательную модель.
Поскольку мы изучили важность, мы узнаем о различных методах и приемах вменения данных.
Узнайте последние тенденции в области аналитики данных!Программа последипломного образования в области аналитики данныхИзучить программу
Методы вменения данных
Узнав, что такое импутация данных и какова ее важность, теперь мы познакомимся с некоторыми различными методами импутации данных.
Вот некоторые из методов импутации данных, которые мы подробно обсудим:
- Следующее или предыдущее значение
- К Ближайшие Соседи
- Максимальное или минимальное значение
- Прогнозирование отсутствующих значений
- Наиболее часто встречающееся значение
- Среднее или линейная интерполяция
- (Округленное) Среднее или скользящее среднее или медианное значение
- Фиксированное значение
Сейчас мы подробно рассмотрим каждый из этих методов.
1. Следующее или предыдущее значение
Для данных временных рядов или упорядоченных данных существуют особые методы вменения. Эти методы учитывают отсортированную структуру набора данных, в которой близкие значения, вероятно, более сопоставимы, чем далекие. Следующее или предыдущее значение внутри временного ряда обычно заменяет отсутствующее значение как часть общего метода для вмененных неполных данных во временном ряду. Эта стратегия эффективна как для номинальных, так и для числовых значений.
2. К ближайших соседей
Цель состоит в том, чтобы найти k ближайших примеров в данных, где значение соответствующего признака не отсутствует, а затем заменить значение признака, которое встречается в группе чаще всего.
3. Максимальное или минимальное значение
Вы можете использовать минимум или максимум диапазона в качестве стоимости замены для отсутствующих значений, если вы знаете, что данные должны соответствовать определенному диапазону (минимум, максимум) и если вы знаете из процесса сбора данных, что измерительный прибор прекращает запись, и сообщение насыщается дальше, чем одна из таких границ. Например, если в финансовом обмене достигнут предел цены и процедура обмена действительно была остановлена, отсутствующая цена может быть заменена минимальным значением границы обмена.
4. Прогнозирование отсутствующих значений
Использование модели машинного обучения для определения окончательного значения подстановки для характеристики x на основе других признаков — еще один популярный метод одиночной подстановки. Модель обучается с использованием значений в оставшихся столбцах, а строки в признаке x без пропущенных значений используются в качестве обучающего набора.
В зависимости от типа признака мы можем использовать любую модель регрессии или классификации в этой ситуации. В тренировке сопротивления алгоритм используется для прогнозирования наиболее вероятного значения каждого отсутствующего значения во всех выборках.
Базовый подход к вменению, такой как среднее значение, используется для временного вменения всех пропущенных значений, когда есть пропущенные данные в более чем поле признака. Затем значения одного столбца восстанавливаются до пропущенных. После обучения модель используется для восполнения пропущенных переменных. Таким образом, обучается для каждого признака, имеющего пропущенное значение, пока модель не сможет вменить все пропущенные значения.
5. Наиболее часто встречающееся значение
Наиболее часто встречающееся значение в столбце используется для замены отсутствующих значений в другом популярном методе, который эффективен как для номинальных, так и для числовых характеристик.
6. Среднее или линейная интерполяция
Среднее или линейная интерполяция, которая вычисляет между предыдущим и следующим доступным значением и заменяет отсутствующее значение, похожа на подстановку предыдущего/следующего значения, но применима только к числовым данным. Конечно, как и в случае с другими операциями над упорядоченными данными, крайне важно точно отсортировать данные заранее, например, в случае данных временных рядов, в соответствии с временной меткой.
7. (Округленное) среднее или скользящее среднее или медианное значение
Медиана, среднее или округленное среднее — еще одни популярные методы подстановки для числовых признаков. В этом случае метод заменяет нулевые значения средним, округленным средним или медианными значениями, определенными для этого признака по всему набору данных. Рекомендуется использовать медиану вместо среднего, если в вашем наборе данных имеется значительное количество выбросов.
8. Фиксированная стоимость
Вменение фиксированного значения — это универсальный метод, который заменяет нулевые данные фиксированным значением и применим ко всем типам данных. Вы можете вменить нулевые значения в опросе, используя «не ответили» в качестве примера использования фиксированного вменения на номинальных признаках.
Поскольку мы изучили единичное вменение, его важность и методы, давайте теперь узнаем о множественном вменении.
Что такое множественное вменение?
Единичное вменение обрабатывает неизвестное пропущенное значение так, как будто это истинное значение, заменяя его единственным значением (Rubin, 1988). Единичное вменение в результате игнорирует неопределенность и почти всегда занижает вариацию. Эта проблема решается множественными вменениями, которые учитывают как неопределенность внутри вменения, так и неопределенность между вменениями.
Для каждого отсутствующего значения подходы множественного вменения данных генерируют n предложений. Каждому из этих значений n присваивается правдоподобное значение, и создаются n новых наборов данных, как если бы в каждом наборе данных имело место прямое вменение.
Таким образом, один столбец таблицы создает n совершенно новых наборов данных, которые затем индивидуально исследуются с использованием определенных методов. На следующем этапе эти анализы были объединены для получения или консолидации результатов этого набора данных.
При множественном вменении выполняются следующие шаги:
Шаг 1: Для каждого атрибута в записи набора данных, в которой отсутствует значение, создается набор из n значений, которые также должны быть вменены;
Шаг 2: Используя одну из n идей замены, полученных в предыдущем пункте, проводится статистический анализ каждого набора данных;
Шаг 3: Создается набор результатов путем объединения результатов различных анализов.
Теперь попытаемся лучше понять это на примере.
Пример множественного вменения
Ниже представлен идеальный пример множественной импутации данных.
Подумайте об исследовании, в котором отсутствует информация о систолическом артериальном давлении некоторых участников, например, об исследовании, изучающем связь между систолическим артериальным давлением и риском развития ишемической болезни сердца в будущем. Возраст (у пациентов пожилого возраста систолическое артериальное давление чаще измеряет врач), рост индекса массы тела и история курения снижают вероятность того, что эта информация отсутствует.
Мы можем использовать несколько оценок для расчета общей связи между систолическим артериальным давлением и сердечными заболеваниями, если предположим, что данные отсутствуют случайным образом, и у нас есть данные о систолическом артериальном давлении по репрезентативной выборке людей с разным индексом массы тела, возрастом, ишемической болезнью сердца и курением.
Существует потенциал для множественных импутаций для повышения надежности медицинских исследований. Однако пользователь должен моделировать вероятность каждой переменной с пропущенными значениями, используя наблюдаемые данные при использовании процесса множественной импутации. Результаты множественной импутации должны быть смоделированы тщательно и надлежащим образом, чтобы они были действительными. Если это вообще возможно, следует обратиться за специализированной статистической помощью, прежде чем использовать множественные импутации в качестве стандартной процедуры, которую можно использовать одним нажатием кнопки.
Получите сертификат по анализу данных от Simplilearn
В этой статье мы обсудили Data Imputation и его важность. Мы также обсудили некоторые из основных методов Data Imputation, а также рассмотрели множественные imputation вместе с примером.
Чтобы лучше понять эту концепцию и реализовать ее при выполнении анализа данных, рассмотрите возможность записаться на курс обучения по сертификации в области анализа данных от Simplilearn и сделайте шаг к достижению успеха в своей карьере!
Изучите более дюжины инструментов и навыков анализа данных с помощью Программы профессионального сертификата по анализу данных и получите доступ к мастер-классам преподавателей Purdue и экспертов IBM. Зарегистрируйтесь и добавьте звезду в свое резюме по анализу данных прямо сейчас!
Часто задаваемые вопросы
1. Что означает вменение данных?
Замена отсутствующих или несогласованных элементов данных приближенными значениями называется вменением данных. Она предназначена для того, чтобы замещенные значения создавали запись данных, которая проходит редактирование.
2. Что такое импутация данных в машинном обучении?
В машинном обучении мы выполняем подстановку на основе модели. Медианная и средняя подстановка — два примера методов, которые аппроксимируют пропущенные значения на основе предположений о распределении данных, которые называются «подстановкой на основе модели». В качестве альтернативы можно сделать предположения о связи между целевой переменной y и вспомогательными переменными (или переменными x) для прогнозирования пропущенных значений.
3. Каковы методы импутации данных?
Вот некоторые из различных методов импутации данных:
- Следующее или предыдущее значение
- К Ближайшие Соседи
- Максимальное или минимальное значение
- Прогнозирование отсутствующих значений
- Наиболее часто встречающееся значение
- Среднее или линейная интерполяция
- (Округленное) Среднее или скользящее среднее или медианное значение
- Фиксированное значение
4. Когда следует вводить данные?
Импутация генерирует правдоподобные гипотезы для недостающих данных. Она работает лучше всего, когда есть несколько недостающих точек данных.
5. Почему важна импутация данных?
Заменяя отсутствующие данные средним значением, основанным на другой доступной информации, вменение сохраняет все случаи. Набор данных может быть проанализирован с использованием методов, используемых для полных данных, после того, как все значения были вменены.
6. Как восполнить пропущенные значения в данных?
Статистические данные (среднее, медианное или наиболее распространенное) каждой строки, в которой присутствуют пропущенные значения, можно использовать для подстановки пропущенных значений или заменить их постоянным значением.
7. В чем разница между интерполяцией и вменением?
В то время как импутация заменяет отсутствующие данные для среднего значения столбца, интерполяция представляет собой своего рода оценку, которая создает точки данных в пределах диапазона дискретного набора существующих точек данных.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)