Введение в вменение данных | Простое обучение
Вменение в статистике относится к процедуре использования альтернативных значений вместо отсутствующих данных. Это называется «вменением единицы» при замене точки данных и «вменением элемента» при замене компонента точки данных.
Отсутствие информации может привести к значительной предвзятости, затруднить обработку и анализ данных и снизить эффективность — вот три основные проблемы, которые это вызывает. Вменение рассматривается как альтернатива списочному исключению случаев с пропущенными значениями, поскольку отсутствие данных может затруднить анализ данных.
Другими словами, большинство статистических программ по умолчанию отклоняют любой случай с отсутствующим значением, когда для случая отсутствуют одни или несколько данных, что может добавить систематическую ошибку или ухудшить обобщаемость результатов.
Заменяя недостающую информацию оценочным значением в зависимости от другой доступной информации, вменение сохраняет все случаи. Набор данных можно проанализировать с использованием методов, используемых для полных данных, после того как все значения были вменены. Ученые использовали множество идей для объяснения недостающих данных, но большая часть из них создает предвзятость.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
В этой статье мы погрузимся в мир вменения данных, обсудим его важность и методы, а также узнаем о множественном вменении.
Что такое вменение данных?
Вменение данных — это метод сохранения большей части данных и информации набора данных путем замены отсутствующих данных другим значением. Эти методы используются потому, что было бы непрактично каждый раз удалять данные из набора данных. Кроме того, это существенно уменьшит размер набора данных, что повлечет за собой вопросы о предвзятости и ухудшит анализ.
Давайте теперь узнаем важность вменения данных.
Важность вменения данных
Теперь, когда мы узнали, что такое вменение данных, давайте посмотрим, почему именно это важно.
Мы используем вменение, поскольку отсутствие данных может привести к следующим проблемам:
- Искажает набор данных. Большие объемы недостающих данных могут привести к аномалиям в распределении переменных, что может изменить относительную важность различных категорий в наборе данных.
- Невозможно работать с большинством библиотек Python, связанных с машинным обучением. При использовании библиотек машинного обучения (наиболее популярной является SkLearn) могут возникать ошибки, поскольку автоматическая обработка недостающих данных отсутствует.
- Влияние на окончательную модель. Отсутствие данных может привести к смещению набора данных, что может повлиять на анализ окончательной модели.
- Желание восстановить весь набор данных. Обычно это происходит, когда мы не хотим потерять какие-либо (или больше) данные в нашем наборе данных, поскольку все они имеют решающее значение. Кроме того, хотя набор данных не очень велик, удаление его части может существенно повлиять на окончательную модель.
Поскольку мы изучили важность, мы узнаем о различных методах и методах вменения данных.
Методы вменения данных
Узнав, что такое вменение данных и его важность, мы теперь узнаем о некоторых различных методах вменения данных. Вот некоторые из методов вменения данных, которые мы будем подробно обсуждать:
- Следующее или предыдущее значение
- K Ближайшие соседи
- Максимальное или минимальное значение
- Прогнозирование отсутствующего значения
- Наиболее частое значение
- Средняя или линейная интерполяция
- (Округлено) Среднее или скользящее среднее или медианное значение
- Фиксированное значение
Сейчас мы подробно рассмотрим каждую из этих техник.
1. Следующее или предыдущее значение
Для данных временных рядов или упорядоченных данных существуют специальные методы вменения. Эти методы учитывают отсортированную структуру набора данных, при которой ближайшие значения, вероятно, более сопоставимы, чем удаленные. Следующее или предыдущее значение внутри временного ряда обычно заменяется отсутствующим значением в рамках общего метода вмененных неполных данных во временном ряду. Эта стратегия эффективна как для номинальных, так и для числовых значений.
2. K ближайших соседей
Цель состоит в том, чтобы найти в данных k ближайших примеров, в которых значение соответствующего признака не отсутствует, а затем заменить значение признака, который встречается наиболее часто в группе.
3. Максимальное или минимальное значение
Вы можете использовать минимум или максимум диапазона в качестве стоимости замены пропущенных значений, если вы знаете, что данные должны укладываться в определенный диапазон (минимум, максимум) и если в процессе сбора данных вам известно, что измерительный прибор запись прекращается, и сообщение выходит за пределы одной из таких границ. Например, если при финансовом обмене был достигнут ценовой предел и процедура обмена действительно была остановлена, отсутствующая цена может быть заменена минимальным значением границы обмена.
4. Прогнозирование отсутствующего значения
Использование модели машинного обучения для определения окончательного значения вменения характеристики x на основе других признаков — еще один популярный метод однократного вменения. Модель обучается с использованием значений в остальных столбцах, а строки признака x без пропущенных значений используются в качестве обучающего набора.
В зависимости от типа признака в этой ситуации мы можем использовать любую модель регрессии или классификации. При тренировках с отягощениями алгоритм используется для прогнозирования наиболее вероятного значения каждого пропущенного значения во всех выборках.
Базовый подход вменения, такой как среднее значение, используется для временного вменения всех пропущенных значений, когда отсутствуют данные не только в поле объекта. Затем значения одного столбца восстанавливаются до отсутствующих. После обучения модель используется для заполнения недостающих переменных. Таким образом, объект обучается для каждого признака, в котором есть пропущенное значение, до тех пор, пока модель не сможет вменить все пропущенные значения.
5. Наиболее часто встречающееся значение
Наиболее часто встречающееся значение в столбце используется для замены отсутствующих значений другим популярным методом, который эффективен как для номинальных, так и для числовых характеристик.
6. Средняя или линейная интерполяция
Средняя или линейная интерполяция, которая рассчитывает между предыдущим и следующим доступным значением и заменяет отсутствующее значение, аналогична вменению предыдущего/следующего значения, но применима только к числовым данным. Конечно, как и в случае с другими операциями с упорядоченными данными, крайне важно заранее точно отсортировать данные, например, в случае данных временных рядов, по временной метке.
7. (Округленное) Среднее или скользящее среднее или медианное значение.
Медиана, среднее значение или округленное среднее значение — еще одни популярные методы вменения числовых характеристик. В этом случае этот метод заменяет нулевые значения средними, округленными средними или медианными значениями, определенными для этого объекта по всему набору данных. Рекомендуется использовать медиану, а не среднее значение, если в вашем наборе данных имеется значительное количество выбросов.
8. Фиксированная стоимость
Вменение фиксированного значения — это универсальный метод, который заменяет нулевые данные фиксированным значением и применим ко всем типам данных. Вы можете вменить нулевые значения в опросе, используя «не ответили» в качестве примера использования фиксированного вменения для номинальных признаков.
Поскольку мы изучили одиночное вменение, его важность и методы, давайте теперь узнаем о множественном вменении.
Что такое множественное вменение?
При однократном вменении неизвестное пропущенное значение рассматривается как истинное значение, заменяя его одним значением (Рубин, 1988). В результате одиночное вменение не учитывает неопределенность и почти всегда занижает вариации. Эта проблема решается с помощью множественных вменений, которые учитывают неопределенность как внутри, так и между вменениями.
Для каждого пропущенного значения множественные подходы к вменению данных генерируют n предложений. Каждому из этих значений n присваивается правдоподобное значение, и создаются n новых наборов данных, как если бы в каждом наборе данных имело место прямое вменение.
Таким образом, один столбец таблицы создает n совершенно новых наборов данных, которые затем индивидуально исследуются с использованием определенных методов. На последующем этапе эти анализы были объединены для получения или консолидации результатов этого набора данных.
При множественном вменении выполняются следующие шаги:
Шаг 1. Для каждого атрибута в записи набора данных, в котором отсутствует значение, создается коллекция из n значений, которые также подлежат вменению;
Шаг 2: Используя одну из n идей замены, представленных в предыдущем пункте, проводится статистический анализ каждого набора данных;
Шаг 3: Набор результатов создается путем объединения результатов различных анализов.
Теперь мы попытаемся понять это лучше, рассмотрев пример.
Пример множественного вменения
Ниже описан идеальный пример множественного вменения данных.
Подумайте об исследовании, в котором у некоторых участников отсутствует информация о систолическом артериальном давлении, например об исследовании взаимосвязи между систолическим артериальным давлением и риском развития ишемической болезни сердца в дальнейшем. Возраст (пожилым пациентам с большей вероятностью врач измеряет систолическое артериальное давление), рост индекса массы тела и курение в анамнезе — все это снижает вероятность его отсутствия.
Мы можем использовать множественные оценки для расчета общей связи между систолическим артериальным давлением и сердечно-сосудистыми заболеваниями, если мы предполагаем, что данные отсутствуют случайным образом, и у нас есть информационные данные о систолическом артериальном давлении на репрезентативной выборке людей с индексом массы тела, возрастными группами, коронарными заболеваниями. болезни сердца и курение.
Существует возможность множественных вменений для повышения надежности медицинских исследований. Однако при использовании процесса множественного вменения пользователь должен смоделировать вероятность каждой переменной с пропущенными значениями, используя наблюдаемые данные. Результаты множественного вменения должны моделироваться тщательно и надлежащим образом, чтобы они были действительными. Если это вообще возможно, следует обратиться за специализированной статистической помощью, прежде чем использовать множественные вменения в качестве стандартной процедуры, которую можно использовать одним нажатием кнопки.
Выберите правильную программу
Сделайте осознанный выбор для продвижения своей карьеры в области науки о данных, изучив наше обширное сравнение курсов. Мы предоставили подробный обзор наших программ, что позволит вам найти идеальную программу, которая идеально соответствует вашим целям и стремлениям в динамичной области науки о данных.
Название программы | Магистерская программа Data Scientist | Последипломная программа в области науки о данных | Последипломная программа в области науки о данных |
Гео | Все регионы | Все регионы | Не применимо в США |
Университет | Простое обучение | Пердью | Калтех |
Продолжительность курса | 11 месяцев | 11 месяцев | 11 месяцев |
Требуется опыт кодирования | Базовый | Базовый | Нет |
Навыки, которые вы изучите | Более 10 навыков, включая структуру данных, манипулирование данными, NumPy, Scikit-Learn, Tableau и многое другое. | 8+ навыков, включая Исследовательский анализ данных, описательная статистика, логическая статистика и многое другое. | 8+ навыков, включая Контролируемое и неконтролируемое обучение Глубокое обучение Визуализация данных и многое другое. |
Дополнительные преимущества | Прикладное обучение через Capstone и более 25 проектов по науке о данных | Членство в Ассоциации выпускников Purdue Бесплатное членство IIMJobs Pro на 6 месяцев Возобновить помощь в построении | До 14 кредитов CEU Членство в кружке Caltech CTME |
Расходы | $$ | $$$$ | $$$$ |
Изучите программу | Изучите программу | Изучите программу |
Получите сертификат по аналитике данных от Simplilearn
В этой статье мы обсудили вменение данных и его важность. Мы также обсудили некоторые основные методы вменения данных, а также рассмотрели несколько вменений вместе с примером.
Чтобы лучше понять эту концепцию и реализовать ее при выполнении анализа данных, рассмотрите возможность зачисления в аспирантуру Калифорнийского технологического института Simplilearn по науке о данных и сделайте шаг к успеху в своей карьере!
Часто задаваемые вопросы
1. Что означает вменение в данных?
Замена отсутствующих или противоречивых элементов данных приблизительными значениями называется вменением данных. Он предназначен для того, чтобы заменяемые значения создавали запись данных, допускающую редактирование.
2. Что такое вменение данных в машинном обучении?
В машинном обучении мы выполняем вменение на основе модели. Медианное и среднее вменение — это два примера методов, аппроксимирующих недостающие значения на основе предположений о распределении данных, которые называются «вменением на основе модели». В качестве альтернативы можно сделать предположения о связи между целевой переменной y и вспомогательными переменными (или переменными x), чтобы предвидеть пропущенные значения.
3. Каковы методы вменения данных?
Некоторые из различных методов вменения данных:
- Следующее или предыдущее значение
- K Ближайшие соседи
- Максимальное или минимальное значение
- Прогнозирование отсутствующего значения
- Наиболее частое значение
- Средняя или линейная интерполяция
- (Округлено) Среднее или скользящее среднее или медианное значение
- Фиксированное значение
4. Когда следует импутировать данные?
Вменение генерирует правдоподобные гипотезы из-за отсутствия данных. Лучше всего это работает, когда есть несколько недостающих точек данных.
5. Почему важно вменение данных?
Заменяя отсутствующие данные средним значением, основанным на некоторой другой доступной информации, вменение сохраняет все случаи. Набор данных можно проанализировать с использованием методов, используемых для полных данных, после того как все значения были вменены.
6. Как вы учитываете недостающие значения в данных?
Статистические данные (среднее, медианное или наиболее распространенное) каждой строки, в которой присутствуют пропущенные значения, можно использовать для вменения пропущенных значений или их можно заменить постоянным значением.
7. В чем разница между интерполяцией и вменением?
В то время как вменение заменяет отсутствующие данные для среднего значения столбца, интерполяция представляет собой своего рода оценку, которая создает точки данных в пределах диапазона дискретного набора существующих точек данных.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)