Разница между добычей данных и статистикой
Жан-Поль Бензери говорит«Анализ данных — это инструмент для извлечения жемчужины истины из месива данных. «А добыча данных и статистика — это области, которые работают над достижением этой цели. Хотя они могут пересекаться, это два совершенно разных метода, требующих разных навыков.
Статистика составляет основную часть интеллектуального анализа данных, которая охватывает весь процесс анализа данных. Статистика помогает выявлять закономерности, которые в дальнейшем помогают выявлять различия между случайным шумом и значимыми результатами, предоставляя теорию для оценки вероятностей предсказаний и многого другого. Таким образом, как интеллектуальный анализ данных, так и статистика, как методы анализа данных, помогают принимать более обоснованные решения.
Давайте рассмотрим это немного подробнее.
Хотите стать разработчиком Hadoop? Ознакомьтесь с курсом обучения по сертификации Big Data Hadoop и получите сертификат уже сегодня.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Что такое интеллектуальный анализ данных?
Специалист по данным Усама Файяд описывает интеллектуальный анализ данных как «нетривиальный процесс выявления действительных, новых, потенциально полезных и в конечном итоге понятных закономерностей в данных».
Современные технологии сделали возможным автоматическое извлечение скрытой прогностической информации из баз данных, а также слияние различных других направлений или областей, таких как статистика, искусственный интеллект, машинное обучение, управление базами данных, распознавание образов и визуализация данных.
При интеллектуальном анализе данных человек применяет различные методы статистики, анализа данных и машинного обучения для исследования и анализа больших наборов данных с целью извлечения новой и полезной информации, которая принесет пользу владельцу этих данных.
Используя интеллектуальный анализ данных, организация может обнаружить полезные идеи из своих существующих данных. Например, анализируя сообщения в социальных сетях, компания по производству закусок может с удивлением узнать, что ее крупнейшим рынком являются отцы-одиночки.
Что такое статистика?
Статистика — это компонент интеллектуального анализа данных, который предоставляет инструменты и аналитические методы для работы с большими объемами данных. Это наука обучения на основе данных, которая включает в себя все: от сбора и организации до анализа и представления данных. Статистика фокусируется на вероятностных моделях, в частности на выводе, с использованием данных.
Хотя цели статистики и добычи данных схожи, считается, что статистиков, которые могут справиться с требованиями аналитиков данных, очень мало. Распространены два типа статистики: описательная и выводная. Описательная статистика организует и суммирует данные для выборки. Методология использования этих сводок для вывода из целых наборов данных называется выводной статистикой.
Насколько схожи или различны интеллектуальный анализ данных и статистика?
В исследовательской работе Джерома Х. Фридмана из Стэнфордского университета объясняется связь между статистикой и интеллектуальным анализом данных.
И добыча данных, и статистика связаны с обучением на основе данных. Они все направлены на обнаружение и идентификацию структур в данных, намереваясь превратить данные в информацию. И хотя цели этих двух методов пересекаются, у них разные подходы.
Статистика — это всего лишь количественная оценка данных. Хотя она использует инструменты для поиска соответствующих свойств данных, она во многом похожа на математику. Она предоставляет инструменты, необходимые для добычи данных. Добыча данных, с другой стороны, создает модели для обнаружения закономерностей и взаимосвязей в данных, особенно из больших баз данных.
Чтобы прояснить ситуацию еще больше, вот несколько популярных методов анализа данных и типов статистики в анализе данных.
Хотите начать карьеру в качестве инженера по обработке данных? Пройдите обучение на инженера по обработке данных и получите сертификат.
Приложения для интеллектуального анализа данных
Интеллектуальный анализ данных по сути доступен в виде нескольких коммерческих систем. Сегодня интеллектуальный анализ данных широко используется практически в каждой отрасли. Например, финансовый анализ данных обычно носит систематический характер, поскольку данные обладают высокой надежностью. Типичные случаи финансового анализа данных включают прогнозирование платежей по кредитам, анализ кредитной политики клиентов, классификацию и кластеризацию клиентов для целевого маркетинга, обнаружение отмывания денег и других финансовых преступлений.
Интеллектуальный анализ данных играет более важную роль в розничной торговле, поскольку он собирает данные из различных источников, таких как продажи, история покупок клиентов, транспортировка товаров, потребление и услуги. В розничной торговле он помогает в определении поведения клиентов; проектировании и построении хранилищ данных на основе преимуществ интеллектуального анализа данных; многомерном анализе продаж, клиентов, продуктов, времени и региона; эффективности кампаний по продажам; удержании клиентов; рекомендациях по продуктам и перекрестных ссылках на товары.
В телекоммуникационной отрасли интеллектуальный анализ данных помогает выявлять закономерности в телекоммуникациях, обнаруживать мошеннические действия, повышать качество услуг, а также эффективнее использовать ресурсы.
Data mining также внес значительный вклад в биологический анализ данных, такой как геномика, протеомика, функциональная геномика и биомедицинские исследования. Он помогает в анализе семантической интеграции гетерогенных, распределенных геномных и протеомных баз данных, ассоциативного и путевого анализа, инструментов визуализации в генетическом анализе данных и многого другого.
Он также помогает в анализе больших объемов данных из таких областей, как науки о Земле, астрономия и т. д. Другие научные приложения, такие как моделирование климата и экосистем, химическая инженерия и динамика жидкостей, также извлекают выгоду из интеллектуального анализа данных.
Интеллектуальный анализ данных также нашел огромное применение в обнаружении вторжений и угроз, которые атакуют сетевые ресурсы, и играет важную роль в сетевом администрировании. Области, в которых интеллектуальный анализ данных может применяться в обнаружении вторжений, — это разработка алгоритмов интеллектуального анализа данных для обнаружения вторжений, ассоциативный и корреляционный анализ, агрегация для выбора и построения отличительных атрибутов, анализ потоковых данных, распределенный интеллектуальный анализ данных, а также инструменты визуализации и запросов.
Тенденции в области интеллектуального анализа данных
В зависимости от типа данных и вида информации, которую вы пытаетесь расшифровать, вы можете выбрать любой из этих различных методов анализа данных.
Некоторые тенденции в развитии концепции интеллектуального анализа данных:
Некоторые тенденции в развитии концепции интеллектуального анализа данных:
- Исследование приложений
- Масштабируемые и интерактивные методы анализа данных
- Визуальный анализ данных
- Новые способы добычи сложных типов данных
- Биологический анализ данных
- Интеллектуальный анализ данных и разработка программного обеспечения
- Веб-майнинг, интеллектуальный анализ данных в реальном времени
- Распределенный анализ данных
- Анализ данных в реальном времени
- Интеллектуальный анализ данных из нескольких баз данных
- Защита конфиденциальности и информационная безопасность при интеллектуальном анализе данных
Заключение
Эта статья представляет собой лишь обзор добычи данных и статистики — обе эти области являются обширными предметами, богатыми информацией. Хотите узнать больше о добыче данных и статистике и о том, как они работают вместе? Ознакомьтесь с некоторыми из наших курсов по Большим данным и аналитике, включая наш курс по науке о данных и курс по бизнес-аналитике.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)