Влияние озер данных на цифровую трансформацию и аналитику

24 февраля Чандан Виджай, старший директор по продуктам компании Cowlant, провел экспертный вебинар Simplilearn, посвященный возникновению озер данных и их влиянию на цифровую экономику. Имея 20-летний опыт работы в технологической отрасли, Чандан является ориентированным на результат цифровым и технологическим лидером в области данных и аналитики.

Что такое озеро данных?

Чандан описал озера данных с тремя измерениями:

1. Данные в масштабе

Озеро данных — это хранилище данных, в котором размещается большой объем данных и которое предпочтительно использует облачные технологии и технологии больших данных.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

2. Разнообразие данных

Озеро данных содержит структурированные, полуструктурированные и неструктурированные данные.

3. Приложения

Озеро данных обслуживает приложения для аналитики, хранения данных, обработки данных, а также приложений искусственного интеллекта и машинного обучения.

Чандан также перечислил, что отличает озеро данных от других технологий баз данных, таких как хранилища данных или болота данных:

Необработанное против обработанного. Озеро данных может хранить необработанные данные для последующей обработки по мере необходимости, в то время как другим базам данных может потребоваться предварительная обработка необработанных данных.

Все типы против структурированных данных. Озеро данных может хранить данные любого формата, в то время как другие базы данных могут предъявлять требования к структурированию данных внутри базы данных.

Самый низкий уровень детализации по сравнению с сводными или агрегированными. Озеро данных подходит для хранения наиболее детализированных данных в их необработанной форме, в то время как другие базы данных могут захотеть уменьшить количество данных за счет суммирования или агрегирования.

Низкий против высокого. Озеро данных принимает данные по мере их создания, тогда как другие типы баз данных могут налагать график обработки для приема обработанных данных.

Аналитика больших данных против традиционной отчетности. Озеро данных может поддерживать самый широкий спектр применений данных, включая анализ больших данных, аналитику в реальном времени и машинное обучение, в то время как другие базы данных могут быть оптимизированы для информационных панелей, показателей и других традиционных отчетов.

Озеро данных включает в себя технологии хранения и обработки данных, процессы перемещения данных в озеро и из него, а также политику обработки и защиты данных в озере. На рисунке 1 суммированы эти ключевые элементы.

ЭлементыОзероДанных

Рисунок 1: Элементы озера данных

Жизненный цикл данных в озере данных

Данные в озере данных имеют определенный жизненный цикл, проходя через процессы поступления в озеро и другие процессы, к которым осуществляется доступ для использования. Последовательность процессов такая:

Создание входящего пути для данных, будь то из исходных источников данных или других систем.

Кондиционирование данных и их введение в озеро, что часто включает в себя зеркалирование данных из других систем и потоковую передачу входящих данных в режиме реального времени.

Объединение данных из различных источников в осмысленную схему хранения.

Предоставление данных в форме, которую может использовать каждое приложение, потребляющее данные.

Передача данных в преобразованном состоянии из озера данных в приложения, потребляющие данные.

Доставка данных к месту использования.

Обработка на каждом этапе может выполняться либо в пакетном, либо в потоковом режиме. Пакетная обработка имеет дело с большими пакетами данных и происходит по определенному расписанию, либо через заданные интервалы времени, либо при определенных триггерных событиях. Таким образом, он имеет высокую задержку и время задержки, иногда измеряемое часами или днями. Потоковая обработка микропакетов данных происходит в режиме реального времени. Он имеет низкую задержку и время задержки, которое может составлять от миллисекунд до секунд. Поскольку озера данных настроены на работу с высокодетализированными данными, они хорошо подходят для потоковой обработки.

Цифровая трансформация через озера данных

Традиционный взгляд на базы данных заключался в анализе существующего бизнес-процесса, определении того, какие данные он использует и как эти данные, а также в проектировании и создании базы данных, хранилища данных или болота данных для поддержки этого процесса. Такое внимание к операционной эффективности бизнес-процесса имеет тенденцию привязывать организацию к этому процессу и затруднять его развитие или замену по мере изменения потребностей бизнеса, поскольку сама структура данных организации отражает существующий процесс.

Напротив, озеро данных управляет данными организации независимо от процессов, использующих эти данные. Процесс налагает только требования, чтобы озеро данных содержало данные, необходимые процессу, и имело преобразование, которое делает данные совместимыми с процессом. В то же время озеро данных не накладывает ограничений на какие-либо новые процессы, которые могут быть построены для использования данных организации. В нынешних условиях быстрой цифровой трансформации, вызванной развитием технологий и социальными изменениями, вызванными пандемией COVID-19 (работа на дому, социальное дистанцирование, бесконтактная доставка продуктов), такая гибкость является большим преимуществом для организаций, которым необходимо гибко адаптируют свои процессы к новым требованиям.

При наличии озера данных данные становятся доступными более широкому кругу внутренних и внешних потребителей данных организации. Еще более интересно то, что этот расширенный диапазон означает, что разные потребители данных могут в конечном итоге общаться друг с другом о том, какие данные каждый использует и как, и это может создать новые возможности для использования данных организации неожиданными и весьма инновационными способами.

Аналитика через озера данных

Аналитика данных обычно делится на четыре широкие категории:

  • Описательное: «где»
  • Диагностика: «почему»
  • Прогнозирование: «что и когда»
  • Предписывающий: «что, когда и моделирование»

Описательная аналитика смотрит на то, где в организации что-то произошло. Это традиционное сообщение о событиях и фактах, и традиционные методы управления данными хорошо подходят для этой задачи.

Диагностическая аналитика добавляет дополнительный смысл, анализируя, почему произошли определенные события или результаты. Озера данных помогают в этом типе аналитики, поскольку данные из разрозненных систем или процессов собираются в одном месте для анализа. Поэтому гораздо проще исследовать связи между различными событиями и результатами, чтобы смоделировать объяснения интересующих результатов.

Прогнозная аналитика также может использовать глубокую историю, хранящуюся в озере данных, для создания более эффективных моделей того, как работает бизнес и каких результатов он достигает. Детализация озера данных и длина истории позволяют более тщательно тестировать прогнозные модели на исторических данных, чтобы создать модель, которая лучше всего соответствует наблюдаемым данным.

Предписывающая аналитика выводит прогнозную аналитику на новый уровень. Используя прогнозную аналитику в исследовании «что если», вы можете создавать симуляции для изучения последствий различных политических или процедурных изменений. Например, вы можете использовать свои исторические данные для построения предписывающей модели кредиторской задолженности и определения оптимального количества дней для оплаты счетов.

Получите широкое представление о ключевых технологиях и навыках, используемых в области анализа данных и науки о данных, включая статистику, с помощью программы профессиональных сертификатов в области анализа данных.

Вопросы аудитории – и ваши

Чандан ответил на множество вопросов от живой аудитории вебинара. Вы можете увидеть все мероприятие, включая вопросы и ответы, на видео выше.

Simplilearn предлагает множество курсов и программ по науке о данных, которые помогут поднять вашу карьеру на новый уровень. Озера данных — это лишь одна из тем по инженерии данных, включенных в программу профессиональных сертификатов по инженерии данных Университета Пердью. Если ваш интерес к науке о данных связан с архитектурой данных и передовыми приложениями в области искусственного интеллекта и машинного обучения, вам следует рассмотреть возможность получения степени PG в области науки о данных в Калифорнийском технологическом университете.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *