Влияние озер данных на цифровую трансформацию и аналитику
24 февраля Чандан Виджай, старший директор по продуктам Cognizant, провел экспертный вебинар Simplilearn о появлении озер данных и их влиянии на цифровую экономику. Будучи 20-летним ветераном технологической отрасли, Чандан является ориентированным на результат цифровым и технологическим лидером в области данных и аналитики.
Что такое озеро данных?
Чандан описал озера данных с тремя измерениями:
1. Масштаб данных
Озеро данных — это хранилище данных, в котором размещается большой объем данных и которое предпочтительно использует облачные технологии и технологии больших данных.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
2. Разнообразие данных
В озере данных хранятся структурированные, полуструктурированные и неструктурированные данные.
3. Приложения
Озеро данных обслуживает аналитику, хранилище данных, науку о данных, а также приложения искусственного интеллекта и машинного обучения.
Чандан также перечислил, что отличает озеро данных от других технологий баз данных, таких как хранилища данных или болота данных:
Необработанные и обработанные. Озеро данных может хранить необработанные данные для последующей обработки по мере необходимости, в то время как другие базы данных могут требовать предварительной обработки необработанных данных.
Все типы против структурированных данных. Озеро данных может хранить данные любого формата, в то время как другие базы данных могут налагать требование, чтобы данные были структурированы внутри базы данных.
Самый низкий уровень детализации по сравнению с суммированием или агрегированием. Озеро данных подходит для хранения наиболее детализированных данных в форме, близкой к исходной, в то время как другие базы данных могут потребовать сокращения объема данных за счет суммирования или агрегирования.
Низкий против высокого. Озеро данных принимает данные по мере их создания, тогда как другие типы баз данных могут налагать график обработки для приема обработанных данных.
Аналитика больших данных против традиционной отчетности. Озеро данных может поддерживать самые разные варианты использования данных, включая аналитику больших данных, аналитику в реальном времени и машинное обучение, в то время как другие базы данных могут быть оптимизированы для панелей мониторинга, метрик и другой традиционной отчетности.
Озеро данных охватывает технологии хранения и обработки данных, процессы перемещения данных в озеро и из озера, а также политики обработки и защиты данных в озере. Рисунок 1 суммирует эти ключевые элементы.
Рисунок 1: Элементы озера данных
Жизненный цикл данных в озере данных
Данные в озере данных имеют определенный жизненный цикл, проходя через процессы для входа в озеро и другие процессы для доступа к использованию. Последовательность процессов такова:
Создание входящего пути для данных, как из исходных источников данных, так и из других систем.
Подготовка данных и введение их в озеро, что часто включает в себя зеркалирование данных из других систем и потоковую передачу входящих данных в режиме реального времени.
Объединение данных из различных источников в осмысленную схему хранения.
Предоставление данных в форме, которую может использовать каждое потребляющее данные приложение.
Передача данных в преобразованном виде из озера данных в приложения, потребляющие данные.
Доставка данных к месту использования.
Обработка на каждом этапе может выполняться либо в пакетном режиме, либо в потоковом режиме. Пакетная обработка имеет дело с большими пакетами данных и происходит по определенному графику, либо через заданные интервалы времени, либо при заданных событиях-триггерах. Таким образом, она имеет высокую задержку и время задержки, иногда измеряемое часами или днями. Потоковая обработка происходит в режиме реального времени на микропакетах данных. Она имеет низкую задержку и время задержки, которые могут составлять от миллисекунд до секунд. Поскольку озера данных настроены на работу с высокодетализированными данными, они хорошо подходят для потоковой обработки.
Цифровая трансформация посредством озер данных
Традиционное представление о базах данных заключается в анализе существующего бизнес-процесса, определении того, какие данные он использует и как он использует эти данные, а также в проектировании и создании базы данных, хранилища данных или болота данных для поддержки этого процесса. Такой акцент на операционной эффективности бизнес-процесса имеет тенденцию запирать организацию в процессе и затруднять развитие или замену процесса по мере изменения потребностей бизнеса, поскольку сама структура данных организации отражает существующий процесс.
Напротив, озеро данных управляет данными организации независимо от процессов, которые используют эти данные. Процесс налагает только требования, чтобы озеро данных содержало данные, необходимые процессу, и имело преобразование, которое делает данные совместимыми с процессом. В то же время озеро данных не накладывает ограничений или запретов на какие-либо новые процессы, которые могут быть созданы для использования данных организации. В нынешнем климате быстрой цифровой трансформации, обусловленной технологическими достижениями и социальными изменениями, вызванными пандемией COVID-19 (работа из дома, социальное дистанцирование, бесконтактная доставка продуктов), эта гибкость является большим преимуществом для организаций, которым необходимо гибко адаптировать свои процессы к новым требованиям.
При наличии озера данных данные становятся доступными более широкому кругу внутренних и внешних потребителей данных организации. Что еще интереснее, этот расширенный круг означает, что различные потребители данных могут в конечном итоге общаться друг с другом о том, какие данные каждый использует и как, и это может создать новые возможности для использования данных организации неожиданными и весьма инновационными способами.
Аналитика через озера данных
Аналитика данных обычно делится на четыре основные категории:
- Описательное: «где»
- Диагностика: «почему»
- Предиктивный: «что и когда»
- Предписывающий: «что, когда и моделирование»
Описательная аналитика смотрит, где в организации что-то произошло. Это традиционный отчет о событиях и фактах, и традиционные методы управления данными хорошо подходят для этой задачи.
Диагностическая аналитика добавляет слой смысла, рассматривая, почему произошли определенные события или результаты. Озера данных помогают с этим типом аналитики, поскольку данные из разрозненных систем или процессов собираются в одном месте для анализа. Поэтому гораздо проще исследовать связи между различными событиями и результатами, чтобы моделировать объяснения для интересующих результатов.
Предиктивная аналитика также может использовать глубокую историю, хранящуюся в озере данных, для построения лучших моделей того, как работают компании и каких результатов они достигают. Детализация и длина истории озера данных позволяют вам более широко тестировать предиктивные модели на основе исторических данных, чтобы создать модель, которая лучше всего соответствует наблюдаемым данным.
Предписывающая аналитика выводит предиктивную аналитику на новый уровень. Используя предиктивную аналитику в исследовании «что если», вы можете создавать симуляции для изучения эффектов различных изменений политики или процедур. Например, вы можете использовать свои исторические данные для построения предписывающей модели кредиторской задолженности, чтобы найти оптимальное количество дней для оплаты счетов.
Получите широкий опыт в использовании ключевых технологий и навыков, используемых в аналитике данных и науке о данных, включая статистику, с помощью Программы профессиональной сертификации в области аналитики данных.
Вопросы аудитории и ваши вопросы
Чандан ответил на множество вопросов от живой аудитории вебинара. Вы можете увидеть все мероприятие, включая вопросы и ответы, в видео выше.
Simplilearn предлагает множество курсов и программ по науке о данных, чтобы вывести свою карьеру на новые высоты. Озера данных — это лишь одна из тем по инженерии данных, включенных в Программу профессионального сертификата по инженерии данных в Университете Пердью. Если ваш интерес к науке о данных касается архитектуры данных и передовых приложений в области ИИ и машинного обучения, вам следует рассмотреть программу PG по науке о данных в Калифорнийском технологическом университете.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)