24 лучших вопроса и ответа на собеседовании по моделированию данных на 2024 год

Само собой разумеется, что если вы хотите успешно пройти следующее собеседование, вам сначала нужно убедиться, что ваша квалификация достойна. Но вы можете сделать больше, чтобы взвесить шансы в свою пользу. Да, знать свои вещи очень важно, но также и подготовка.

В данном контексте речь идет о готовности к вопросам, с которыми вы, скорее всего, столкнетесь на собеседовании. Все знания в мире будут бесполезны, если вы не знаете, где их применить. Если вы знаете, какие вопросы вам будут задавать, вы можете просмотреть материал и подготовить лучшие ответы.

Итак, сегодня мы рассмотрим наиболее часто задаваемые вопросы на собеседованиях по моделированию данных. Мы начнем с базовых вопросов, затем пройдемся по промежуточному уровню, а затем к продвинутым.

Но прежде чем мы рассмотрим вопросы, давайте на минутку зададимся вопросом: «Что такое модель данных?»

Что такое модель данных?

Модель данных организует различные элементы данных и стандартизирует их связь друг с другом и свойствами реальных объектов. Логично, что моделирование данных — это процесс создания этих моделей данных.

Модели данных состоят из сущностей, а сущности — это объекты и концепции, данные которых мы хотим отслеживать. Они, в свою очередь, становятся таблицами, найденными в базе данных. Потенциальными субъектами являются клиенты, продукты, производители и продавцы.

У каждой сущности есть атрибуты — сведения, которые пользователи хотят отслеживать. Например, имя клиента является атрибутом.

Давайте разберемся с вопросами на собеседовании по моделированию данных!

Вопросы для собеседования по базовому моделированию данных

1. Каковы три типа моделей данных?

Три типа моделей данных:

Физическая модель данных. Здесь структура или схема описывает, как данные физически хранятся в базе данных.
Концептуальная модель данных. Эта модель фокусируется на высокоуровневом представлении пользователя о рассматриваемых данных.
Логические модели данных. Они занимают промежуточное положение между физическими и теоретическими моделями данных, позволяя логическому представлению данных существовать отдельно от физического хранилища.

2. Что такое таблица?

Таблица состоит из данных, хранящихся в строках и столбцах. Столбцы, также известные как поля, отображают данные с выравниванием по вертикали. Строки, также называемые записью или кортежем, представляют собой горизонтальное выравнивание данных.

3. Что такое нормализация?

Нормализация базы данных — это процесс проектирования базы данных таким образом, чтобы уменьшить избыточность данных без ущерба для целостности.

4. Для чего разработчик моделей данных использует нормализацию?

Целями нормализации являются:

Удалите бесполезные или избыточные данные
Уменьшите сложность данных
Обеспечьте связи между таблицами в дополнение к данным, находящимся в таблицах.
Обеспечьте зависимости данных и логическое хранение данных.

5. Итак, что такое денормализация и какова ее цель?

Денормализация — это метод, при котором избыточные данные добавляются в уже нормализованную базу данных. Эта процедура повышает производительность чтения, жертвуя производительностью записи.

6. Что означает ERD и что это такое?

ERD означает «Диаграмма отношений сущностей» и представляет собой логическое представление сущностей, определяющее отношения между сущностями. Сущности располагаются в прямоугольниках, а стрелки символизируют отношения.

7. Что такое суррогатный ключ?

Суррогатный ключ, также известный как первичный ключ, обеспечивает соблюдение числовых атрибутов. Этот суррогатный ключ заменяет естественные ключи. Вместо первичных или составных первичных ключей разработчики моделей данных создают суррогатный ключ, который является ценным инструментом для идентификации записей, построения SQL-запросов и повышения производительности.

8. Какие критические типы отношений встречаются в модели данных? Опиши их.

Основные типы отношений:

Идентификация. Линия связи обычно соединяет родительские и дочерние таблицы. Но если ссылочный столбец дочерней таблицы является частью первичного ключа таблицы, таблицы соединяются толстой линией, обозначающей идентифицирующую связь.
Неидентифицирующий. Если ссылочный столбец дочерней таблицы НЕ является частью первичного ключа таблицы, таблицы соединяются пунктирной линией, что означает неидентифицирующую связь.
Саморекурсивный. Рекурсивная связь — это отдельный столбец в таблице, связанный с первичным ключом в той же таблице.

9. Что такое модель данных предприятия?

Это модель данных, состоящая из всех записей, необходимых предприятию.

10. С какими наиболее распространенными ошибками вы можете столкнуться при моделировании данных?

Это ошибки, которые чаще всего встречаются при моделировании данных.

Построение слишком широких моделей данных. Если количество таблиц превышает 200, модель данных становится все более сложной, что увеличивает вероятность сбоя.
Ненужные суррогатные ключи: суррогатные ключи следует использовать только в том случае, если естественный ключ не может выполнять роль первичного ключа.
Цель отсутствует. Могут возникнуть ситуации, когда пользователь не имеет ни малейшего представления о миссии или цели бизнеса. Трудно, если не невозможно, создать конкретную бизнес-модель, если у разработчика модели данных нет реального понимания бизнес-модели компании.
Неподходящая денормализация: пользователям не следует использовать эту тактику, если для этого нет веской причины. Денормализация повышает производительность чтения, но создает избыточные данные, которые сложно поддерживать.

11. Объясните две разные схемы проектирования.

Две схемы проектирования называются схемой «Звезда» и схемой «Снежинка». Схема «Звезда» содержит таблицу фактов, центрированную вокруг нее, и несколько таблиц измерений. Схема «Снежинка» аналогична, за исключением того, что уровень нормализации выше, в результате чего схема выглядит как снежинка.

12. Что такое медленно меняющееся измерение?

Это измерения, используемые для управления как историческими данными, так и текущими данными в хранилищах данных. Существует четыре различных типа медленно меняющихся размеров: от SCD типа 0 до SCD типа 3.

13. Что такое витрина данных?

Витрина данных — это наиболее простой набор хранилищ данных, который используется для сосредоточения внимания на одной функциональной области любого конкретного бизнеса. Витрины данных — это подмножество хранилищ данных, ориентированных на определенное направление бизнеса или функциональную область организации (например, маркетинг, финансы, продажи). Данные попадают в витрины данных из различных транзакционных систем, других хранилищ данных или даже из внешних источников.

14. Что такое степень детализации?

Детализация представляет собой уровень информации, хранящейся в таблице. Детализация определяется как высокая или низкая. Данные с высокой степенью детализации содержат данные уровня транзакций. Низкая степень детализации имеет только информацию низкого уровня, например, ту, что содержится в таблицах фактов.

15. Что такое разреженность данных и как она влияет на агрегацию?

Разреженность данных определяет, сколько данных у нас есть для указанного измерения или сущности модели. Если в измерениях хранится недостаточно информации, то для хранения этих агрегатов требуется больше места, что приводит к созданию слишком большой и громоздкой базы данных.

16. Что такое сущности подтипа и супертипа?

Сущности могут быть разбиты на несколько подсущностей или сгруппированы по конкретным признакам. Каждый подобъект имеет соответствующие атрибуты и называется объектом подтипа. Атрибуты, общие для каждой сущности, помещаются в сущность более высокого или суперуровня, поэтому их называют сущностями супертипа.

17. Какова важность метаданных в контексте моделирования данных?

Метаданные определяются как «данные о данных». В контексте моделирования данных это данные, которые описывают, какие типы данных находятся в системе, для чего они используются и кто их использует.

Вопросы для собеседования по расширенному моделированию данных

18. Должны ли все базы данных отображаться в 3NF?

Нет, это не абсолютное требование. Однако денормализованные базы данных легко доступны, их легче обслуживать и они менее избыточны.

19. В чем разница между пересылкой и обратным проектированием в контексте моделей данных?

Прямое проектирование — это процесс, в котором сценарии языка определения данных (DDL) генерируются на основе самой модели данных. Скрипты DDL можно использовать для создания баз данных. Реверс-инжиниринг создает модели данных из базы данных или сценариев. Некоторые инструменты моделирования данных имеют опции, которые подключаются к базе данных, позволяя пользователю преобразовать базу данных в модель данных.

20. Что такое рекурсивные связи и как их исправить?

Рекурсивные отношения возникают, когда между объектом и самим собой существует связь. Например, врач может быть в базе данных медицинского центра как поставщик медицинских услуг, но если врач болен и входит в систему как пациент, это приводит к рекурсивной связи. Вам нужно будет добавить внешний ключ к номеру медицинского центра в записи каждого пациента.

21. Что такое подтвержденный размер?

Если измерение подтверждено, оно прикрепляется как минимум к двум таблицам фактов.

22. Почему базы данных NoSQL более полезны, чем реляционные базы данных?

Базы данных NoSQL имеют следующие преимущества:

Они могут хранить структурированные, полуструктурированные или неструктурированные данные.
У них динамическая схема, что означает, что они могут развиваться и меняться так быстро, как это необходимо.
Базы данных NoSQL имеют сегментирование — процесс разделения и распределения данных по меньшим базам данных для более быстрого доступа.
Они предлагают отказоустойчивость и лучшие варианты восстановления благодаря репликации.
Его легко масштабировать, увеличивая или уменьшая по мере необходимости.

23. Что такое мусорное измерение?

Это группа атрибутов с низкой мощностью, таких как индикаторы и флаги, удаленных из других таблиц и впоследствии «выброшенных» в абстрактную таблицу измерений. Они часто используются для инициирования быстрого изменения измерений в хранилищах данных.

24. Если к столбцу будет применено ограничение уникальности, возникнет ли ошибка, если вы попытаетесь поместить в него два нуля?

Нет, не будет, потому что значения нулевых ошибок никогда не равны. Вы можете поместить в столбец множество нулевых значений и не генерировать ошибку.

Изучите более дюжины инструментов и навыков обработки данных с помощью программы PG в области науки о данных и получите доступ к мастер-классам преподавателей Purdue. Зарегистрируйтесь сейчас и добавьте яркую звезду в свое резюме в области науки о данных!

Хотите пройти обучение по моделированию данных?

Я надеюсь, что эти вопросы для собеседования по моделированию данных дали вам представление о том, какие вопросы можно задавать на собеседовании. Итак, если вас заинтриговало то, что вы прочитали о моделировании данных, и вы хотите знать, как стать разработчиком моделей данных, тогда вам стоит просмотреть статью, в которой показано, как им стать.

Но если вы готовы ускорить свою карьеру в области науки о данных, запишитесь на курс Data Scientist от Simplilearn. Вы получите практический опыт работы с ключевыми технологиями, включая R, SAS, Python, Tableau, Hadoop и Spark. Получите доступ к обучению мирового уровня от лидера отрасли по самым востребованным навыкам в области науки о данных и машинного обучения.

Программа может похвастаться полдюжиной курсов, более 30 востребованными навыками и инструментами и более 15 реальными проектами. Так что ознакомьтесь с ресурсами Simplilearn и начните свою новую карьеру в области моделирования данных!

24 лучших вопроса и ответа на собеседовании по моделированию данных на 2024 год

Что такое модель данных?