Классификация данных: обзор, типы и примеры

Если вы не знаете, какая информация требует защиты военного уровня, определение приоритетов снижения рисков или соблюдения законов о конфиденциальности становится практически невозможным. Здесь на помощь приходит классификация данных.

Что такое классификация данных?

Процесс анализа неструктурированных или структурированных данных и их категоризации на основе содержимого, типа файла и других метаданных называется классификацией данных.

Организации могут использовать классификацию данных, чтобы ответить на важные вопросы о своих данных, что помогает снизить риски и управлять политиками управления данными. Он может сказать вам, где хранятся ваши наиболее важные данные и какие типы конфиденциальной информации чаще всего создают ваши пользователи. Для соблюдения действующих правил конфиденциальности данных необходима комплексная классификация данных (но этого недостаточно). Организации могут использовать программное обеспечение для классификации данных, чтобы идентифицировать информацию, соответствующую их целям.

Чтобы соблюдать правила конфиденциальности данных, компании обычно запускают проекты классификации, чтобы найти любую личную информацию (PII) в своих хранилищах данных, что позволяет им продемонстрировать аудиторам, что она управляется надлежащим образом.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Хотя есть некоторые сходства, классификация данных — это не то же самое, что индексирование данных. Хотя в обоих случаях необходимо изучить контент, чтобы определить, соответствует ли он ключевому слову или концепции, классификация не всегда приводит к созданию индекса, доступного для поиска. Без сохранения индекса содержимого объекта в результатах классификации часто будет указано имя объекта и сопоставленная политика или шаблон:

  • Объект: Customers.xls
  • Соответствующие шаблоны: American Express (PCI-DSS) Лицензия автомобилиста Калифорнии (CCPA)

Некоторые решения для классификации данных создают индекс, который помогает выполнять запросы на доступ к субъектам данных (DSAR) и запросы «право на забвение», обеспечивая быстрый и эффективный поиск.

Цель классификации данных

Снижение рисков

  1. Доступ к личной информации ограничен (PII)
  2. Контроль местонахождения интеллектуальной собственности и доступа к ней (IP)
  3. Уменьшите зону атаки на конфиденциальные данные.
  4. Классификацию следует интегрировать в DLP и другие приложения, обеспечивающие соблюдение политик.

Управление/Соблюдение требований

  1. Определите, какие данные регулируются GDPR, HIPAA, CCPA, PCI, SOX и другими правилами.
  2. Чтобы включить дополнительное отслеживание и контроль, примените теги метаданных к защищенным данным.
  3. Можно включить юридическое удержание, карантин, архивирование и другие необходимые действия.
  4. Упрощение запросов на доступ к субъектам данных и «право на забвение» (DSAR)

Эффективность и оптимизация

  1. Обеспечьте эффективный доступ к контенту в зависимости от типа, использования и других факторов.
  2. Находит и удаляет устаревшие или избыточные данные.
  3. Переместите данные, к которым часто обращаются, на более быстрые устройства или облачную инфраструктуру.

Аналитика

  1. Чтобы улучшить бизнес-операции, включите тегирование метаданных.
  2. Информируйте организацию о том, где хранятся и используются данные.

Стоит отметить, что, хотя классификация данных является важным первым шагом, во многих случаях использования, перечисленных выше, ее редко бывает достаточно для принятия мер. Добавление большего количества потоков метаданных, таких как разрешения и активность использования данных, может значительно улучшить ваши возможности использования результатов классификации для достижения важных целей.

Уровни конфиденциальности данных

Уровни классификации конфиденциальности данных: высокий, средний или низкий.

Данные высокой чувствительности

В случае компрометации или уничтожения в результате несанкционированной транзакции организация или отдельные лица пострадают от катастрофических последствий. Финансовые отчеты, интеллектуальная собственность и данные аутентификации — это лишь несколько примеров классификации данных.

Данные средней чувствительности

Предназначен только для внутреннего использования, но не окажет катастрофического воздействия на организацию или отдельных лиц в случае компрометации или уничтожения. например, документы и электронные письма с нулевой конфиденциальной информацией.

Данные низкой чувствительности

Они предназначены для использования широкой публикой. Например, содержимое общедоступного веб-сайта.

Типы классификации данных

Группа данных по существу предполагает наличие нескольких маркеров, которые определяют типы данных, их целостность и конфиденциальность. В процессах классификации данных также может учитываться доступность. Конфиденциальность данных часто классифицируется на основе различных уровней важности или конфиденциальности, что связано с мерами безопасности, реализованными для защиты каждого уровня классификации. В отрасли широко используются три типа классификации данных:

  • Классификация на основе содержимого проверяет и интерпретирует файлы в поисках конфиденциальных данных.
  • Классификация на основе контекста рассматривает такие характеристики, как создатель, приложение и местоположение, как косвенные маркеры.
  • На основе пользователя: классификация каждого документа основана на ручном выборе конечного пользователя. Для конфиденциальных документов, помеченных пользователем, классификация на основе пользователей зависит от знаний пользователя и его усмотрения во время создания, редактирования или просмотра.

В зависимости от потребностей фирмы и типа данных подходы к содержанию, контексту и потребностям пользователей могут быть правильными и неправильными.

Определение риска данных

Помимо типов классификации, организация должна оценить риск, связанный с различными типами данных, тем, как они обрабатываются и где они хранятся/отправляются (конечные точки). Разделение данных и систем на три уровня риска является обычной практикой.

  • Низкая угроза: если данные доступны для общественности и их нелегко потерять (например, восстановление проще), этот сбор данных и системы, которые его окружают, вероятно, будут менее опасными, чем другие.
  • Умеренный риск: данные недоступны публично и используются внутри компании или ее партнеров. Также вряд ли он будет слишком критичным для операций или чувствительным, чтобы считаться «высоким риском». Умеренные статьи включают в себя собственные рабочие процедуры, стоимость товаров и некоторую документацию компании.
  • К объектам высокого риска относятся все, что имеет отдаленное значение или имеет критическое значение для операционной безопасности. А также данные, которые крайне сложно восстановить (в случае утери). Все точные и существенные типы данных известны как высокий риск.

Применение матрицы классификации данных

Некоторым организациям может показаться простым создавать и маркировать данные. Определить риск данных и систем, вероятно, будет проще, если существует не так много разных типов данных или если в вашем бизнесе меньше транзакций. Однако многим организациям, имеющим дело с большими объемами данных или несколькими типами данных, потребуется комплексная оценка рисков. Для этой цели большинство людей используют матрицу классификации данных.

Эффективные шаги классификации данных

  • Понимание текущей настройки. Понимание текущей настройки, включая расположение существующих данных и всех применимых правил, возможно, является лучшим началом, когда дело доходит до эффективной классификации данных. Прежде чем вы сможете систематизировать данные, вы должны сначала понять, что у вас есть.
  • Установление политики классификации данных. Невозможно соблюдать правила защиты данных без наличия в организации надежных и прочных политических принципов. Вашим приоритетом должно быть создание политики.
  • Расставьте приоритеты и систематизируйте данные. Теперь у вас есть политика и визуальное представление текущих данных, пришло время правильно их классифицировать. В зависимости от конфиденциальности и конфиденциальности ваших данных выберите лучший способ их пометки.

Классификация данных имеет больше преимуществ, чем просто облегчение поиска данных. Современному бизнесу требуется классификация данных, чтобы понять большие объемы данных, доступных в любой момент времени.

Классификация данных дает организации четкое представление обо всех данных, находящихся под ее контролем, а также понимание того, где хранятся данные, как быстро получить к ним доступ и как защитить их от потенциальных угроз безопасности. Классификация данных после ее внедрения создает организованную структуру, которая позволяет принимать более эффективные меры защиты данных и поощряет соблюдение сотрудниками политик безопасности.

Процесс классификации данных

Классификация данных может оказаться трудоемким и сложным процессом. Автоматизированные системы могут помочь ускорить этот процесс. Однако организация должна сначала определить категории и критерии для классификации данных, определить роли и обязанности сотрудников в поддержании надлежащих протоколов классификации данных, а также установить стандарты безопасности, соответствующие категориям и тегам данных. Если все сделано правильно, этот процесс обеспечит оперативную основу для работников и третьих сторон, участвующих в хранении, транспортировке или извлечении данных. Существует множество видеоклипов и вебинаров, которые помогут вам лучше понять методы классификации конфиденциальных данных.

Политика и процедуры должны быть четко определены. Он должен учитывать требования безопасности и конфиденциальность типов данных и быть достаточно простым для понимания сотрудниками, которые способствуют соблюдению требований. Например, каждая категория должна включать информацию о типах классифицированных данных, соображениях безопасности, таких как правила получения, передачи и хранения данных, а также потенциальных рисках, связанных с нарушением безопасности.

Процесс классификации данных незначительно варьируется в зависимости от целей проекта. Большинство проектов классификации данных требуют автоматизации для обработки огромных объемов данных, которые предприятия генерируют каждый день. Есть несколько лучших практик, которые в целом приводят к успешным проектам классификации данных:

1. Определите цели процесса классификации данных.

  • Что именно вы ищете и почему?
  • Какие системы включены в этап предварительной классификации?
  • Какие правила вы должны соблюдать, когда дело доходит до соблюдения?
  • Есть ли какие-либо другие бизнес-цели, которые вы хотели бы достичь? (например, управление рисками, оптимизация хранения и аналитика)

2. Классифицируйте типы данных

  • Определите типы данных, которые генерирует компания (например, списки клиентов, финансовые отчеты, исходный код, планы продуктов).
  • Различают частные и общедоступные данные.
  • Вы ищете GDPR, CCPA или другую регулируемую информацию?

3. Определите уровни классификации

  • Сколько уровней классификации вам потребуется?
  • Каждый уровень должен быть документирован и приведены примеры.
  • Пользователей следует научить классифицировать данные (если планируется классификация вручную).

4. Определите процесс автоматизированной классификации.

  • Определите, какие данные следует сканировать в первую очередь и как расставить приоритеты. Отдавайте предпочтение активным файлам над устаревшими и открытым над защищенными.
  • Определите, как часто вы будете использовать автоматизированную классификацию данных и сколько времени посвятите этому.

5. Определите категории и критерии классификации.

  • Определите и приведите примеры для ваших категорий высокого уровня (например, PII, PHI).
  • Определите или включите подходящие шаблоны классификации и метки.
  • Создайте процедуру для просмотра и проверки как пользовательских, так и автоматических результатов.

6. Определите результаты и использование секретных данных

  • Должны быть определены шаги по снижению рисков и автоматизации процессов; например, если PHI не используется в течение 180 дней, ее можно переместить или заархивировать; а глобальные группы доступа должны автоматически удаляться из папок, содержащих конфиденциальные данные.
  • Определите метод использования аналитики для улучшения результатов классификации.
  • Определите, чего вы хотите добиться в результате аналитического анализа.

7. Наблюдайте и поддерживайте

  • Создайте процедуру классификации новых или обновленных данных.
  • Пересмотрите и обновите процесс классификации по мере необходимости в связи с изменениями в бизнесе или новыми правилами.

Примеры классификации данных

Данные могут быть классифицированы организацией как ограниченные, частные или общедоступные. В этом случае общедоступные данные считаются наименее конфиденциальными данными с самыми низкими требованиями безопасности, тогда как данные с ограниченным доступом — это наиболее конфиденциальные данные с самым высоким классом безопасности. Многие предприятия начинают с этого типа классификации данных, за которым следуют дополнительные процедуры идентификации и маркировки, которые маркируют данные на основе их соответствия бизнес-классификациям, качеству и другим классификациям. Наиболее успешные процессы классификации данных используют последующие процессы и структуры для хранения конфиденциальных данных там, где им место.

Пример

RegEx — это система анализа строк, которая определяет особенности шаблонов поиска. Это сокращение от регулярного выражения. В частности, если вы хотите найти в своих данных все номера кредитных карт VISA, вы можете использовать RegEx:

Эта последовательность ищет 16-значное число, которое начинается с «4» и состоит из четырех квартетов, разделенных знаком «-». Положительный результат генерируется только в том случае, если строка символов соответствует RegEx. Для дальнейшей проверки этого результата можно использовать алгоритм Луна.

В этом случае одного RegEx будет недостаточно. Этот RegEx находит действительные адреса электронной почты, но не может отличить личную и деловую электронную почту:

Более продвинутая политика классификации данных может использовать средство сопоставления шаблонов RegEx и поиск по словарю, чтобы сузить результаты с помощью библиотеки служб личных адресов электронной почты, таких как Gmail, Outlook и других.

Многие анализаторы анализируют метаданные файла, такие как расширение файла и владельца, чтобы определить его классификацию в дополнение к регулярным выражениям, которые ищут шаблоны в тексте. Некоторые механизмы сканирования способны включать в правило классификации разрешения и действия по использованию в дополнение к содержимому файла.

Классификация данных на продвинутом уровне использует машинное обучение для поиска данных, а не зависит исключительно от заранее определенных правил или политик, составленных из словарей и регулярных выражений. Например, корпус из 1000 юридических документов можно передать в алгоритм машинного обучения, чтобы узнать, как выглядит типичный юридический документ. Механизм может обнаруживать новые юридические документы по своей модели, не полагаясь на сопоставление строк.

Лучшие практики классификации данных

Вот некоторые рекомендации, которые следует учитывать при реализации и масштабировании политики классификации данных:

  • Определите, какие законы о соблюдении требований или конфиденциальности применяются к вашей компании, и создайте план классификации на основе этой информации.
  • Начните с ограниченного объема (не пытайтесь вскипятить океан) и четко определенных шаблонов (например, PCI-DSS).
  • Чтобы быстро обрабатывать большие объемы данных, используйте автоматизированные инструменты.
  • При необходимости создавайте собственные правила классификации, но не изобретайте велосипед.
  • При необходимости измените правила/уровни классификации.
  • Проверьте точность результатов классификации.
  • Определите, как извлечь максимальную пользу из полученных результатов и применить классификацию к различным темам, включая безопасность данных и бизнес-аналитику.

Классификация данных является важным компонентом комплексной стратегии безопасности данных. После того как вы определили, какие данные являются конфиденциальными, вам нужно будет определить, кто имеет к ним доступ и что с ними постоянно происходит. Таким образом, вы сможете защитить свои конфиденциальные данные, не позволяя вашей компании попасть в новости.

Проблемы классификации данных

Почти каждая компания хранит конфиденциальную информацию — зачастую гораздо больше, чем они думают. Однако маловероятно, что они точно знают, где хранятся эти данные и как к ним можно получить доступ или скомпрометировать их в своей инфраструктуре. Создание эффективных программ классификации данных внутри организаций может привести к различным проблемам.

Классификация данных может занять много времени и стоить дорого

Некоторые организации используют только традиционные (ручные) методы классификации данных. Это создает ряд трудностей, в том числе:

  • Конфиденциальная информация может затеряться в хранилищах данных, где она станет недоступной и незащищенной.
  • Неправильное обращение с конфиденциальной информацией может привести к смущению клиента и потере дохода.
  • Неправильное обращение с регулируемыми данными может привести к штрафам и санкциям для предприятий.
  • Нарушение данных клиентов может привести к судебным искам, запятнать репутацию организации и снизить ее репутацию.

Лучшие практики классификации данных не совсем понятны

Плохое судебное преследование за группы данных может привести к водопаду нарушений безопасности данных и сбоям в их секвестрации, создавая следующие проблемы:

  • Проблемы данных и конфиденциальности отодвигаются на второй план, отдавая предпочтение более насущным приоритетам, таким как продажи, маркетинг, расширение и себестоимость продукции.
  • Компании могут понятия не иметь, где находятся их данные и как их найти.
  • Организации отстают от постоянно меняющихся нормативных требований.
  • Компании чрезмерно усложняют классификацию данных, что приводит к отсутствию практических результатов.

Политика конфиденциальности данных не соблюдается

Многие организации имеют теоретическую, а не оперативную политику классификации данных. Другими словами, корпоративную политику либо игнорируют, либо оставляют на усмотрение бизнес-пользователей и владельцев данных.

Проблема возникает из-за неспособности ответить на такие важные вопросы, как:

  • Существуют ли какие-либо дискуссии о конфиденциальности данных, которые неуместны на самых высоких уровнях организации?
  • Кто в конечном итоге несет ответственность за конфиденциальность данных и имеют ли они полномочия внедрять и контролировать решения?
  • Передаются ли чувствительные и конфиденциальные данные другим организациям?
  • Возможно ли, что политики конфиденциальности и соответствия несоблюдаются намеренно или случайно?

Каковы функции классификации данных в жизненном цикле данных?

Жизненный цикл данных — это идеальная структура для управления потоком данных в организации. На каждом этапе предприятия должны учитывать безопасность данных, конфиденциальность и соответствие требованиям. Классификация данных полезна, поскольку ее можно применять на любом этапе жизненного цикла данных, от создания до удаления. Вот шесть стадий жизненного цикла данных:

  1. Создание. Электронные письма, документы Excel, документы Word, документы Google, социальные сети и веб-сайты генерируют конфиденциальные данные в различных форматах.
  2. Использование в средствах управления безопасностью на основе ролей. Средства управления безопасностью на основе ролей помечаются конфиденциальными данными на основе внутренних политик безопасности и правил соответствия.
  3. Хранение — данные хранятся с контролем доступа и шифрованием после каждого использования.
  4. Совместное использование. Сотрудники, клиенты и партнеры постоянно обмениваются данными на различных устройствах и платформах.
  5. Архив. Большая часть данных в конечном итоге архивируется в системах хранения компании.
  6. Уничтожить на неопределенный срок. Большие объемы данных должны быть уничтожены, чтобы уменьшить нагрузку на хранилище и повысить общую безопасность данных.

Как только данные созданы, их следует классифицировать. Классификацию данных следует оценивать и обновлять по мере прохождения этапов жизненного цикла данных.

Выберите правильную программу

Вы заинтересованы в области науки о данных? Наши курсы по науке о данных тщательно разработаны, чтобы предоставить вам необходимые знания и ноу-хау для процветания в этом быстро расширяющемся секторе. Ниже приведено подробное сравнение, которое поможет вам лучше понять:

Название программыМагистерская программа Data ScientistПоследипломная программа в области науки о данныхПоследипломная программа в области науки о данных
ГеоВсе регионыВсе регионыНе применимо в США
УниверситетПростое обучениеПердьюКалифорнийский технологический институт
Продолжительность курса11 месяцев11 месяцев11 месяцев
Требуется опыт кодированияБазовыйБазовыйНет
Навыки, которые вы изучитеБолее 10 навыков, включая структуру данных, манипулирование данными, NumPy, Scikit-Learn, Tableau и многое другое.8+ навыков, включая
Исследовательский анализ данных, описательная статистика, логическая статистика и многое другое.
8+ навыков, включая
Контролируемое и неконтролируемое обучение
Глубокое обучение
Визуализация данных и многое другое.
Дополнительные преимуществаПрикладное обучение через Capstone и более 25 проектов по науке о данныхЧленство в Ассоциации выпускников Purdue
Бесплатное членство IIMJobs Pro на 6 месяцев
Возобновить помощь в построении
До 14 кредитов CEU Членство в кружке Caltech CTME
Расходы$$$$$$$$$$
Изучите программуИзучите программуИзучите программу

Заключение

Классификация данных является фундаментальным компонентом любой программы безопасности. Это руководящие принципы того, как ИТ-безопасность вплетается в информационную безопасность и обеспечивает защиту наиболее конфиденциальной информации вашей фирмы.

Если вы планируете узнать больше о классификации данных, зарегистрируйтесь в наших программах по науке о данных.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *