Классификация данных: обзор, типы и примеры

Когда вы не знаете, какая информация требует защиты военного уровня, приоритетное снижение рисков или соблюдение законов о конфиденциальности становится практически невозможным. Вот тут-то и вступает в дело классификация данных.

Что такое классификация данных?

Процесс анализа неструктурированных или структурированных данных и их категоризации на основе содержимого, типа файла и других метаданных называется классификацией данных.

Организации могут использовать классификацию данных для ответа на важные вопросы о своих данных, что помогает снизить риск и управлять политиками управления данными. Она может подсказать вам, где хранятся ваши самые важные данные и какие типы конфиденциальной информации ваши пользователи, скорее всего, будут создавать. Для соответствия текущим правилам конфиденциальности данных требуется комплексная классификация данных (но этого недостаточно). Организации могут использовать программное обеспечение для классификации данных, чтобы идентифицировать информацию, соответствующую их целям.

Чтобы соответствовать правилам конфиденциальности данных, предприятия обычно запускают проекты по классификации, чтобы найти любую персональную информацию (PII) в своих хранилищах данных, что позволяет им продемонстрировать аудиторам, что она управляется надлежащим образом.

Несмотря на некоторые сходства, классификация данных не то же самое, что индексация данных. Хотя оба метода подразумевают проверку контента на предмет его соответствия ключевому слову или концепции, классификация не всегда приводит к поисковому индексу. Без сохранения индекса контента объекта результаты классификации часто будут содержать имя объекта и политику или шаблон, которые были сопоставлены:

Объект: Клиенты.xls
Совпадающие шаблоны: American Express (PCI-DSS) Калифорнийские водительские права (CCPA)

Некоторые решения по классификации данных создают индекс, помогающий выполнять запросы на доступ к субъектам данных (DSAR) и запросы на право быть забытым, обеспечивая быстрый и эффективный поиск.

Цель классификации данных

Снижение риска

Доступ к персональным данным ограничен (PII)
Контроль местонахождения интеллектуальной собственности и доступа к ней (ИС)
Уменьшите область атаки на конфиденциальные данные.
Классификацию следует интегрировать в DLP и другие приложения, обеспечивающие соблюдение политик.

Управление/Соблюдение

Определите, какие данные регулируются GDPR, HIPAA, CCPA, PCI, SOX и другими нормативными актами.
Чтобы обеспечить дополнительное отслеживание и контроль, примените теги метаданных к защищенным данным.
Можно включить юридические удержания, карантин, архивацию и другие необходимые действия.
Упрощение запросов на доступ к субъектам данных и «право быть забытым» (DSAR)

Эффективность и оптимизация

Обеспечьте эффективный доступ к контенту на основе его типа, использования и других факторов.
Находит и удаляет устаревшие или избыточные данные.
Перемещайте часто используемые данные на более быстрые устройства или в облачную инфраструктуру.

Аналитика

Для улучшения бизнес-операций включите тегирование метаданных.
Сообщите организации о том, где хранятся и используются данные.

Стоит отметить, что, хотя классификация данных является важным первым шагом, этого редко бывает достаточно для принятия мер во многих из перечисленных выше случаев использования. Добавление большего количества потоков метаданных, таких как разрешения и активность использования данных, может значительно улучшить вашу способность использовать результаты классификации для достижения критических целей.

Уровни чувствительности данных

Уровни классификации чувствительности данных — высокий, средний или низкий.

Данные высокой чувствительности

Если данные будут скомпрометированы или уничтожены в результате несанкционированной транзакции, организация или отдельные лица пострадают от катастрофических последствий. Финансовые записи, интеллектуальная собственность и данные аутентификации — это лишь несколько примеров классификации данных.

Данные средней чувствительности

Предназначено только для внутреннего использования, но не будет иметь катастрофических последствий для организации или отдельных лиц в случае взлома или уничтожения. Например, документы и электронные письма с нулевой конфиденциальной информацией.

Данные с низкой чувствительностью

Они предназначены для использования широкой публикой. Например, содержимое общедоступного веб-сайта.

Типы классификации данных

Данные в значительной степени подразумевают несколько маркеров, которые определяют типы данных, их целостность и конфиденциальность. В процессах классификации данных также может учитываться доступность. Конфиденциальность данных часто классифицируется на основе различных уровней важности или конфиденциальности, связанных с мерами безопасности, реализованными для защиты каждого уровня классификации. Существует три типа классификации данных, которые широко используются в отрасли:

Классификация на основе содержимого проверяет и интерпретирует файлы в поисках конфиденциальных данных.
Контекстная классификация учитывает такие характеристики, как создатель, приложение и местоположение, в качестве косвенных маркеров.
На основе пользователя: классификация каждого документа основана на ручном выборе конечным пользователем. Для документов с флажком «чувствительный» классификация на основе пользователя зависит от знаний и усмотрения пользователя во время создания, редактирования или просмотра.

В зависимости от потребностей компании и типа данных подходы, основанные на содержании, контексте и пользователе, могут быть правильными и неправильными.

Определение риска данных

В дополнение к типам классификации организация должна оценить риск, связанный с различными типами данных, как они обрабатываются и где они хранятся/отправляются (конечные точки). Разделение данных и систем на три уровня риска является обычной практикой.

Низкая угроза: если данные доступны общественности и их нелегко потерять (например, их проще восстановить), этот сбор данных и системы, которые его обеспечивают, вероятно, будут менее опасными, чем другие.
Умеренный риск: данные не доступны публично и используются внутри компании или ее партнеров. Также маловероятно, что они будут слишком критичны для операций или чувствительны, чтобы считаться «высокорисковыми». Умеренные элементы включают фирменные операционные процедуры, стоимость товаров и некоторую документацию компании.
Высокорисковые элементы включают в себя все, что хоть немного чувствительно или критично для операционной безопасности. Также данные, которые крайне сложно восстановить (в случае потери). Все острые и важные типы данных известны как высокорисковые.

Применение матрицы классификации данных

Некоторые организации могут посчитать создание и маркировку данных простым. Определение риска данных и систем, вероятно, будет проще, если нет большого количества различных типов данных или если в вашем бизнесе мало транзакций. Однако многим организациям, работающим с большими объемами данных или несколькими типами данных, потребуется комплексная оценка риска. Для этой цели большинство людей используют матрицу классификации данных.

Эффективные шаги классификации данных

Понимание текущей настройки: Понимание текущей настройки, включая местоположение существующих данных и все применимые правила, возможно, является лучшим местом для начала, когда дело доходит до эффективной классификации данных. Прежде чем вы сможете организовать данные, вы должны сначала понять, что у вас есть.
Создание политики классификации данных: Невозможно соблюдать защиту данных без разумных и сильных принципов политики, внедренных в организации. Вашим приоритетом должно быть создание политики.
Расставьте приоритеты и организуйте данные: Теперь, когда у вас есть политика и визуальное представление текущих данных, пришло время правильно их классифицировать. Основываясь на чувствительности и конфиденциальности ваших данных, выберите наилучший способ их тегирования.

Классификация данных имеет больше преимуществ, чем просто облегчение поиска данных. Современным предприятиям требуется классификация данных, чтобы осмысливать большие объемы данных, доступные в любой момент времени.

Классификация данных дает организации ясную картину всех данных, находящихся под ее контролем, и понимание того, где хранятся данные, как быстро получить к ним доступ и как защитить их от потенциальных угроз безопасности. Классификация данных, после внедрения, создает организованную структуру, которая позволяет применять более эффективные меры защиты данных и поощряет соблюдение сотрудниками политик безопасности.

Процесс классификации данных

Классификация данных может быть трудоемким и сложным процессом. Автоматизированные системы могут помочь ускорить этот процесс. Однако организация должна сначала определить категории и критерии для классификации данных, описать роли и обязанности сотрудников по поддержанию надлежащих протоколов классификации данных и установить стандарты безопасности, соответствующие категориям данных и тегам. При правильном выполнении процесс обеспечит операционную основу для работников и третьих лиц, участвующих в хранении, транспортировке или извлечении данных. Существует множество видеоклипов и вебинаров, которые помогут вам лучше понять методы классификации конфиденциальных данных.

Политики и процедуры должны быть четко определены. Они должны учитывать требования безопасности и конфиденциальность типов данных и быть достаточно простыми для понимания сотрудниками, которые способствуют соблюдению требований. Например, каждая категория должна включать информацию о типах классифицированных данных, соображениях безопасности, таких как правила извлечения, передачи и хранения данных, а также потенциальных рисках, связанных с нарушением безопасности.

Процесс классификации данных немного различается в зависимости от целей проекта. Большинство проектов классификации данных требуют автоматизации для обработки огромных объемов данных, которые компании генерируют каждый день. Существует несколько лучших практик, которые приводят к успешным проектам классификации данных в целом:

1. Определите цели процесса классификации данных

Что именно вы ищете и почему?
Какие системы включены в этап предварительной классификации?
Какие правила необходимо соблюдать, чтобы обеспечить соответствие требованиям?
Есть ли какие-либо другие бизнес-цели, которые вы хотели бы преследовать? (например, управление рисками, оптимизация хранения и аналитика)

2. Классификация типов данных

Определите типы данных, которые генерирует компания (например, списки клиентов, финансовые записи, исходный код, планы продуктов).
Различайте частные и публичные данные.
Вы ищете информацию о GDPR, CCPA или другую регулируемую информацию?

3. Определить уровни классификации

Сколько уровней классификации вам потребуется?
Каждый уровень должен быть задокументирован и приведены примеры.
Пользователей следует научить классифицировать данные (если планируется ручная классификация)

4. Определите процесс автоматизированной классификации

Определите, какие данные следует сканировать в первую очередь и как расставить приоритеты. Расставьте приоритеты между активными и устаревшими, а также открытыми и защищенными.
Определите, как часто вы будете использовать автоматическую классификацию данных и сколько времени вы этому посвятите.

5. Определите категории и критерии классификации.

Определите и предоставьте примеры для ваших категорий высокого уровня (например, PII, PHI)
Определите или включите соответствующие шаблоны классификации и метки.
Создайте процедуру проверки и подтверждения как пользовательских, так и автоматизированных результатов.

6. Определите результаты и использование классифицированных данных

Необходимо определить шаги по снижению рисков и автоматизированным процессам; например, если защищенная медицинская информация не используется в течение 180 дней, ее можно переместить или архивировать; а глобальные группы доступа должны автоматически удаляться из папок, содержащих конфиденциальные данные.
Определите метод использования аналитики для улучшения результатов классификации.
Определите, что вы хотите получить в результате аналитического анализа.

7. Наблюдайте и поддерживайте

Создайте процедуру классификации новых или обновленных данных.
Пересматривайте и обновляйте процесс классификации по мере необходимости в связи с изменениями в бизнесе или новыми правилами.

Примеры классификации данных

Данные могут быть классифицированы организацией как ограниченные, частные или публичные. В этом случае публичные данные считаются наименее конфиденциальными данными с самыми низкими требованиями к безопасности, тогда как ограниченные данные являются наиболее конфиденциальными данными с самой высокой классификацией безопасности. Многие предприятия начинают с этого типа классификации данных, за которым следуют дополнительные процедуры идентификации и маркировки, которые маркируют данные на основе их релевантности для бизнеса, качества и других классификаций. Наиболее успешные процессы классификации данных используют последующие процессы и фреймворки для хранения конфиденциальных данных там, где им место.

Пример

RegEx — это система анализа строк, которая определяет особенности шаблонов поиска. Это сокращение от регулярного выражения. В частности, если вы хотите найти все номера кредитных карт VISA в ваших данных, вы можете использовать RegEx:

Эта последовательность ищет 16-символьное число, которое начинается с '4' и имеет четыре квартета, разделенных '-. Положительный результат генерируется только тогда, когда строка символов соответствует RegEx. Алгоритм Луна может быть использован для дальнейшей проверки этого результата.

В этом случае одного RegEx будет недостаточно. Этот RegEx находит допустимые адреса электронной почты, но не может отличить личные адреса от деловых:

Более продвинутая политика классификации данных может использовать сопоставление шаблонов RegEx и поиск по словарю для сужения результатов с использованием библиотеки служб персональных адресов электронной почты, таких как Gmail, Outlook и другие.

Многие парсеры будут рассматривать метаданные файла, такие как расширение файла и владельца, чтобы определить его классификацию в дополнение к регулярным выражениям, которые ищут шаблоны в тексте. Некоторые сканирующие механизмы способны включать разрешения и активность использования в правило классификации в дополнение к содержимому файла.

Классификация данных на продвинутом уровне использует машинное обучение для поиска данных, а не зависит исключительно от предопределенных правил или политик, составленных из словарей и RegEx. Например, корпус из 1000 юридических документов может быть передан алгоритму машинного обучения для обучения тому, как выглядит типичный юридический документ. Движок может обнаруживать новые юридические документы на своей модели, не полагаясь на сопоставление строк.

Лучшие практики классификации данных

Вот некоторые рекомендации, которые следует учитывать при внедрении и масштабировании политики классификации данных:

Определите, какие законы о соблюдении нормативных требований или конфиденциальности применяются к вашей компании, и разработайте план классификации на основе этой информации.
Начните с ограниченной области (не пытайтесь вскипятить океан) и четко определенных шаблонов (например, PCI-DSS)
Для быстрой обработки больших объемов данных используйте автоматизированные инструменты.
При необходимости создавайте собственные правила классификации, но не изобретайте велосипед.
При необходимости измените правила/уровни классификации.
Проверьте точность результатов вашей классификации.
Определите, как максимально эффективно использовать полученные результаты и применить классификацию к различным темам, включая безопасность данных и бизнес-аналитику.

Классификация данных является важнейшим компонентом комплексной стратегии безопасности данных. После того, как вы определили, какие данные являются конфиденциальными, вам нужно будет определить, кто имеет к ним доступ и что с ними происходит в любое время. Таким образом, вы можете защитить свои конфиденциальные данные, не давая своей компании попасть в новости.

Проблемы классификации данных

Почти каждая компания хранит конфиденциальную информацию — часто гораздо больше, чем они осознают. Однако маловероятно, что они точно знают, где хранятся эти данные и как к ним можно получить доступ или скомпрометировать их в рамках их инфраструктуры. Создание эффективных программ классификации данных в организациях может привести к различным проблемам.

Классификация данных может быть трудоемкой и дорогостоящей

Некоторые организации используют только традиционные (ручные) методы классификации данных. Это создает ряд трудностей, в том числе:

Конфиденциальная информация может потеряться в хранилищах данных, где она станет недоступной и незащищенной.
Неправильное обращение с конфиденциальной информацией может привести к неловкой ситуации для клиента и потере дохода.
Неправильное обращение с регулируемыми данными может привести к штрафам и санкциям для предприятий.
Утечка данных клиентов может привести к судебным искам, запятнать репутацию организации и подорвать ее репутацию.

Передовые методы классификации данных не до конца понятны

Ненадлежащее судебное преследование за нарушение правил безопасности данных может привести к целому ряду сбоев в обеспечении безопасности и секвестрации данных, что создает следующие проблемы:

Вопросы, связанные с данными и конфиденциальностью, отодвигаются на второй план, уступая место более насущным приоритетам, таким как продажи, маркетинг, расширение и себестоимость продукции.
Компании могут не иметь представления о том, где находятся их данные и как их найти.
Организации не выполняют постоянно меняющиеся требования по соблюдению нормативных требований.
Компании чрезмерно усложняют классификацию данных, что приводит к отсутствию практических результатов.

Политики конфиденциальности данных не соблюдаются

Многие организации имеют теоретические, а не оперативные политики классификации данных. Другими словами, корпоративная политика либо игнорируется, либо оставляется на усмотрение бизнес-пользователей и владельцев данных.

Проблема возникает из-за неспособности ответить на такие важные вопросы, как:

Имеются ли какие-либо обсуждения вопросов конфиденциальности данных, которые неуместны на высших уровнях организации?
Кто в конечном итоге несет ответственность за конфиденциальность данных и имеют ли они полномочия внедрять и контролировать решения?
Передаются ли конфиденциальные данные другим организациям?
Возможно ли, что политика конфиденциальности и соответствия требованиям не соблюдается намеренно или непреднамеренно?

Каковы функции классификации данных в жизненном цикле данных?

Жизненный цикл данных — идеальная структура для управления потоком данных в организации. На каждом этапе предприятия должны учитывать безопасность данных, конфиденциальность и соответствие требованиям. Классификация данных полезна, поскольку ее можно применять на любом этапе жизненного цикла данных, от создания до удаления. Вот шесть этапов жизненного цикла данных:

Создание — электронные письма, документы Excel, документы Word, документы Google, социальные сети и веб-сайты генерируют конфиденциальные данные в различных форматах.
Использование в ролевых элементах управления безопасностью. Ролевые элементы управления безопасностью помечаются конфиденциальными данными на основе внутренних политик безопасности и правил соответствия.
Хранение — данные сохраняются с контролем доступа и шифрованием после каждого использования.
Обмен данными. Сотрудники, клиенты и партнеры постоянно обмениваются данными на различных устройствах и платформах.
Архив. Большая часть данных в конечном итоге архивируется в системах хранения данных компании.
Уничтожить на неопределенный срок. Большие объемы данных необходимо уничтожить, чтобы уменьшить нагрузку на хранилище и повысить общую безопасность данных.

Как только данные созданы, их следует классифицировать. Классификация данных должна оцениваться и обновляться по мере продвижения по этапам жизненного цикла данных.

Выберите правильную программу

Вас интересует область науки о данных? Наши курсы по науке о данных тщательно подобраны, чтобы снабдить вас необходимыми знаниями и навыками для процветания в этом быстро растущем секторе. Ниже приведено подробное сравнение, которое поможет вам лучше понять:

Название программы	Магистерская программа «Специалист по данным»	Программа последипломного образования в области науки о данных	Программа последипломного образования в области науки о данных
Гео	Все Гео	Все Гео	Не применимо в США.
Университет	Simplelearn	Пердью	Калтех
Продолжительность курса	11 месяцев	11 месяцев	11 месяцев
Требуется опыт кодирования	Базовый	Базовый	Нет
Навыки, которые вы приобретете	Более 10 навыков, включая структуру данных, обработку данных, NumPy, Scikit-Learn, Tableau и многое другое	8+ навыков, включая Исследовательский анализ данных, описательная статистика, выводная статистика и многое другое	8+ навыков, включая Контролируемое и неконтролируемое обучение Глубокое обучение Визуализация данных и многое другое
Дополнительные преимущества	Прикладное обучение через Capstone и более 25 проектов по науке о данных	Членство в Ассоциации выпускников Пердью Бесплатное членство IIMJobs Pro на 6 месяцев Помощь в составлении резюме	До 14 кредитов CEU Членство в кружке Caltech CTME
Расходы	$$	$$$$	$$$$
	Программа исследования	Программа исследования	Программа исследования

Заключение

Классификация данных является основополагающим компонентом любой программы безопасности. Это руководство по тому, как ИТ-безопасность вплетена в информационную безопасность и поручает защиту наиболее конфиденциальной информации вашей фирмы.

Если вы планируете узнать больше о классификации данных, запишитесь на наши программы по науке о данных.

Классификация данных: обзор, типы и примеры

Что такое классификация данных?