Предотвращение утечки данных

Понятие решения, направленного на предотвращение утечки данных (Data Loss Prevention или DLP), является одним из самых раздутых и малопонятных в среде обеспечения безопасности. Кто-то считает DLP шифрованием ресурсов или контролем USB-порта. Существует, по крайней мере, полдюжины различных названий и техник для контроля и предотвращения утечки данных.

В общих словах, определим DLP как решение, основанное на центральной политике, которое выявляет, контролирует и защищает данные в состоянии покоя, в движении, и при использовании, за счет глубокого анализа содержания.

Ключевыми характеристиками решения DLP являются:

  • Глубокий контентный анализ;
  • Центральное управление политиками;
  • Возможность разнообразного распознания содержания на любой платформе и в любом местоположении.

DLP решение служит как для защиты конфиденциальных данных, так и для внутренней оценки использования корпоративных ресурсов, а именно помогает организациям классифицировать данные, за счет четкого управления контентом.

Различается, DLP как частичный функционал, и DLP как комплексное решение.

DLP как полнофункциональный продукт включает в себя централизованное управление, создание и формирование политик контроля, и подчиняет им весь рабочий процесс за счет контроля и защиты данных. Пользовательский интерфейс и функциональность предназначены для решения бизнес задач и технических проблем защиты содержимого при помощи анализа содержания.

DLP как набор функций включает в себя некоторые функции обнаружения и обеспечения частичных возможностей продуктов DLP, но специально не занимается защитой контента и данных. Целый ряд продуктов, в частности решения по безопасности электронной почты, обеспечивают основные функции DLP, но не комплексное DLP решение. Зачастую некоторым организациям достаточно частичного функционала DLP, где он либо ограничен в области применения (используется только в сети или только на конечных точках), либо в возможностях анализа контента.

Также необходимо различать понятия контент и контекст. Одной из отличительных особенностей решения DLP является его знание контента. Это способность продукта глубоко анализировать содержание документов, используя различные методы разбора информации. Контекст же в свою очередь включает в себя такую информацию, как источник, назначение, размер, получатель, отправитель, информацию в заголовке, время создания, формат и краткое содержание самого тела документа. Любое DLP решение должно включать контекстуальный анализ как часть комплексного решения.

Знание (осведомленность) контекста предполагает деление документа на части и анализ их содержания. Смысл защиты критичных данных состоит в том, что любую их часть необходимо защищать везде - не только в четко сформированной неизмененной форме документа. Такая определяющая характеристика решения DLP является более сложной и требующей большего времени, чем простой анализ контекста.

Для анализа контента файла DLP движок захватывает документ, открывает его и тщательно рассматривает по частям. В случае с простым текстом письма это легкая операция, сложнее с неизвестными форматами, вложенными и бинарными файлами. Все DLP решения используют технологию вскрытия/дробления файла, чтобы суметь прочитать и понять содержание, даже если его скрыли на несколько уровней ниже. Например, нет ничего сложного раскрыть таблицу Excel вставленную в файл Word в архиве. DLP необходимо распаковать файл, прочитать документ Word, проанализировать, найти данные формата Excel, снова распознать их, и проанализировать. В ситуации с .pdf файлом, встроенным в файл CAD, вскрыть документ гораздо сложнее. Большинство продуктов на рынке поддерживают около 300 типов файлов и несколько языков. Некоторые решения позволяют анализировать зашифрованные данные в инфраструктуре тех предприятий, где используется шифрование на основе резервных ключей восстановления.

Методы контентного анализа

После того как был получен доступ к содержанию, решение анализирует сам контент файла. В его арсенале присутствует семь основных метода анализа нарушения правил политик. У каждого из них есть свои сильные и слабые стороны.

  • На основе правил/регулярных выражений: Это наиболее распространенный метод анализа в продуктах DLP и других решениях с функциями DLP. Метод анализа заключается в проверке содержания на наличие конкретных выражений - например, 16 цифр, которые соответствует номеру кредитной карты. Большинство DLP решений уже содержат в себе базовые регулярные выражения со своими дополнительными правилами анализа (например, имя в текстуальной близости от номера кредитной карты).

Используется для: в качестве первоначального фильтра или для обнаружения легко определенных структурированных данных.

Преимущества: быстрая и простая настройка правил. В основном все продуты поставляются с первоначальным набором правил. Технология проста и не потребляет ресурсов.

Недостатки: высокий уровень ложных срабатываний. Низкий уровень защиты для неструктурированного контента такого, как интеллектуальная собственность.

  • Отпечаток с базы данных: или, другими словами, точное сопоставление данных. Этот метод запоминает отпечаток базы данных или сами данные (через ODBC коннекторы) из базы данных, и в итоге только ищет точное совпадение. Например, вы можете создать политику, которая будет искать только номера кредитных карт в вашей клиентской базе, и таким образом пропускать онлайн покупки собственных сотрудников. Все больше усовершенствованные инструменты могут находить сочетания информации, такой как имя или инициалы и фамилии совместно с номером карты.

Используется для: структурированных данных из базы данных.

Преимущества: очень низкий уровень ложных срабатываний (близко к 0). Позволяет защищать персональные/конфиденциальные данные, игнорируя при том другие похожие данные, которыми пользуется человек.

Недостатки: большие базы данных влияют на производительность устройства.

  • Точное совпадение файла: на основе хэша файла техника отслеживает все файлы, которые соответствуют ему. Некоторые считают этот метод контекстуального анализа, так как само содержимое файла не анализируется.

Используется для: медиа-файлов и других файлов, где текстовой анализ не всегда возможен.

Преимущества: работает с любым типом файлов, низкий уровень ложных срабатываний (почти равен нулю) при правильно подобранной длине хеша.

Недостатки: легко обойти, достаточно немного изменить содержание стандартных офисных документов или отредактировать медиа-файлы.

  • Частичное совпадение документа: техника поиска полного или частичного совпадения защищаемого контента. Политика заключается в защите конфиденциальных документов при нахождении либо полного текста документа, или же отрывка в несколько предложений. Например, вы можете загрузить бизнес-план в движок DLP, и в результате он увидит, когда работник вставил один из пунктов плана в переписке в мгновенных сообщениях. В основном решения используют технологию, известную как циклическое хеширование: берется хэш части контента определенного количества символов, затем еще такое же количество, и так далее пока документ не будет полностью загружен в виде ряда перекрывающихся хеш-значений. Контент исходящих сообщений проходит через ту же технику хэширования, затем значения хеша сравниваются на совпадение. Многие продукты используют такое циклическое хэширование в качестве основного приема, добавляя более продвинутый лингвистический анализ.

Используется для: защиты конфиденциальных документов, или контента таких файлов как CAD и исходные коды, то есть неструктурированные данные, которые известны как критичные.

Преимущества: возможность защищать неструктурированные данные. Довольно низкий уровень ложных срабатываний. Не полагается на полное совпадение больших документов, достаточно частичного совпадения.

Недостатки: ограничения производительности при большом объеме данных. Общие фразы / выражения в защищенном документе могут вызывать ложные срабатывания. Необходимо четко определить какие именно документы должны защищаться.

  • Статистический анализ: использование техники обучения машины, байесовский анализ и другие статистические методы для анализа скелета контента, в результате чего конфигурируется политика для нахождения содержания, которое напоминает защищаемый контент. Такой метод включает в себя широкий спектр статистических методов, которые значительно варьируются от техники исполнения до эффективности. Некоторые методы очень похожи на те, которые используются для блокировки спама.

Используется для: неструктурированного контента, где детерминированная техника, такая как частичное совпадение документа, будет неэффективна. Например, загружать архив инженерных планов циклическим хэшированием непрактично из-за высокой частоты изменения файлов и большого объема.

Преимущества: возможность работы с «туманным» содержанием, где нет четких документов для сравнения. Можно вводить такие политики, как "предупреждение, что весь исходящий поток напоминает документы данного раздела".

Недостатки: склонность к высокому количеству ложных срабатываний и пропускание критичного контента. Требуется большой объем файлов с защищаемым контентом – чем больше, тем лучше.

  • Концепция / Лексика: метод использует комбинацию словарей, правил и других техник для защиты облачного содержания, которое напоминает "идею". Легче привести пример – политика остановки трафика, который содержит информацию, напоминающую операции с ценными бумагами, использующую ключевые фразы, расчет и критерии для нахождения нарушения. Другие примеры: сексуальное домогательство, запуск личного бизнеса с рабочего аккаунта или поиск работы.

Используется для: полностью неструктурированных процессов, которые не поддаются простой классификации на основе совпадения по известным документам, баз данных или других категоризированных источников.

Преимущества: не все корпоративные политики и требования можно описать с помощью конкретных примеров. Концептуальный анализ может найти различные пути  нарушения политик при мониторинге трафика.

Недостатки: в большинстве случаев техника должна быть встроена в DLP решение вендором, а не просто определяться заказчиком собственным набором правил;что влечет за собой значительную стоимость решения. Из-за несвязанного характера правил, этот метод имеет высокое количество ложных срабатываний и пропусков.

  • Категории: встроенные правила и словари для общих типов конфиденциальных данных, таких как номера кредитных карт / защиты PCI, HIPAA и других данных.

Используется для: всего, что четко подходит под условия категории. Достаточно просто описать содержание данных, связанных с конфиденциальностью, правилами или специфичных требований для каждой отрасли.

Преимущества: очень простые в настройке. Значительно экономит время для генерации политики. Для многих организаций, техника категорирования может покрыть значительную часть требования в защите утечки данных.

Недостатки: один указанный размер может не сработать для всех. Хорош только для простого категорирования правил и контента.

Данные 7 методов представляют большую часть продуктов DLP на рынке. Не все продукты включают все методы, а также возможна существенная разница в принципе исполнения. Большая часть продукции содержит комплекс техник – комплекс политик анализа комбинаций контента и контекста.

Итак, цель DLP - защищать контент на всем протяжении его жизненного цикла. По принципам DLP, процесс включает в себя три основных аспекта:

  • Процесс защиты данных в состоянии покоя включает в себя сканирование ресурсов и различных хранилищ контентов для определения местонахождения конфиденциальной информации. Назовем это обнаружение контента. Например, продукт DLP сканирует сервер на выявление документов, содержащих номера кредитных карт. Если сервер не предназначен для такого рода данных, файл может быть зашифрован или удален, либо будет выслано предупреждение владельцу файла.
  • Техника мониторинга данных в движении заключается в непрерывном прослушивании трафика сети (пассивно или на лету через прокси), чтобы определить какой контент проходит по каналам связи. Например, сниффинг электронной почты, мгновенных сообщений, веб-трафика на предмет частей критичной информации. В момент движения данных решение может блокировать передачу на основе центральной политики, в зависимости от типа трафика.
  • Метод отслеживания данных в процессе использования, как правило, используют решения на конечных клиентах, которые следят, как пользователь взаимодействует с данными. Например, они реагируют на копирование конфиденциального документа на USB-носитель и могут блокировать процесс (в отличие от блокирования использования USB-портов целиком). В инструментарии данного метода имеется настройка принципов копирования и использования конфиденциальных данных в несанкционированных приложениях (таких, как попытка зашифровать данные для обхождения решения DLP).

Словосочетание «предотвращение утечки данных» будоражит умы сотрудников службы безопасности, но, только понимая основные задачи, структурированные возможности и инструментарий продуктов DLP, следует выбирать подходящее решение под определенные требования. С технической точки зрения, самым большим препятствием для успешного внедрения DLP решения являются неуместные ожидания и отсутствие подготовки рабочего и бизнес- процессов к DLP анализу. Тем не менее, DLP является очень эффективным инструментом для предотвращения непреднамеренного раскрытия и целенаправленной кражи конфиденциальной информации.