Контентная фильтрация

Общепризнано, что все используемые в настоящее время технологии и методы защиты от утечки данных (DLP – Data Leak Prevention) не обеспечивают высокого уровня безопасности данных и пакетов данных. Почему это так? Кто и что не срабатывает при защите? Как надежно защититься? – Много вопросов, не так много ответов, хотя для ответов сделано и делается многое.

Для информационной защиты важно обеспечить регулирование защищаемой системы имеющимися (доступными) ресурсами для защиты от несанкционированного доступа и действия. Если подсистема информационной безопасности начинает давать сбои – возникают непременно каналы утечки данных. Этому способствуют и то, что данные разрозненные, «разноформатные», «неотрезервированные» и т.п.

В Рунет, в секторе .ru, как свидетельствуют данные аналитиков, уровень безопасности в 3 раза меньше, чем в .org, .com, .net. Но и в последних не все так гладко, в частности, около половины американских компаний страдают от краж документов работодателя, финансового мошенничества, инсайда и т. д.

Утечка, утечка, откуда ты?

Утечка не всегда есть результат злого умысла. Частенько, их причина – случайность, банальная ошибка, некомпетентность: сотрудник заработался, был невнимателен, забыл поставить защиту (или не умел, не знал об этом) и отправил файл не туда или не тому. Об этом свидетельствуют данные аналитиков InfoWatch. «Наиболее популярны» при этом мобильные носители, электронная почта, форумы, инсайд и т.д. Любые организационно-технологические, аппаратно-программные системы.

Контентная фильтрация

Поэтому разработаны и совершенствуются методы и системы полной авторизации и аутентификации пользователей, электронные журналы, шифровка хранимых данных и их расшифровка «на лету», контроль почтовых каналов и веб-трафика, коммуникационных ресурсов рабочих станций.

Со многими способами и любителями этого способа утечки можно успешно бороться, например, с инсайдом призван бороться новый специальный закон об инсайдерской информации, с данными, утекающими по сетевому каналу – DLP, внутренние алгоритмы, по которым принимается решение: что делать при подозрительном потоке или действиях (транзакциях).

Следовательно, ключевой параметр DLP-системы – алгоритм фильтрации, позволяющий принять решение о конфиденциальности данных, участвующих в той или иной процедуре.

Контентно-контекстная фильтрация

Первые DLP-системы, технологии заимствованы из смежных систем, например, фильтрации почты от ненавистного спама. Фильтрация использует и контекст (метаданные) анализируемого файла (размер, адрес, формат и др.). Первые DLP-системы (начала века) использовали именно контентно-контекстную фильтрацию трафика (на предмет конфиденциальности данных).

Термин «контентная фильтрация» может быть использован как в широком (наукоемком) смысле, так и в узком (технологическом). В широком смысле – это технология интеллектуального анализа содержания контента, документов, данных. И в этом смысле она «подобна» Data Mining, хотя и не применима практически к фильтрации интернет-трафика, решаемой обычно не интеллектуальными алгоритмами, а примитивным «баном», черными и белыми списками ресурсов. В узком смысле, означает поиск и анализ контекстного совпадения или несовпадения текстов. В первом случае говорят о контентной фильтрации, а во втором случае – о контекстной.

Среди основных методов контентной фильтрации выделим следующие:

поиск и анализ регулярных выражений или заранее определенных фрагментов текста, например, адреса почты или номера кредиток (для метода характерны простота, настраиваемость, но много ошибок при сравнении, «отпечатки «не интеллектуальность»);
поиск и анализ «отпечатков цифр» или хеширование, поиск хэш-функций для сравнения с текущим потоком (для метода характерны минимум сбоев, простота, настраиваемость, но он непригоден для больших объемов данных, особенно, плохо структурированных);
морфологический (лингвистический) анализ с использованием заранее заданных слов или словарей (метод хорош для богатых языков с минимумом требований, поэтому годится для неструктурированных данных, но требует большой подготовительной работы для фильтров).

Ни отдельное тщательное использование отдельного метода, ни их интеграция не дает полной защиты всех типов данных или объединения их областей применения, так как у каждого – своя область применения, своя «ниша» эффективности.

Проблемы контентной фильтрации

По мнению аналитической, службы Gartner, самые совершенные процедуры способны отследить только 80% конфиденциальных данных в сети. Кроме того, алгоритмы фильтрации знают и многие, стремящиеся их обойти. К тому же их несовершенство и сбои могут приводить к усложнению работы безопасности и взаимодействия персонала. Не годятся они и для внутренней защиты, где нет условий для их локализации.

Контентная фильтрация

Фактически, используется лишь контентная фильтрация трафика, когда на корпоративных компьютерах устанавливается специальный агент, который дублирует на сервер (контентной фильтрации) локальный трафик, а сервер сам фильтрует контент для агента, который дальше обрабатывает данные. Но это сложно и требует подходящих знаний и умений, поэтому часто предпочитают «не лезть» в эти «дебри», блокируя просто локальные порты, и снижая тем самым эффективность взаимодействия и работы сотрудников. Задача контентной фильтрации – сложнее задачи саповой фильтрации.

Шифровать нельзя не шифровать?

Где поставить запятую в подзаголовке? Контентные «фильтры», DLP-системы не могут решить задачу абсолютной защиты от цифровых утечек, лазейки и уязвимости какие-то все равно остаются. К тому же здесь налицо две различные задачи: контроля каналов утечки и предотвращения утечки. Что касается второй задачи, никакие DLP не дают гарантий (что делать, если, например, потерян ноутбук?).

Поэтому выход один – шифровать все носители. Это привело к появлению режима секретности для конфиденциальных данных, точнее, к системам обеспечения такой секретности, которые объединяют методы фильтрации и криптографический функционал.

Такая система характеризуется свойствами:

использование для фильтрации грифовых технологий, классификации конфиденциальных сведений;
секретные документы должны храниться в «крипто контейнерах», недоступных и в случае потери или кражи носителя.

Теоретически, такие системы могут совмещать в себе детерминистские методы и криптографическую защищенность, обеспечивая 99-100% защиты (против 80-85% контентной фильтрации).

Качественный анти-спам реализуем только на основе систем контентной фильтрации и систем интеллектуального анализа писем, а точнее, интегрированной такой системы. Здесь «тормозит» вторая система, система анализа содержания документов.

Технологии фильтрации

Суть контентно-контекстной фильтрации – определить, идентифицировать, аутентифицировать. Что, где, почему, зачем? Современные технологии проведения контентной фильтрации можно классифицировать: технологии на базе методов анализа контента документа или технологии контентного анализа, как, например, поиск регулярных выражений, а также технологии анализа контекста (метаданных) или технологии контекстного анализа, как, например, анализ вложений к письму.

Контентные методы, как правило, наукоемкие и универсальные, контекстные - проще и легче.

Задача контентной фильтрации - значительно сложнее фильтрации от спама: спам – небольшого объема, это «голый текст», обычно – вложение определенного формата, часто достаточно анализа заголовка. Контентную фильтрацию через шлюз (сервер) еще можно провести, но для локальных утечек (через флэш-накопители и др.) возникают проблемы: локальную фильтрацию технологически сложно вывести на удаленный сервер.

Поэтому ищут новые походы, методы и технологии, например, хорошие результаты дает контентная фильтрация в сочетании с детерминистской фильтрацией — контролем исходящего трафика с использованием жестко заданных меток.

«Серые списки»

Альтернатива (дополнение) к контекстной фильтрации – так называемые «серые списки» (greylisting). Как известно, почтовый ТСР/IP-конверт (от сервера к smtp-серверу) содержит IP-адрес клиента, почтовый адрес отправителя (from:) и получателя (to:).

Сервер проверяет наличие конверта в базе данных. Конверты с прошедшим сроком из базы удаляются. Серые списки при обращении к серверу удаляют примерно 95% спама, обычно, от зомби-машин. Они не дают вычислительной нагрузки «сверх меры». Если за три минуты от IP-адреса создано, например, 111 конвертов – это спам-хост. Если нет обратного адреса – это, также, скорее, спам.

Эти и другие признаки – основание для блокировки.

Какова защита бизнеса?

Существуют различные средства защиты критических подсистем и бизнес-процессов вашего бизнеса:

Sybari Software - защита систем электронных сообщений, комплексное решение (контекстная фильтрация, антивирус, анти-спам);
Antigen - защита от вирусов и контекстная фильтрация (на серверном уровне – против саморассылающихся по почте вирусов и червей, с развитыми средствами контекстной фильтрации);
MS Exchange - почтовый сервер (в реальном режиме обеспечивает ликвидацию вирусных сообщений, контекстную фильтрацию почты на почтовом сервере);
MS SharePoint – защита для серверов защита (антивирусное сканирование, фильтрация файлов при прохождении между сервером и клиентом);
SMTP Gateways – полное решение по защите от вирусов и контекстной фильтрации на SMTP-шлюзах, релеях и маршрутизаторах (платформа MS Windows [2000] Server);
Instant Messaging – антивирусное решение для MS Office Live Communication Server, IMLogic IM Manager (управление политикой фильтрации – как контента, так и файлов);
Lotus Domino – решение для почтовых серверов (уничтожение вирусных писем, фильтрация сообщений, многоядерное антивирусное сканирование и много других возможностей);
Anti-Spam - анти-спамовое решение корпоративного уровня (фильтрация контента, спама, почтового трафика сети корпорации) и др.