Новый продукт HFLabs доступен как коробочное решение и как SaaS-сервис. Он обезличивает разные типы данных: ФИО, даты рождения, адреса, телефоны, имейлы, ИНН, СНИЛС, банковские карты и счета, ПТС и водительские удостоверения. Другие типы данных можно маскировать, выбрав из преднастроенных правил несложные мутации.
Используя логику умной замены, «Маскировщик» при обезличивании сохраняет качество и контекст данных и делает их максимально похожими на настоящие. При маскировании не теряются социально-демографические характеристики, географическое распределение, родственные связи и даже форматно-логический контроль документов. Благодаря такому подходу обезличенные с помощью «Маскировщика» данные могут использоваться для корректного построения аналитических моделей.
Например, «Маскировщик» заменяет ФИО с учетом его популярности и пола клиента. Номера телефонов при умном маскировании не теряют привязку к оператору или региону, адреса остаются валидными в пределах региона или города, а люди, проживающие по одному и тому же адресу, получают другой реальный адрес.
Для сохранения социально-демографических признаков даты рождения меняются в пределах небольшого интервала (например, 1991 год на 1992). Отдельные возрастные рамки, значимые для маркетинга, могут быть заданы жестко: например, человек младше 18 лет не станет совершеннолетним. Также «Маскировщик» сохраняет особенности документов — валидность паспортов, ИНН, СНИЛС. Он учитывает их формат, контрольные суммы и действительность.
«У бизнеса есть запрос на маскирование всех имеющихся тестовых сред, чтобы обезопасить работу, снизить риск утечек и упростить согласование доступа как для сотрудников, так и для подрядчиков. При этом важно, чтобы данные были похожи на реальные, и один клиент маскировался одинаково во всех источниках данных», — объясняет Ольга Сердобинцева, владелец продукта «Маскировщик» в HFLabs.
Продукт от HFLabs обезличивает данные для всех тестовых стендов компании, используя единый алгоритм в рамках итерации маскирования. Замены подбираются случайным образом, сохраняются в зашифрованном виде и удаляются по окончанию процесса обезличивания всех стендов. Это позволяет соблюсти консистентность между всеми маскируемыми базами и исключить возможность обратного восстановления исходных значений.
Впервые «Маскировщик» был опробован в крупном банке, где нужно было замаскировать данные клиентов из определенного сегмента. 1 млн записей был обработан за 3 минуты, а база клиентов в результате обезличивания сохранила консистентность и семантические особенности.