Маскирование данных — зачем оно нужно и как с ним работать?

Михаил Берёзин
Директор по продуктам IT-компании HFLabs

Крупный бизнес использует персональные данные клиентов не только, чтобы подготовить договор или отправить новое рекламное предложение. Эти же данные нужны тестировщикам, чтобы проверить работу IT-систем перед запуском, и аналитикам для построения аналитических моделей.

Но чем активнее данные циркулируют внутри компании, тем выше риск утечек. Поэтому маскирование данных — необходимость для бизнеса, который ответственно подходит к чувствительной клиентской информации.

А давайте придумаем данные!

Мы помогаем крупным банкам, страховым компаниям, ретейлу, телеком-операторам приводить в порядок клиентские базы — чистить, стандартизировать, формировать единые карточки клиентов. На этапе аудита, который этому предшествует, нередко выясняется: доступ к данным на боевых средах находится под строгим контролем, а вот тестовые среды открыты куда большему количеству людей. То же самое касается и аналитических моделей — для их корректного построения нередко привлекаются внешние исполнители, которым бизнес передает клиентские данные.

Первое предложение, которое нередко высказывают в компаниях, — а давайте использовать ненастоящие данные! Но, во-первых, попробуйте их сначала сгенерировать для высоконагруженных приложений, а во-вторых, реальные системы требуют качественного тестирования на очень похожих данных.

И вот тут как раз встает вопрос с маскированием данных. Разберемся, каким оно может быть.

Звездочки или набор букв?

Первый подход предполагает, что часть букв в словах можно заменить «звездочками». Например, запись Иванов Иван Иванович, 1952 года рождения трансформировать в комбинацию И****в И**н И******ч, 1**2. Но такой алгоритм меняет тип данных, поэтому не годится для обезличивания чисел и дат. К тому же популярные имена, отчества и города не так сложно расшифровать. И, конечно, теряется смысл данных: они лишаются семантики, валидности, социально-демографических характеристик. А еще по ним невозможно проследить связи по домохозяйствам, которые могут оказаться важными для аналитиков.

Второй подход чуть сложнее: он заключается в замене букв на буквы, а цифр на цифры. Например, Еременко Наталья Сергеевна может превратиться в Нонингел Гпьпдбч Мношннагп, а дата рождения 21.07.1961 в 11.02.1973. Но, во-первых, если алгоритм замены простой, то обезличенные данные все же можно восстановить. Во-вторых, когда вы реальные имена, города и даты рождения заменяете случайными буквами и цифрами, снова теряется та самая валидность, информация по соцдему и связи по домохозяйствам.

На практике это означает, что после маскирования данных 61-летняя москвичка с действительным паспортом превращается в конструкт неизвестного пола в возрасте 45 лет, с несуществующим паспортом и номером телефона. Как следствие — потеряна информация про пол, испорчены данные о возрастной группе, стране, регионе, паспорте и номере телефона. Это приводит к утрате возможных связей по ФИО и адресу с другими людьми в клиентской базе.

Как и при первом подходе, с такими данными невозможно будет провести соцдем-исследование или построить правдоподобную модель. Тестировщикам тоже придется трудно — данные не пройдут форматно-логических проверок.

Маскирование со смыслом

Наконец, третий подход предполагает умное маскирование. Именно на него, на мой взгляд, и нужно ориентироваться крупному бизнесу.

Умное маскирование сохраняет контекст, но убирает связи между данными и их владельцем. Например, номера телефонов сохранят привязку к оператору или региону, но то, кому они принадлежат, никто не узнает. Не теряются родственные связи, качество данных, соцдем и географическое распределение.

Умное маскирование, выполненное по заданным алгоритмам, может заменить ФИО с учетом его популярности и пола клиента. Так распространенное имя Наталья не превратится в Епифанию, а Иван не станет Екатериной. Как я уже упомянул, для номеров телефонов можно сохранить оператора, а у адреса регион или город — это поможет маркетингу в просчете рекламных бюджетов.

Чтобы социально-демографические признаки клиента оставались прежними, дата рождения меняется в пределах небольшого интервала (например, 1981 год на 1982). Во многих аналитических моделях и в тестировании важна валидность паспортов, ИНН и СНИЛС. Поэтому они тоже должны маскироваться с сохранением их качества и особенностей типа документа.

В результате умного маскирования из базы данных миллионов реальных людей должны получиться данные, неотличимые на глаз для человека, — только людей нереальных. Все аналитические признаки и распределения, взаимосвязи и контекст данных должны быть сохранены. Это позволит использовать маскированные данные в аналитических задачах, вдумчивом и внимательном тестировании, и при этом спокойно передавать их подрядчикам, не опасаясь утечек.