Спецпроекты

Пользователю Стратегия безопасности

В Сети лежала исполинская база данных размером в 16 терабайт, содержащая более 4 млрд записей

Исследователи, обнаружившие общедоступную 16-терабайтную базу, отмечают, что с использованием LLM-систем её можно превратить в орудие фишинга эпических масштабов.

4,3 млрд записей в девяти томах

Исследователь Боб Дьяченко (Bob Diachenko) обнаружил исполинскую незащищённую базу персональных данных, содержавшую свыше 4 миллиардов записей. Общий объём базы достигал 16 терабайт. Наиболее вероятное назначение этой базы - лидогенерация, а самая вероятная причина того, что она неопределённое время оставалась незащищённой - человеческая ошибка.

Как сообщили коллеги Дьяченко по компании SecurityDiscovery.com, которую он возглавляет, база MongoDB была полностью структурирована; основу её содержимого составляла собранные роботами подробные сведения о пользователях LinkedIn, в том числе контактные данные и сведения о трудоустройстве.

Все эти данные были распределены по девяти наборам - intent (назначение), profiles (профили), unique_profiles (уникальные профили), people (люди), sitemap (карта сайта), companies (компании), company_sitemap (карта сайта компании), address_cache (кэш адресов) и intent_archive (архивированные назначения).

В Сети лежала исполинская незащищённая база персональных данных, содержавшая свыше 4 миллиардов записей

Крупнейшими оказались разделы profiles - 5,85 Тбайт и unique_profiles - 5,63 Тбайт.

Дублирующих записей в каждом отдельном разделе не обнаружилось, хотя вполне вероятно, что между самими разделами есть пересечения.

Разделы profiles, unique_profiles и people в избытке содержали идентифицирующие данные.

Определить точный временной промежуток, в течение которого вся эта база данных собиралась, не представляется возможным: согласно временным отметкам, данные относятся к 2025 году, но весьма вероятно, что источником как минимум части сведений могут быть крупномасштабные утечки, датированные 2021 годом.

ИИ и немного дополнительных усилий

Что касается владельца базы, то, судя по артефактам внутри неё, это фирма, специализирующаяся на лидогенерации, и утверждающая в своих официальных ресурсах, что у неё есть доступ к 700 млн профессионалов. Это множество примерно соответствует разделу unique_profiles. Хотя доступ к базе был перекрыт спустя сутки после того, как этой фирме было направлено уведомление, исследователи воздержались от того, чтобы прямо её называть: есть ненулевая вероятность, что базу на самом деле у неё украли.

Исследователи указывают, что подобные утечки опасны. Киберзлоумышленники легко воспользуются ими для проведения массовых фишинговых атак, а при помощи LLM-систем весь процесс может быть автоматизирован от и до.

Крупномасштабные языковые модели способны генерировать персонализированные сообщения на основе пользовательской информации. При незначительных дополнительных усилиях потенциальным жертвам могут быть разосланы десятки миллионов вредоносных сообщений, и для того, чтобы операция принесла прибыток злоумышленникам, достаточно будет, чтобы только одна высокопрофильная жертва поддалась на обман, - пишут специалисты.

«В сущности, даже в применении ИИ нет особой необходимости для того, чтобы, так сказать, продуктивно воспользоваться этой базой в криминальных целях, - отмечает Дмитрий Пешков, эксперт по информационной безопасности компании SEQ. - Особенно если добавить данные из других утечек и выявить пересечения. Фактически это идеальная отправная точка для фишинга любой степени направленности и сложности».

Эксперт добавил, что в современных условиях сокращение количества личных данных, публикуемых онлайн, до абсолютного минимума - один из очень немногих способов застраховаться от фишинговых атак.

Роман Георгиев

Короткая ссылка