Сергей Кашпоров, Frank Media: Мы теряли трафик из-за «черного парсинга», а трафик для СМИ — это все
Современные интернет-СМИ сталкиваются с множеством вызовов в цифровой среде. Один из ключевых — это парсинг контента. «Белый» парсинг — это легальный инструмент для сбора и анализа данных, который помогает СМИ и компаниям следить за новостным фоном, анализировать конкурентов и тренды. Однако существует и «чёрный» парсинг, который может привести к серьезным проблемам: чрезмерная нагрузка на серверы, замедление работы сайта или даже его полная недоступность. Как отличить «белый» парсинг от «чёрного»? Почему защита от агрессивного трафика так важна для медиа? И кто может помочь в этой борьбе? Технический директор Frank Media Сергей Кашпоров в интервью CNews рассказал, с какими трудностями столкнулось издание из-за неконтролируемого парсинга, как они нашли решение и какие преимущества даёт защита от подобных угроз.
CNews: Как Frank Media столкнулись с проблемой «чёрного» парсинга? Какие первые симптомы вы заметили?
Сергей Кашпоров: Для начала скажу, что Frank Media — это профильное СМИ о финансах и экономике. С 2022 года мы быстро растём: увеличивается объем трафика на сайт как за счет роста числа наших читателей, так и за счет интереса к нам со стороны других СМИ и других игроков рынка, которые мониторят наш сайт.
Несмотря на то, что мы федеральное СМИ, наша команда, как редакторская, так и ИТ-службы, очень маленькая. У нас нет и не было компетенции по защите интернет-ресурсов от чего бы то ни было: DDoS-атак, искусственных всплесков трафика, нашествия ботов и т. п. Мы развивались органически, не предпринимая никаких мер по специальной защите, кроме базовых: сложные пароли, правильные политики безопасности и т. д.
Летом 2024 года мы столкнулись с тем, что наш сайт периодически был недоступен, но при этом в явном виде не было понятно, из-за чего такие проблемы могли возникнуть: метрики Яндекса или Google не показывали аномального всплеска пользователей.
CNews: Как вы решали эту проблему?
Сергей Кашпоров: Мы начали разбираться: пробовали разные техники по исправлению неполадок, параллельно работали над архитектурными улучшениями, чтобы выдерживать больший объём посетителей на сайте одновременно.
Также мы пробовали повышать производительность нашего сервера, на котором работает сайт, для того, чтобы переваривать большую нагрузку. Мы увеличили производительность в несколько раз, чтобы мощности хватало обрабатывать весь наш трафик с многократным запасом. Однако все эти попытки решить проблему к результату не привели: сайт иногда по-прежнему «подлагивал», был недоступен как для редакции, так и для наших читателей.
CNews: Вы пробовали обратиться к компаниям, которые специализируются на защите от DDoS-атак и «чёрного» парсинга?
Сергей Кашпоров: Когда мы поняли, что все наши попытки тщетны, то, конечно же, решили искать помощи извне. В то время на сайте Frank Media вышло интервью с Михаилом Хлебуновым из Servicepipe, в котором он рассказывал о борьбе с DDoS-атаками на финансовые сервисы. Тогда мы ещё не знали, что компания работает не только с банками или корпорациями, но также предлагает свою помощь и для сайтов СМИ. Взяли контакты у редакции и связались с Servicepipe.
Хочу обратить внимание, что мы с командой ИТ никогда специально не занимались кибербезопасностью, у нас не было опыта в этой теме. Я помню, что написал менеджерам Servicepipe в субботу, и мне тут же ответили. В тот же день мы завели сайт издания в деморежиме под защиту Servicepipe. И проблемы, с которыми мы долго боролись, исчезли. Мы научились анализировать логи. Выяснилось, что наш сайт активно парсили: то ли создавали злонамеренную нагрузку, чтобы выводить сайт из строя, то ли делали это легитимно для своих бизнес-целей или других потребностей. Но, надо сказать, что парсинг вёлся очень агрессивно. Мы наращивали производительность своих серверов, а боты увеличивали объём трафика на наш сайт.
В нашей консалтинговой компании Frank RG мы тоже собираем информацию с сайтов банков: например, мониторим тарифы кредитных организаций, но делаем это крайне аккуратно — добавляем специальные искусственные задержки перед запросами, отслеживаем, чтобы было не более определенного количества запросов в определенный временной период. Это нужно для того, чтобы нас не забанили, и чтобы мы не увеличивали нагрузку на сайт банка. С нами, как со СМИ, поступали по-другому. Я писал владельцам нескольких подсетей, которые активно направляли трафик на наш сайт, но это не помогло.
CNews: Как вы в итоге поняли, когда трафик поступает от «белого» парсинга, в когда от «чёрного»?
Сергей Кашпоров: Servicepipe помог решить проблемы с нагрузкой на наш сайт. Первоначально какое-то время мы работали в тестовом режиме — пробовали просто защиту, чтобы трафик шел через Servicepipe, а не напрямую через нас, затем уже кастомизировали страницу 403 и капчу под наш сайт, включили антибот-защиту.
Любой человек, который хотел получать данные с нашего сайта для своего пользования и не для каких-то нехороших целей, мог связаться по контактам, указанным на этих страницах. И обратная связь работала: несколько человек, которые занимались, что называется «белым» парсингом, связались с нами и попросили разблокировать трафик. С поддержкой Servicepipe мы разобрались в этих кейсах и вернули доступ к сайту для них.
CNews: Сколько стоят проблемы от «чёрного» парсинга для СМИ?
Сергей Кашпоров: Именно в деньги наши потери от неполадок мы не переводили, но точно могу сказать, что мы теряли значительный объем трафика, что максимально важно для любого СМИ.
Во-первых, нам как федеральному интернет-медиа крайне важно быть быстрыми, быть первыми, поскольку это очень влияет на работу агрегаторов информации, которые собирают новости и строят сюжеты. Если ты написал новость быстро и правильно, то её будут выводить в топ, читатели будут ее видеть, кликать, переходить на сайт, то есть трафик растёт. Если ты не первый, то твоя новость теряется в потоке других, в сюжет ты не попадаешь и новых читателей на сайт не привлекаешь. А конкурировать с такими большими СМИ, как РБК, Интерфакс, Коммерсантъ очень сложно: там работает как минимум в десятки, а по факту, в сотни раз большей людей, у них более широкая тематика, долгая история и т. д.
Во-вторых, сайт медиа, если он какое-то количество времени недоступен, могут пессимизировать поисковые системы из-за того, что читатели получают негативный пользовательский опыт, когда заходят на портал, но ничего не могут там сделать. Есть специальные метрики по доступности сайта, и если ты не соответствуешь части из них, то тебя просто понижают в поисковой выдаче. Условно, в таких выдачах твоя новость будет не в первой пятерке, а на второй или третьей странице.
И в первом, и во втором случае ты теряешь трафик, а трафик для СМИ — это всё, включая монетизацию. Это значит, что ты покажешь меньше рекламы, получишь меньше кликов на баннеры и рекламодатель выберет другое СМИ с бОльшими обхватами.
CNews: Почему в итоге вы выбрали Servicepipe для защиты сайта?
Сергей Кашпоров: Мы были в процессе «тушения пожара», поэтому обратились сразу к Servicepipe. После того, как мы поняли, что острую фазу проблемы мы решили, начали смотреть альтернативы: сравнили цены и предложения. Мы смотрели только российские решения: стало понятно, что лидеров на рынке не так много, а с зарубежными сравниваться бессмысленно. Но поскольку с Servicepipe мы нашли общий язык, получили успешный клиентский опыт, плюс смогли договориться об условиях, которые устраивали обе стороны, мы решили альтернативы не пробовать и идти дальше с этой компанией. Мы ощутили на себе, как работает поддержка Servicepipe, оперативность, с которой менеджеры реагируют на сообщения и инциденты. Плюс подкупила кастомизация именно под наши проблемы как СМИ. Я лично общался с другими компаниями, созванивался с их представителями, пробовал демо-режимы, но более подходящего нам решения не нашел.
Важно обратить внимание, что у нас нет штатной поддержки. У нас в команде есть несколько человек, которые заняты разработкой нового сайта, но это именно разработчики. У ребят есть ограниченный объем знаний про информбезопасность. Но подключение Servicepipe высвободило нам ресурсы: теперь нам не нужно тратить время, изучая новую для себя область, теперь мы спокойно занимаемся профильной работой. Нам как СМИ не потребовалось инвестировать в это время, деньги и другие ресурсы.
CNews: Какие еще киберугрозы актуальны для медиарынка в целом?
Сергей Кашпоров: Потенциально, конечно, критичной угрозой является взлом админки и публикация материала от имени редакции про кого-либо. Многие были свидетелями разных взломов, например, личных страниц в социальных сетях, где от имени человека публиковались неприятные вещи, начиная от политических заявлений, заканчивая порнографией, которые не имели к действительности никакого отношения. Всё это влияет на репутацию. А в наше непростое время крайне важно не допустить, чтобы от твоего имени были написаны материалы с неверными фактами и неправильными формулировками.