Статья

Сколько стоит резервный ЦОД

Безопасность
мобильная версия
, Текст: Игорь Тюкачев

Резервный ЦОД – неотъемлемая часть процесса обеспечения непрерывности бизнеса. На него возлагается основная задача по резервированию всех данных и переключению «боевой» нагрузки на случай нештатных ситуаций. Однако формирование такой катастрофоустойчивой инфраструктуры сопровождается серьезными затратами. Проще говоря: резервный дата-центр – дорогое удовольствие. Но простои ИТ-сервисов могут обходится бизнесу еще дороже.

В своем анализе я не могу оперировать реальными суммами потерь компаний, потому что чаще всего это закрытая внутренняя информация. Но я могу примерно рассчитать эту сумму, исходя из публичных данных по выручке. В таблице указаны потери из расчета худшего сценария, когда существует один незарезервированный ЦОД и он сгорел в самое неподходящее время. Предполагаем, что компания начинает терять деньги с момента аварии:

Компания Выручка, млрд ₽ (год) Вероятные потери, млн ₽/час
Банк 1 (топ-10) 299 34
Банк 2 (топ-100) 271 31
Телеком-оператор 1 297 34
Телеком-оператор 2 412 47
Ритейлер 1 365,2 42
Ритейлер 2 233,4 27

«Инфосистемы Джет», 2018

Разумеется, цифры приблизительные, поскольку для каждой отрасли и компании будут учитываться индивидуальные факторы. Но на них можно опираться при разговоре о стоимости остановки ключевых бизнес-процессов. Чтобы предотвратить убытки, необходимо обеспечить резервную ИТ-инфраструктуру, которая будет хранить информацию о ключевых бизнес-процессах и иметь ресурсы для поддержания их работоспособности.

Выбираем способ организации резервной инфраструктуры

Сегодня мы имеем огромное количество вариантов построения резервной инфраструктуры. Ниже я перечислю основные из них.

Собственный дата-центр. Собственная инфраструктура дата-центра обычно требует серьезных капитальных затрат на старте, но имеет свои преимущества в части безопасности, так как данные всегда находятся под рукой. Также «родную» инфраструктуру легче администрировать. К более дешевым вариантам организации собственного ЦОД относятся мобильные и контейнерные – их можно размещать вне здания и экономить на строительстве.

Аренда площади в коммерческих дата-центрах. В этом случае само здание и инженерная инфраструктура предоставляются за ежемесячную плату. Плюсы такого решения – от момента принятия решения до размещения «железа» проходит небольшое количество времени. При этом снимается головная боль по обслуживанию систем безопасности, пожаротушения и кондиционирования.

Аренда инфраструктуры (IaaS – Infrastructure as a Service). Данный вариант быстрее с точки зрения запуска, так как DR-решения (Disaster Recovery – восстановление данных и работы ИТ-сервисов после катастроф) разворачиваются на мощностях коммерческого дата-центра. К ключевым преимуществам относится высокая скорость разворачивания и отсутствие затрат на эксплуатацию. К минусам IaaS в качестве резервного ЦОД относится сложность установки нетиповой для данного дата-центра инфраструктуры. Коммерческий ЦОД может пойти навстречу и реализовать дополнительные требования (например, как это делает ВЦОД от «Инфосистемы Джет»). Но это лишает гибкости в части смены одного провайдера IaaS на другого.

Аренда сервисов (DRaaS – Disaster Recovery as a Service). Вариант для продвинутых компаний. Заказчик платит за возможность в случае отказа своих систем срочно переехать на правильным образом сконфигурированный сторонний ИТ-ландшафт. Такой способ резервирования – самый быстрый с точки зрения развертывания, а также позволяет платить только за те услуги, которые реально потребляются бизнесом здесь и сейчас. К недостаткам можно отнести необходимость репликации и хранения данных на стороне провайдера DRaaS. Для некоторых компаний в соответствии с законом «О персональных данных» процесс хранения данных за пределами собственного ЦОД затруднен (например, финансовые структуры и телеком).

Определяем стоимость лучшего варианта

Для того, чтобы выбрать среди многообразия предлагаемых рынком решений и не переплатить, необходимо пройти основные шаги:

Первый шаг: провести BIA (business impact analysis – анализ воздействия факторов на бизнес) и договориться о требованиях к непрерывности бизнес процессов и услуг.
Второй: определить технологии резервирования данных и систем.
Третий: подготовить технико-экономическое обоснование выбранных технологий и способов.
Четвертый: определить способ организации резервной инфраструктуры.
Пятый: спроектировать решения по резервированию.

Если по итогу всех мероприятий было принято решение о строительстве собственного ЦОД, то к вышеописанным шагам добавляются еще два пункта:

Шестой: из расчета объема оборудования и прогноза роста ИТ-систем спроектировать и рассчитать размер дата-центра и стоимость его инженерных подсистем.
Седьмой: спрогнозировать возможные дополнительные затраты, например, на коммунальные платежи.

Считаем CAPEX и OPEX

Как и любой инвестиционный проект, решение о построении или использовании дополнительной ИТ-инфраструктуры должно приниматься на основе тщательного анализа всех факторов, влияющих на конечную стоимость. Для поиска максимально эффективного экономического решения проводится подсчет совокупной стоимости владения резервной инфраструктурой для каждого способа его организации. Исследуются все затраты компании на организацию и поддержку резервного решения на промежутке времени (обычно это 3, 5, 7 лет).

Ключевые статьи приведены в таблице ниже:

Капитальные затраты Операционные затраты
Покупка оборудования Затраты на поддержку оборудования и ПО
Покупка ПО и лицензий ФОТ эксплуатационного персонала
Траты на инженерные системы Арендные платежи за площади или инфраструктуру
Аренда каналов связи
Затраты на покупку или строительство здания Амортизация оборудования, ПО и лицензий
Арендные платежи за сервисы по подписке (IaaS, DRaaS и т.д.)
Консалтинг, проектирование, внедрение

«Инфосистемы Джет», 2018

Определяем целевое время восстановления и его стоимость

В рамках BIA определяются финансовые потери при выходе из строя ключевых ИТ-ресурсов, а также значения RTO (Recovery Time Objective) и RPO (Recovery Point Objective). RTO показывает время, необходимое для восстановления ИТ-ресурсов после сбоя, а RPO определяет время максимально допустимых потерь данных до момента возникновения сбоя.

Для каждого показателя определяются технологии по резервированию и его стоимости. На рисунке ниже изображена шпаргалка, из которой видно, что если RTO/RPO определены бизнесом в минутах и часах, то в качестве способа резервирования подходит кластер с синхронной репликацией. А если RTO определено, например, в несколько дней, то речь может идти о восстановлении из бэкапов. Соответственно, чем быстрее бизнесу нужно восстановиться после сбоя, тем дороже будет его техническая реализация.

Выбираем технологии в зависимости от допустимых RTO и RPO

1.png
Источник: «Инфосистемы Джет», 2018

Следующий шаг в технико-экономическом обосновании – сравнение вероятных финансовых потерь со стоимостью решения по резервированию. И последняя не должна превышать вероятные потери, иначе теряется весь смысл защиты от катастроф. В таком случае с точки зрения бизнеса проще «пережить» потери, чем потратить время и деньги на резервирование.

Но что делать, когда стоимость самого дешевого варианта по резервированию финансово превышает вероятные потери бизнеса от сбоев? В таком случае необходимо найти компромисс и вместе ответить на вопрос, с какими данными бизнес готов расстаться, а с какими – ни в коем случае? Найдя эту точку «невозврата», исходить из доступных для нее способов резервирования. Рисунок ниже иллюстрирует этот подход. После аварии с течением времени потери компании увеличиваются экспоненциально, как снежный ком. С другой стороны, стоимость решений по резервированию уменьшается с увеличением значения RTO/RPO. Таким образом, все, что левее точки пересечения (отмечена зеленой звездочкой), бессмысленно с точки зрения бизнес-затрат. Все, что справа от зеленой звездочки, может рассматриваться как достаточное решение по резервированию.

2.png
Источник: «Инфосистемы Джет», 2018

Рассчитываем TCO правильно

От того, как будет посчитана TCO-модель резервного ЦОД (Total cost of ownership – полная стоимость владения), зависит выбор конкретного решения. Как я говорил ранее, самый простой в оценке – вариант DRaaS, а самый сложный – собственный ЦОД.

Рассмотрим совокупную стоимость владения для DRaaS-модели владения резервным ЦОД. В нее входят сумма ежемесячных платежей и периодическая учебная миграция данных из основного ЦОД на резерв. Необходимо держать в уме: если инфраструктура продуктивного дата-центра растет на 20-30% в год – платежи за услугу DRaaS также будут расти. Увеличивается количество данных для восстановления – увеличивается стоимость хранения этих данных.

3.png
Источник: «Инфосистемы Джет», 2018

Намного интереснее выглядит расчет TCO для собственного ЦОД. Так как он не строится за неделю, то и затраты мы разбиваем на несколько годовых итераций. В траты за первый год закладываем проектирование и строительство ЦОД включая покупку здания, стоимость инженерных систем и их поддержку.

В стоимость второго года входят затраты на проектирование и развертывание всей необходимой ИТ-инфраструктуры. Нужно учесть затраты на лицензии, поддержку «железа» и ПО.

Третий, четвертый и пятый года включают в себя затраты на запуск резервных решений и оплату труда сотрудникам, затраты на расширение мощностей и на информационное «выравнивание» резервного ЦОД по отношению к основному (то есть данные в активном и резервном ЦОД всегда должны дублировать друг друга). Также никуда не уходят затраты на учебные миграции.

41.png
Источник: «Инфосистемы Джет», 2018

На графике видно, что вариант с арендой ЦОД имеет самую низкую стоимость владения и наиболее привлекателен на промежутке 5 лет для построения отказоустойчивого ИТ-ландшафта.

Все остальные варианты владения запасной площадкой считаются схожим образом. Основная ошибка при подсчете – не учитывать рост инфраструктуры, затраты на репликацию бэкапов и периодическое тестирование миграции в резервный ЦОД. Для компаний со значительным ИТ-ландшафтом это могут быть упущенные в бюджетировании проекта серьезные суммы, которые могут повлиять на окончательное решение.

Собственный ЦОД – это удел в большей степени крупных компаний, в которых ИТ – одно из бизнесобразующих подразделений. Для компаний, где ИТ пока не играет такую роль, более оптимальным будет вариант IaaS. Также опыт подсказывает, что немалую роль играют личные предпочтения ИТ-директора (или лица, принимающего решение по данному вопросу), в связи с чем может быть выбран вариант с меньшей экономической эффективностью.

Последние шаги

Построение решений по резервированию ИТ-ландшафта могут быть значительно растянуты во времени. При этом такие проекты ресурсоемки. Бизнес обычно хочет большей прозрачности в стоимости резервирования данных и получаемого результата. Это можно проиллюстрировать в виде графика, на котором показано, как год за годом снижается вероятность возникновения риска потерь данных при наличии площадки с резервными данными.

51.png
Источник: «Инфосистемы Джет», 2018

Результат

В результате проведенных подсчетов руководство получает необходимые данные для принятия решения о построении катастрофоустойчивого ИТ-ландшафта. Алгоритм принятия решения о целесообразности резервирования прозрачен как для ИТ, так и для бизнеса, что позволяет сделать процесс бюджетирования гораздо проще. Важно отметить, что первые шаги – оценка влияния чрезвычайных ситуаций на бизнес и расчет TCO-модели – должны выполняться максимально качественно, так как именно от них зависит выбор оптимального варианта резервирования. Помимо этого, нужно принимать во внимание стратегические цели ИТ и бизнеса в целом, а также опыт, специфику и существующие ограничения компании. Такого рода задачи комплексные и требуют, как минимум, системного подхода. А как максимум – привлечения профессионалов.

Задать вопросы автору статьи – Игорю Тюкачеву, консультанту Центра проектирования вычислительных комплексов «Инфосистемы Джет», вы можете в комментариях или отправив сообщение на bia@jet.su