Спецпроекты

Соглашение об уровне обслуживания SLA. Полный обзор

Безопасность Бизнес Телеком Интеграция ИТ в банках ИТ в госсекторе Ритейл Маркет

SLA сегодня — основополагающий документ для заказа большинства ИТ-услуг, особенно дорогостоящих. SLA отражает качество исполнения услуг и напрямую влияет на их стоимость. ИТ-маркетплейс Market.CNews позволяет выбирать поставщиков ИТ-услуг с учётом некоторых параметров SLA, например, указывая уровень надежности ЦОД.

Что такое SLA

Соглашение об уровне обслуживания (Service Level Agreement, SLA) — это договор между заказчиком услуги и ее исполнителем. В нем дается описание услуги, прав и обязанностей сторон, а также указываются числовые метрики, которые будут в дальнейшем определять согласованный уровень качества предоставления услуги.

В метриках могут указываться любые параметры качества, методы и средства их контроля, время реакции исполнителя на запрос заказчика, а также штрафные санкции за нарушение соглашения. Главное условие соблюдения SLA — значения метрик должны быть известны всем участникам процесса оказания и потребления услуги.

Набор измеряемых параметров является наиболее существенной частью SLA, именно они, по большому счету, определяют ценность услуги. На их основе будут производиться подбор и настройка оборудования для оказания услуги, контролироваться качество его работы, осуществляться расчет затрат и стоимости услуги.

Соответственно, правильный выбор этих параметров имеет очень важное значение. Контролируя их (в SLA задается период, за который поставщик обязуется предоставлять заказчику отчет об измеренных параметрах) заказчик может убедиться, что все идет по плану. Или, если параметры вышли из допустимой области значений, потребовать модернизировать предоставленное ему оборудование, модернизировать программное обеспечение и т. д. Также параметры позволяют управлять работой в критических ситуациях, гарантируя восстановление штатных характеристик работы систем в заранее установленные сроки (время устранения инцидентов и время на восстановление работы сервиса — одни из самых существенных параметров в любом договоре об уровне обслуживания).

Также в SLA описываются также условия предоставления услуг и устанавливается правила, по которым заказчик будет пользоваться ими. Поэтому, параметры SLA являются одним из главных рычагов для управления ожиданиями потребителей.

Основные пункты SLA: описание обязательств сторон; указание сроков действия соглашения; описание процесса использования услуг; описание процедуры контроля за исполнением соглашения; описание процедуры восстановления работы в случае перебоев и связанных с ними штрафных санкций; процедуры решения технических проблем и спорных вопросов.

SLA в информационных технологиях

В типовом договоре об оказании услуг, связанных с информационными технологиями указываются сроки предоставления сервиса, количество, характеристики и местоположение задействованного в оказании услуги аппаратного и программного обеспечения, порядок размещения и прохождения заявок на обслуживание, сроки и размеры платежей, связанных с предоставлением сервиса, ответственность заказчика и исполнителя, а также процедура разрешения разногласий.

Если SLA относится к работе ИТ-подразделения, то в наборе параметров SLA отражаются ключевые ИТ-процессы, с которыми связана его деятельность. Соблюдение параметров SLA становится ключевым показателем эффективности работы подразделения.

Для соблюдения принятых в SLA обязательств, поставщик услуг заключает также операционное соглашение об уровне услуг (OLA, operational-level agreement) с другими внутренними подразделениями, от которых зависит качество предоставления услуг.

SLA сегодня — основополагающий документ для заказа большинства ИТ-услуг, особенно дорогостоящих

Параметры, от которых зависит SLA

Один и тот же сервис может предоставляться с разным уровнем качества. Поэтому в соглашении должны быть выделены группы клиентов, на которые будет распространяться конкретные значения метрик.

Должны быть определены критические сервисы, управление качеством которых будет осуществляться без каких-либо задержек. Например, для торговой организации это может быть сервис подключения менеджеров по продажам к CRM-системе, для дата-центра — время восстановления питания или доступа в интернет.

Важно отметить, что при выборе значений метрик необходимо устанавливать реальные нормы качества для SLA с учетом возможностей и целевых показателей. Это позволит гармонизировать предоставление услуги. Эти параметры должны соотноситься с бизнес-целями поставщика услуг и отражать реальные потребности пользователей.

Правильный выбор параметров также помогает реально прогнозировать сроки восстановления доступа к услуге в случае аварий. Критическими параметрами в этом случае могут выступать время реакции на инциденты и время восстановления полноценной работы услуги.

Важно учитывать, от каких процессов зависит качество контролируемых ИТ-сервисов и их метрик. Эти процессы будут служить ограничивающим фактором при установлении параметров в SLA. Например, при отражении сроков создания нового рабочего места необходимо учесть сроки закупки оборудования.

Большая часть показателей в соглашении об уровне обслуживания измеряют качество работы поставщика услуг «в цифрах», однако встречается и такой интегрированный параметр как «удовлетворенность сервисом», который определяется посредством опросов сотрудников компании-клиента, пользующихся соответствующими услугами. В идеале опросы проводятся незаинтересованной третьей стороной, но, как правило, клиент делает это собственными силами. Несмотря на субъективность такой оценки (особенно в случае самостоятельного опроса), она может помочь в понимании того, правильно ли подобраны и ранжированы по важности измеряемые, «числовые», параметры.

В рамках данной статьи рассмотрим подробнее следующие две метрики SLA:

  • Доступность сервиса
  • Время реакции на инциденты

Доступность сервиса

Доступность сервиса — это минимальное суммарное время, в течение которого сервис будет доступен. Иногда расчет ведется от обратного, и тогда речь идет о максимальном времени, в течение которого сервис будет не доступен. Доступность сервиса — один из важнейший параметров SLA (Service Level Agreement, Соглашение об уровне обслуживания).

Доступность сервиса, как правило, измеряется в процентах или в абсолютных величинах (в часах, минутах, секундах) за определенный промежуток времени (месяц, год).

При этом недоступным может считаться оборудование или программное обеспечение, даже формально работоспособное, но работа с которым фактически не возможна, так как задержки при обращении к нему превышают заданную величину. В этом случае учитывается, что вина за задержку может лежать и не на провайдере услуги, в таком случае он ответственности не несет.

Критерий доступности сервиса применяется практически к любым услугам, от доступности указанного онлайн-приложения для соблюдения сроков предоставления отчетов

Определение уровня доступности

Критерий доступности сервиса применяется практически к любым услугам, от доступности указанного онлайн-приложения для соблюдения сроков предоставления отчетов. Обычно оговаривается допустимый уровень отказов, например примеру, онлайн-приложение должно быть доступно в течение 99% времени от 10:00 до 19:00 по местному времени.

Одним из примеров уровней доступности можно считать уровень надежности ЦОД Tier. Согласно общепринятой классификации выделяют четыре уровня надёжности ЦОД, от Tier I до Tier IV. Для каждого уровня надежности характерен свой уровень доступности (см. таблицу).

Уровень надежности ЦОД Уровень доступности, % Время простоя, часов в год
Tier I 99,671% 28,8
Tier II 99,749% 22,0
Tier III 99,982% 1,6
Tier IV 99,995% 0,4 (15 минут)

Выбор продолжительности простоя оборудования должен предусматривать время проведения подготовительных, ремонтных и заключительных работ. Их нормативы будут определять конечное значение самой метрики.

Сокращение длительности простоев оборудования часто достигается путем своевременной технической и материальной подготовки работ. Они будут главным фактором, влияющим на восстановление работы сервиса. Поскольку этими параметрами можно управлять, итоговое значение метрики простоя будет отражать не только надежность используемого оборудования, но и качество его обслуживания.

Влияние доступности сервиса на цену услуги

Оценить влияние доступности сервиса на стоимость услуги Colocation можно оценить при помощи ИТ-маркетплейса Market.CNews. Так, например, аренда одного юнита в ЦОД уровня Tier II в среднем составляет p2000 в месяц, а в ЦОД уровня Tier III — от p2200 до 4400 в месяц при типовых значениях остальных параметров (мощность 300 Вт, 1 IP-адрес, ширина интернет-канала 100 Мбит/с).

Время реакции на инциденты

Время реакции на инциденты — это одна из конкретных числовых метрик SLA. Она показывает время, прошедшее с момента поступления и регистрации запроса на обслуживание (то есть с момента поступления вашего сообщения о проблеме) до момента фактического начала работ по факту обращения.

Не стоит путать время реакции на время неработоспособности вашего сервиса или время простоя. Время реакции — лишь одна из составляющих длительности простоя. Есть и другие составляющие, такие как время решения проблемы, например. Суммарное время — время жизни инцидента.

Оценка времени реакции на инциденты

Для правильного отражения времени реакции на инциденты необходимо определить границы действия SLA — территориальные, временные и функциональные. Прежде всего, необходимо точно отразить, где и как будет оказываться сервис (удаленно или на конкретной территории) и когда (график восстановительных работ и его продолжительность, с учетом выходных и праздников).

Следует также обратить внимание на раздел, отражающий работу функциональной части системы. Там задается список модулей системы или их конфигурация, интерфейсы. Именно по этому списку будет вестись расчет времени на восстановление в случае инцидентов.

Для оценки времени реакции на инциденты следует разделить возможные инциденты на категории в зависимости от уровня их критичности — например, низкий, средний, высокий уровни. К инцидентам с низким уровнем критичности относят проблемы в работе отдельных модулей сервиса. К средним — нескольких таких модулей, к высокому уровню критичности — неработоспособность большей части сервиса.

Время реакции при этом может составлять 10 минут до 1 часа в зависимости от уровня критичности. Впрочем, время может меняться исходя из того, о какой ИТ-услуге идет речь.

Оценка результата

Что касается оценки результативности процесса управления инцидентами, то чаще всего она контролируется по двум метрикам: доля своевременно решенных инцидентов и среднее время устранения инцидентов.

В SLA рекомендуется прописывать штрафные санкции за неисполнение нормативов по времени реакции на инциденты и другим подобным параметрам.

Заключение

При подготовке договора SLA необходимо исходить из того, что он служит не для бюрократизации работы сервисного или ИТ-подразделения. Его главная задача — формализовать и сделать более прозрачным взаимодействие с потребителями услуг. Поэтому составление SLA имеет очень полезный эффект: это соглашение наводит порядок во взаимоотношениях с клиентом и в бизнес-процессах самой компании.



Стратегия месяца

Периферийные вычисления перемещаются в центр внимания

Тема месяца

Обзор: ИКТ в госсекторе

Рейтинги CNews

• Топ-100 ИКТ-тендеров для федеральных ведомств • Крупнейшие поставщики • ИКТ-бюджеты регионов