Disaster Recovery: обзор решения

Решения
25.09.2020
763
6 min

Disaster Recovery: обзор решения

#draas
Проблема построения катастрофоустойчивой инфраструктуры касается крупных игроков и бизнеса, чьи процессы связаны с обработкой и хранением данных. В этой статье мы поговорим о DR-решениях и расскажем, как реализован DRaaS в ИТ-ГРАД.

Как работает Disaster Recovery

История знает массу примеров, когда недостаточное внимание к катастрофоустойчивости оборачивалось крахом даже для крупных компаний. Может показаться, что серьезные меры защиты от форс-мажоров — это игрушка только для серьезных компаний и небольшим проектам и стартапам она не нужна, можно ограничиться и регулярными бэкапами. Но уже сейчас качественные DR-решения (Disaster Recovery) становятся доступны среднему и малому бизнесу.

В отличие от резервного копирования, аварийное восстановление — это не просто регулярный перенос важных данных в безопасное место, а создание работоспособной (полной или частичной) копии ИТ-инфраструктуры на резервной площадке.

Для понимания вынесем отличия двух инструментов в таблицу.

Параметры Disaster Recovery (DR) Резервное копирование
Принцип работы Непрерывная репликация ИТ-инфраструктуры на резервную площадку в режиме реального времени Регулярное (ежедневное, еженедельное, ежемесячное) копирование данных с определением политик
Процесс восстановления
Переключение на резервную площадку в случае аварии Восстановление данных (файлов, ВМ, приложений и др) в случае потери
Необходимые ресурсы
Резервная площадка (резервный ЦОД или облако) Репозиторий для резервных копий
Роль в отказоустойчивости
Ключевой инструмент обеспечения отказоустойчивости и непрерывности бизнеса Не является инструментом обеспечения отказоустойчивости, так как ИТ-инфраструктура не резервируется
Результат
Работоспособная копия ИТ-инфраструктуры Копии корпоративных данны

Простое резервное копирование способно защитить вас от потери важной информации, но не убережет от простоя в случае выхода из строя критических компонентов вашей инфраструктуры.

Ключевые параметры: RPO и RTO

Инциденты, аварии и катастрофы несут в себе две главные угрозы: 

  • остановка бизнес-процессов из-за недоступности ИТ-инфраструктуры;
  • потеря данных.

В ключе аварийного восстановления эти риски измеряются двумя показателями — RTO и RPO.

RPO (recovery point objective) — максимальное время, за которое могут быть потеряны данные после инцидента на основной площадке. Реализовать RPO со значением 0 теоретически возможно, но на практике это редко выполнимо. Так что здесь стоит стремиться к нулю, приближаясь к нему ровно настолько, насколько это критично для бизнес-процессов. К примеру, банковское ПО не имеет права «терять» информацию о проходящих операциях даже за одну минуту. 

RPO напрямую определяет минимальную частоту, с которой будет реплицироваться инфраструктура на резервную площадку, алгоритм репликации и выбор технологии.

RTO (recovery time objective) — допустимое время восстановления ИТ-инфраструктуры. В течение этого периода (или быстрее) ваши приложения и сервисы перезапустятся на резервной площадке — например, в облаке или другом дата-центре. Например, интернет-магазин в случае простоя в течение нескольких часов может потерять существенное количество заказов.

Таким образом, показатель RTO в большей степени может сказаться на конечном опыте ваших клиентов (покупателей интернет-магазина, пользователей сервиса, в т.ч. сотрудников, если нарушается работа внутренних приложений компании), а RPO определяет допустимое количество данных, которые вы можете потерять в случае отказа.

Перед тем, как считать эти параметры на пальцах, стоит определить, какие именно сегменты вашей инфраструктуры наиболее чувствительны к простоям. Чем ниже RPO и RTO, тем сложнее и дороже в организации система аварийного восстановления. 

Резервный ЦОД vs облако: сравниваем подходы

Традиционных подход подразумевает организацию резервного ЦОДа, который полностью дублирует основной и способен взять на себя его нагрузку в случае отказа. Тем не менее, стоимость этого решения может быть неподъемно высока. Альтернативный способ организовать аварийное восстановление — обратиться к облачному провайдеру, предоставляющему услугу DRaaS (Disaster Recovery as a Service). Этот вариант существенно дешевле, поскольку не требуется:

  • докупать, устанавливать и конфигурировать резервные мощности и поддерживать их работоспособность;
  • держать в штате дополнительный персонал;
  • строить отказоустойчивое решение корпоративного уровня собственными силами;
  • содержать резервную инфраструктуру, которая 90% времени будет простаивать.

С другой стороны, в ряде случаев построение резервного ЦОДа может быть оправдано особыми требованиями бизнеса к безопасности данных и скорости финальной инфраструктуры.

DRaaS в ИТ-ГРАД

В основе решения от ИТ-ГРАД лежит технология репликации ИТ-инфраструктуры (целиком или ключевых сервисов) в наше отказоустойчивое облако. Если авария или сбой затронут работоспособность сервисов на основной площадке, они будут моментально перезапущены из облака ИТ-ГРАД. 

Услуга DRaaS основано на продукте компании VMware vCloud Availability 3.0. Это мощный и зрелый продукт, позволяющий осуществлять миграцию и аварийное восстановление:

  • ВМ с локального vCenter в облако на базе vCloud Director и наоборот;
  • vApps и ВМ между виртуальными ЦОД одной организации в vCloud Director; 
  • vApps и ВМ между облачными инфраструктурами на базе vCloud Director.

Присутствуют в решении и средства обеспечения комплексной безопасности: инструменты шифрования, встроенная система безопасности стека программного обеспечения VMware.

Решение на базе vCloud Availability позволяет:

  • настраивать RPO от 15 минут;
  • определять до 24 точек восстановления;
  • самостоятельно управлять аварийным восстановлением и репликацией из веб-консоли.

vCAV интегрирован с панелью vCloud Director, поэтому управление аварийным восстановлением осуществляется в режиме одного окна.

Аварийное восстановление в облако — лишь один из инструментов обеспечения отказоустойчивости корпоративной ИТ-инфраструктуры. Облачный подход делает DR доступнее с точки зрения стоимости, а также снимает с клиента необходимость погружаться в тонкости построения решения — сервис легко интегрируется, а накопленная практическая экспертиза провайдера обеспечивает надежную работу всего решения.



Екатерина Юдина
Профильный эксперт