Как «ИТ-ГРАД» трансформировал систему мониторинга

Процессы
Екатерина Юдина
10.12.2019
Количество просмотров
3661

В сегодняшней статье мы расскажем об уникальном кейсе — как впервые на рынке российского IaaS в условиях объединения трех облачных провайдеров происходила трансформация системы мониторинга. Отдельно поговорим о сложностях и точках роста в создании услуги мониторинга для заказчиков. Технические детали и нюансы — намеренно опустим, сосредоточим внимание на административных сложностях процесса.

Что побудило нас к построению новой системы мониторинга

Как вы, возможно, знаете, в конце 2018 года состоялась сделка, в рамках которой облачный бизнес «ИТ-ГРАД» перешел в облачное направление к ПАО МТС. Слияние стало первым шагом в реализации концепции «Объединенного облачного провайдера», который на текущий момент представлен тремя брендами:

Сегодня все три бренда работают совместно и взаимно дополняют друг друга. Однако в ходе слияния был запущен процесс по выделению облачной IT-инфраструктуры «ИТ-ГРАД» в отдельный сегмент. Это был сложный переходный момент — именно тогда началось отключение большого количества оборудования и ЦОДов, которые не вошли в контур сделки. К тому же поменялась маршрутизация внутренней и внешней сети. Сроки, как всегда, поджимали, триггеры в системе мониторинга не всегда удавалось актуализировать вовремя. Это привело к генерации множества ложных инцидентов от уже несуществующего оборудования.

В результате сотрудники первой линии поддержки столкнулись с таким огромным потоком ложных оповещений, что физически обработать все события корректно и своевременно было довольно сложно. Требовалось полностью перенастроить систему мониторинга, актуализировать ее под текущие задачи. В итоге было принято решение создать выделенное подразделение управления событиями, которое наладит работу системы мониторинга в «ИТ-ГРАД» и впоследствии станет единым центром по наблюдению за состоянием инфраструктуры объединенного облачного провайдера. Требовалось решить следующие важные задачи:

От определения требований до запуска услуги 

Чтобы добиться поставленных целей, требовалось собрать и проанализировать все данные, разбив реализацию проекта на несколько шагов: определить требования к системе мониторинга, подготовить модели «здоровья» компонентов услуги, проанализировать требования к надежности и отказоустойчивости системы мониторинга, протестировать и последовательно внедрить систему, а после — представить услугу мониторинга для клиентов. Рисунок ниже более наглядно демонстрирует описанный процесс:

Внедрение новой системы не обошлось без сложностей, перечислим основные:

  • Формирование нового отдела — оказалось, что непросто найти узкоспециализированных сотрудников, которые знают и имеют практический опыт работы с различными системами мониторинга.
  • Сжатые сроки для решения задачи.
  • Географически разрозненная IT-инфраструктура, которую требовалось привести к единому стандарту.
  • Большое количество разрозненных систем мониторинга, которые было необходимо объединить в единую систему.

Учет и контроль

Любая IT-инфраструктура требует не только учета и контроля, но и ведения отчетности. Ни одно событие, даже самое незначительное, не должно оставаться без внимания. На текущий момент в «ИТ-ГРАД» удалось выстроить процесс, который включает в себя:

Созданная единая CMDB теперь позволяет отслеживать состояние и историю событий как по всей инфраструктуре, так и по конкретным компонентам. Дополнительно отслеживается состояние отдельных услуг, например, резервное копирование с точки зрения корректности его выполнения.

Если по какой-то причине задача отрабатывает с ошибкой, регистрируется инцидент, где указывается сервер резервного копирования, задача и виртуальная машина — наличие этой информации помогает все быстро починить. Благодаря мониторингу услуг, «ИТ-ГРАД» может предоставлять отчёты своим клиентам.

Полученные результаты 

Новая система мониторинга уже активно функционирует, и мы готовы поделиться с вами результатами её работы.

Полностью восстановлен мониторинг.

На текущий момент нам удалось восстановить мониторинг инфраструктуры «ИТ-ГРАД» и избавиться от генерации ложных инцидентов. Услуга для клиентов проходит тестирование и скоро станет доступна. В дальнейшем мы планируем завершить объединение инфраструктур, подключив 1cloud и #CloudMTS к единой системе мониторинга «ИТ-ГРАД».

Серьезные изменения в работе техподдержки.

Ранее при срабатывании триггера на alert генерировался инцидент на 1-линию поддержки. Дежурный сотрудник обрабатывал его и оповещал заказчика либо звонком, либо по электронной почте. Сейчас всё работает автономно — при срабатывании триггера в течение 2-х минут, если это необходимо, происходит автоматическое оповещение клиента.

Контроль за «состоянием здоровья».

В рамках процесса мониторинга и контроля услуг мы в режиме реального времени следим за «состоянием здоровья» рабочей IT-среды, автоматизировано оповещая как внешних, так и внутренних пользователей. Мониторинг состояния IT-инфраструктуры и услуг, а также собираемые данные позволяют предпринимать проактивные действия до того, как что-то выйдет из строя. Как видите, процесс построения системы мониторинга полон подводных камней. Но мы уверены, что в результате совместной работы нашей команды инженеров и аналитиков получился отличный продукт, который решает сразу две бизнес-задачи: обеспечивает качественным мониторингом «ИТ-ГРАД» и позволяет реализовать мониторинг как услугу для клиентов.  

Средняя оценка: 0, всего оценок: 0
Поделиться

Только полезные материалы в нашей рассылке

Ошибка подписки

Похожие статьи

Безопасность
Как выбрать облачной PCI DSS хостинг— «ИТ-ГРАД»
29.05.2017
Количество просмотров
4230

Как выбрать облачной PCI DSS хостинг— «ИТ-ГРАД»

Услуга PCI DSS хостинга пользуется популярностью среди компаний, деятельность которых связана с процессами обработки или передачи данных платежных карт. Поскольку приводить собственную инфраструктуру в соответствие с требованиями PCI DSS – финансово- и трудозатратное мероприятие, большинство организаций склоняются к выбору поставщика услуг, который закрывает часть требований стандарта собственными силами. Как не допустить ошибок и на что обратить внимание при выборе услуги PCI DSS Compliant Hosting – рассмотрим в этой статье.
Процессы
Резервное копирование, клонирование и восстановление данных с помощью инструментов NetApp и VMware. Практический кейс. Часть 2
10.10.2016
Количество просмотров
3430

Резервное копирование, клонирование и восстановление данных с помощью инструментов NetApp и VMware. Практический кейс. Часть 2

В прошлой статье мы изучили особенности VMware vRealize Automation, NetApp SnapCenter и NetApp Workflow Automation, подготовив тестовый стенд для решения проблемы защиты данных. Настало время тестирования. Присаживайтесь поудобнее, поехали!
Истории успеха
Кейс, электронная торговая площадка RailCommerce разместилась в IaaS-облаке «ИТ-ГРАД»
18.10.2017
Количество просмотров
2629

Кейс, электронная торговая площадка RailCommerce разместилась в IaaS-облаке «ИТ-ГРАД»

Еще с конца прошлого века информационные технологии начали определять не только форму, но и суть ведения многих бизнес-проектов. А за последние десять лет существенно преобразилась даже такая консервативная отрасль, как железнодорожные грузоперевозки.

Ваше обращение приняли

Скоро наш менеджер свяжется с вами.
А пока вы можете изучить интересные материалы в нашем блоге.

Подписка оформлена

Скоро отправим вам уведомление о новых материалах.