Top.Mail.Ru
Колонки

Даже Google сталкивается с ИТ-сбоями: что мешает спать CIO, IT-директору или product owner?

Колонки
Николай Ганюшкин
Николай Ганюшкин

CEO MONQ Digital Lab

Анастасия Удальцова

На прошлой неделе пользователи по всему миру столкнулись со сбоями в работе сервисов Google и Youtube, на которые пожаловались десятки тысяч человек. Сбой был разрешен в течение 45 минут после обнаружения причины. Николай Ганюшкин, CEO и основатель MONQ Digital Lab, вендора и поставщика первой AIOps-платформы родом из России MONQ, поделился результатами большого исследования основных болей ИТ-руководителей в крупных и быстрорастущих компаниях.

Даже Google сталкивается с ИТ-сбоями: что мешает спать CIO, IT-директору или product owner?

Несколько фактов об исследовании

В исследовании приняли участие более 30 ИТ-руководителей крупных компаний – от СIO и руководителей отделов ИТ-инфраструктуры и мониторинга до продактов и специалистов департаментов информационной безопасности. 

Глубинные интервью включали в себя вопросы об организации управления ИТ-инфраструктурой и цифровыми сервисами, частоте возникновения сбоев и оценке их влияния на бизнес, времени решения ИТ-инцидентов. Исследование проводилась в банках, телеком и ритейл-компаниях.

 

ТОП-болей ИТ-руководителя

Проблемы при ИТ-поддержке, конечно, зависят от индустрии, в которой работает компания, однако исследование позволило выявить общие для всех проблемы. Их десять:

  1. Непонятно, что послужило причиной сбоя.
  2. Поздно: клиенты быстрее IT узнают о сбоях и жалуются бизнесу.
  3. Дорого: постоянно растут расходы на ИТ, а эффективность неизвестна.
  4. Инженеры тонут в «шуме» мониторингов. В «шуме» тысяч уведомлений от систем мониторинга сложно распознать действительно важные.
  5. Разрозненно: «упал» продукт, но непонятно, кто чем занимается и решается ли проблема.
  6. «Всё горит»: растет число задач, а штат не увеличивается.
  7. Ошибки людей и неэффективная трата ресурсов: большая часть регламентных действий делается вручную.
  8. Долго: нет инструмента быстрой отчетности бизнесу.
  9. Неизвестно: сбои не прогнозируются, а устраняются по факту, перманентная борьба с ними стала нормой.
  10. Ошибки приоритезации инцидентов. ИТ-службы не обладает инструментом оценки влияния сбоя на бизнес и неверно расставляют приоритеты.

 

Банки: фокус на self-service накладывает на ИТ совершенно другой уровень ответственности

Если говорить о специфике разных индустрий, то банки, безусловно, являются одним из самых развитых секторов в использовании ИТ. В этом сегменте на развитие ИТ-менеджмента влияют пять основных трендов:

RB.RU организует встречу проекта Founders’ Mondays для начинающих и опытных предпринимателей. Дважды в месяц по понедельникам.

Банки создают все больше продуктов, которые используются клиентами без участия операторов. В такой ситуации положение, когда что-то «зависло», становится критическим для финансовых результатов и репутации компании. 

Качество сервиса должно быть на высоте, а реакция на возникающие инциденты — моментальной. ИТ-команды должны поддерживать абсолютную непрерывность работы цифровых сервисов, потому сбои в ИТ моментально отражаются на клиентах. 

Это приводит к растущим KPI в части скорости реакции на инциденты. 

В банках будущее за автоматизацией. 

Банк — это сегмент, где это тренд наиболее заметен. Человек не может быстро и качественно обрабатывать огромный объем информации (до миллиона логов в день), генерируемый системами мониторинга. 

В условиях, когда стабильность работы ИТ становится жизненно важной для бизнеса, поддержание «здоровья» ИТ должно исключать человеческий фактор. Роль инженеров — развитие, но не попытки заменить роботов. 

 

Как часто случаются ИТ-сбои?

Лучше всего частоту сбоев охарактеризовали два респондента: «Мы сталкиваемся с крупными проблемами примерно один раз в месяц», «Сбои и инциденты —  часть рабочего процесса»

ТОП болей банков при ИТ-поддержке:

  1. Причина проблемы неизвестна: команды не знают первопричины, поэтому сбои повторяются. 
  2. ИТ узнает о сбоях из обращений клиентов: клиенты сталкиваются с проблемами при использовании банковских сервисов и инфраструктуры и обращаются в чаты, call-центр, когда бизнес и его репутация уже пострадали.
  3. Нехватка квалифицированного персонала: сложно найти специалистов с высокой квалификацией для поддержки ИТ- и цифровых продуктов.
  4. Слишком много алертов от систем мониторинга: в цифровом шуме сложно понять, какие инциденты важные и влияют на стабильность бизнеса.
  5. Долгие внедрения ИТ-решений и проблемы с интеграцией: процесс может занять до семи месяцев, в течение которых приходится многое делать «вручную».
  6. Бесконечные атаки: кибербезопасность в банках критична как нигде, при этом ИТ- и ИБ-блоки могут иметь разные подходы к развитию и обеспечению безопасности, нет инструмента, показывающего влияние ИБ-инструментов на стабильность ИТ.
  7. ITSM не помогает реагировать на сбои, потому что не удовлетворяет по нескольким причинам: «Шаблоны не ясны», «Есть решения из прошлого, которые не работают сейчас», «Есть проблемы, которые никогда не решались, и непонятно, что делать сейчас».
  8. Переплата за анализ неиспользуемых данных: бизнес вкладывает в ИТ-аналитику существенные средства, при этом эти расходы могут быть неоправданными.
  9. Релизы и апдейты могут откатить ИТ на 24 часа назад.

 

Телеком: высокая зависимость от технологий при неповоротливости бизнеса… при все еще актуальной проблеме вандализма. 

По словам участников исследования, телеком — один из сегментов, наиболее зависимых от ИТ («без технологий нам не выжить»). При это такие компании концентрируются на развитии продуктовой линейки и борьбе за завоевание и удержание клиентов из-за высокого уровня конкуренции на рынке. 

Однако внедрение AI-технологий, упрощающих управление, может занять много времени из-за большого размера компаний и высокой разрозненности продуктов и инфраструктуры. Телеком Telco стремится к простой автоматизации, которая могла бы остановить бесконечное тушение пожаров. 

 

Как часто происходят сбои?

В телекоме ситуация со сбоями может отличаться от компании к компании: есть те, кто высказываются о проблеме в ключе «тушим пожары каждый день». В других компаниях проблема не такая явная: «Я не могу сказать, что [сбои] случаются часто. Вероятно, пять-шесть раз в год серверы выходят из строя по неизвестной причине. Это напрямую не влияет на пользователей, они могут даже ничего не замечать, но это может иметь отсроченный эффект».

 

ТОП болей телекома при ИТ-поддержке:

  1. «Тушение пожаров» как норма: большое количество систем вызывает большое количество багов, в том числе из-за апдейтов или перегрузок.
  2. Устаревшие legacy system: новые системы внедрять сложно из-за устаревшего «наследия».
  3. Много цифрового шума, который сложно или невозможно обрабатывать вручную.
  4. Разрозненная инфраструктура: телеком-компании могут арендовать оборудование, состояние
    которого сложнее отслеживать.
  5. Нет полноценного инцидент-менеджмента: дежурные реагируют с опозданием, много «ручных 
    ошибок».
  6. Много бюрократии: бюрократия тормозит использование новых решений.
  7. Пользователи сообщают о сбоях: звонки в call-центр могут быть ежедневными, причем по несистемным проблемам.
  8. Разрозненные продукты для ИТ-поддержки: это приводит к разрозненности и непониманию общего состояния.
  9. Кадровый вопрос: квалификация дежурных не самая высокая, системы в ИТ должны быть простыми в использовании для junior-персонала.
  10. Задачи растут, а количество людей нет. Объем данных для обработки инженерами растет, а бюджета на расширение персонала нет, необходима автоматизация.
  11. Вандализм: вандалы повреждают сети, поэтому важна оперативная реакция на физические повреждения инфраструктуры.

 

Ритейл: бум развития служб онлайн-заказов и доставки в пандемию

Все, кто был просто ритейлом, в 2020 году становится eCommerce. До пандемии ритейл, не связанный с электронной коммерцией, был менее развит и зависим от стабильности ИТ, однако коронавирус заставил многие компании перейти от офлайн-продаж к онлайн-заказам и доставке.

Фокус поменялся, новые крупные релизы происходят чуть ли не еженедельно. При этом сроки на переход были сжатые, и для ритейл-компаний, которые только в этом году начали активную цифровизацию, вопросы ИТ-поддержки еще являются новыми, а сбои в ИТ, причем как во внешних, так и внутренних сервисах – почти ежедневными.

 

Как часто происходят сбои?

«Аварии случаются примерно два раза в неделю» – как рассказал один из респондентов информирует своего руководителя о регулярных сбоях, которые могут затрагивать до 600 сотрудников, но не получает средств и полномочий для разрешения ситуации. В другой компании сбои случаются «хотя бы один-два раза в месяц ... [это] непонятные отказы продолжительностью от получаса и более».

Однажды произошел длительный сбой во внутренней системе, который привел к миллионам убытков для компании.

 

ТОП болей ритейла при ИТ-поддержке:

  1. Сбои при вводе нового функционала, которые исправляют на «живом» функционале. 
  2. Долгое решение инцидентов: в среднем больше двух часов на решение одного инцидента, иногда — до нескольких дней.
  3. «Пожаротушение как норма» — ритейл не автоматизирован.
  4. IT не в приоритете — руководители могут не реагируют на сигналы о сложностях и возможных сбоях.
  5. Нет взаимодействия между командами: IT и продакты мало и медленно взаимодействуют. Нет обмена метриками, кроссистемный мониторинг плохой.
  6. Сложно отчитываться бизнесу: ИТ и бизнес «не понимают друг друга», у ИТ нет объективного инструмента отчета бизнесу о своих показателях.
  7. Нет денег на дорогие решения для поддержки, которые «дорого не только покупать, но еще обслуживать».
  8. Поставки — особенно болезненная тема: так, продуктовый ритейл чувствителен к сбоям в поставках из-за сроков годности и высокой оборачиваемости запасов.
  9. Устаревшее оборудование в компаниях, которые традиционно продавали через офлайн-точки.
  10. Непонятны причины сбоев. В одной из компаний респондент рассказал, что «как минимум один-два раза в месяц происходят непонятные отказы разной продолжительности (от получаса до нескольких часов)».

 

Дальше только AI

Тренд на цифровизацию и усиление зависимости бизнеса от стабильной работы ИТ будет расти, поэтому проактивная работа с инцидентами, предсказание сбоев и решение проблем в корне станут для ИТ-руководителей фокусом, при этом нагрузка на инженеров поддержки будет расти в связи с усложнением и ростом инфраструктуры и сервисов. Увеличить эффективность ИТ-поддержки могут AIOps-решения, но как – это уже тема для другой статьи.

Фото на обложке: CoinUp/Shutterstock

Иллюстрации предоставлены автором.

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Девять серьезных недостатков Tesla 3
  2. 2 IT-стартап по оптимизации бизнес-процессов ABM Cloud привлек $640 тысяч от QPDigital
  3. 3 Пользователи пожаловались на проблемы в работе сервисов Google
EdTech: карта российского рынка
Все компании и инвесторы в области образовательных технологий
Перейти