Виталий Савченко

15 минут — максимальное время, которое ваша система может не работать

Виталий Савченко, руководитель группы системных инженеров Veeam Software по России и странам СНГ, рассказывает, почему в компании решили давать системе на восстановление не больше 15 минут и много ли можно потерять, не последовав этому правилу.


15 минут – это много или мало?

Ответ на этот вопрос крайне индивидуален и зависит от множества условий. К примеру, 15 минут недостаточно для написания кода нового приложения, однако этого времени хватит для проведения планерки и даже подписания контракта.

Сегодня оптоволокно и Wi-Fi расширяют наши возможности, помогая сделать каждую минуту работы более эффективной и прибыльной. В таких условиях любой сбой или недоступность данных становятся настоящей проблемой, которую необходимо устранить в максимально сжатые сроки. В нашей компании мы придерживаемся позиции, что именно 15 минут должны стать стандартом для аварийного восстановления ИТ-систем. Большего времени у бизнеса просто может не быть.

Время, которого нет

Каждый сбой равносилен потере времени, представляющего разную ценность для человека и для бизнеса. Так, в повседневной жизни 15 минут легко могут остаться незамеченными. К примеру, представьте, что вы опоздали на автобус. Обычная история, особенно, если не рассчитывать время заранее, а просто выйти на остановку. Увидев в расписании, что следующий приедет через 15 минут, вы, с большой долей вероятности, ничуть не расстроитесь и скрасите ожидание, читая книгу или проверяя свою электронную почту. В результате 15 минут превратятся в одно мгновенье. Также незаметно пройдет время кофе-брейка или отдыха. А теперь представьте, что вы опоздали на самолет…

В корпоративном сегменте все еще серьезней. То, что незаметно для людей, оказывается крайне значимым для компаний. Одним из наиболее показательных примеров бизнеса, где любая минута эквивалентна большим суммам, являются биржи. Буквально каждую секунду на основных финансовых площадках заключаются сделки, исчисляемые миллионами долларов. Это мир быстрых цифр, где успех от провала отделяет всего одна ошибка. Неудивительно, что любой сбой, останавливающий работу даже на короткий, по меркам повседневной жизни, промежуток времени, может иметь необратимые последствия.

Такой инцидент произошел, когда одна крупная социальная сеть выходила на IPO. Из-за ажиотажного спроса случился сбой в системе NASDAQ, в результате чего торги акциями компании начались примерно на 30 минут позже запланированного срока. Для обычного человека это время обеденного перерыва, а для бизнеса – время непредвиденных расходов. Всего полчаса простоя привели к убыткам в размере 115 млн долларов США. К сожалению, этот случай далеко не единственный.

В июне 2016 власти Норвегии частично закрыли воздушное пространство страны из-за нестабильности в системе, используемой авиадиспетчерами. Сбои коснулись восьми аэропортов. В результате: авиаперевозчики не могли в полной мере удовлетворить потребности своих клиентов, пассажиры могли опоздать по своим делам, а перевозящие грузы по воздуху компании были вынуждены переориентировать свою логистику и также потерять драгоценное время.

Однако не стоит забывать, что в случае с воздушным пространством финансовые потери далеко не самое страшное: в результате отказа оборудования самолет может потерять ориентацию в пространстве, что ставит на карту жизни пассажиров и экипажа. В таких условиях 15 минут играют по-настоящему роковую роль. Сбои в ИТ-системах могут произойти с любой компанией, поэтому необходимо иметь возможность быстро восстановить данные и вернуться в работу. Особенно это важно организациям, не прекращающим оказание услуг ни на минуту.

Прибыль в проводах

Сегодня все чаще и чаще у предприятий появляется необходимость непрерывно предоставлять свои услуги клиентам в режиме 24/7/365. Более того, в некоторых сферах бизнеса такая модель является единственно возможной. Например, в ИТ, если проигнорировать данное требование, клиенты уйдут к конкурентам.

Пример помнят все: во время шестичасового простоя WhatsApp в Бразилии конкурирующий мессенджер Telegram привлек 1,5 млн новых пользователей. Можно представить, насколько бы удалось сократить этот ущерб, если бы WhatsApp вернулся в работу за 15 минут.

Сбои в ИТ – не редкость. Аналогичная ситуация в начале лета произошла и с одной из ведущих мировых компаний – Apple, когда многие жаловались на недоступность сервисов iTunes и iCloud.

Конечно, крупные международные ИТ-компании хорошо защищены и способны выдержать удар. Однако представители среднего и малого бизнеса значительно реже заботятся об обеспечении непрерывной доступности и скорости восстановления данных. В результате простои происходят чаще, требуют больше времени на возобновление работы и незаметно для руководителей приводят к существенным потерям, выраженным в недополученной прибыли и утраченных возможностях. Это серьезная угроза, способная привести к краху всего предприятия, и с этим нужно бороться.

В ногу со временем

Согласно опубликованным результатам международного исследования 2016 Veeam Availability Report, в котором приняли участие более 1000 ИТ-руководителей высшего эшелона, средняя продолжительность простоев критически важных приложений составляет почти 2 часа, а некритичных – почти 6 часов. Такие высокие показатели таят в себе глобальную опасность, и с ней сталкивается все большее число компаний: 84% опрошенных признали проблему доступности данных (разрыва между возможностями средств восстановления и потребностями клиентов). Результаты исследования подтверждают, что для этого необходимо совершенствовать имеющиеся ИТ-ресурсы и добиваться показателя RTPO (целевого времени и точки восстановления), которое не превышало бы 15 минут.

21 июня ведущая биткоин-биржа Bitfinex прекратила торги из-за технической ошибки. Такой простой моментально сказался на стоимости валюты: за сутки биткоин потерял в цене более 8%. В пересчете на всех владельцев биткоинов в мире это многомиллионные убытки, которых можно было избежать.

Чтобы гарантировать себе стабильный рост и минимизировать риск незапланированных убытков в будущем, предприятия должны уже сегодня иметь инструменты, позволяющие сократить простои и быстро вернуть бизнес в работу в случае внештатной ситуации. Это комплексная задача, при решении которой важно учитывать индивидуальные особенности каждой отдельно взятой организации.

К сожалению, простого резервного копирования все чаще оказывается недостаточно. При использовании традиционных решений невозможно обеспечить непрерывность бизнеса, а процесс послеаварийного восстановления, вероятно, займет намного больше, чем 15 минут.

Когда простой человек может подождать – бизнес ждать не может. Спасти компанию за 15 минут возможно в том случае, если ИТ-специалисты будут осуществлять проактивную защиту виртуальной инфраструктуры, заранее прогнозируя возможные ошибки и сбои. Мониторинг системы сегодня все чаще становится одним из основных инструментов в руках специалистов. Там же, где случается простой, для его ликвидации необходимо привлекать наиболее передовые инструменты. К таким, например, можно отнести репликацию или гранулярное восстановление, позволяющее вплотную приблизить предприятия к желаемым показателям RTPO, не превышающим 15 минут.

Мир стремительно ускоряется, и пользователи все меньше готовы мериться с задержками и простоями. Только стремясь к концепции непрерывной работы (Always-On Enterprise) компания сможет получить гарантии, что в случае сбоя даже критически важных приложений восстановление работы не займет больше 15 минут – времени, которого простому человеку хватает на то, чтобы выпить кофе, а бизнесу – чтобы заработать миллионы.


Материалы по теме:

5 нестандартных праздников из мира ИТ

Рекомендуем изменяться: опыт E-Contenta

Где выгоднее работать программистам

53 стартапа, которые купила Yahoo. Что с ними стало


comments powered by Disqus

Подпишитесь на рассылку RUSBASE

Мы будем вам писать только тогда, когда это действительно очень важно