Top.Mail.Ru
Колонки

Мы разработали систему мониторинга ПК сотрудников и уже сэкономили 28 миллионов рублей: кейс МГТС

Колонки
Сергей Гелашвили
Сергей Гелашвили

Директор по архитектуре и эксплуатации ИТ МГТС

Софья Федосеева

Сергей Гелашвили, директор по архитектуре и эксплуатации ИТ МГТС, рассказывает, как в компании внедряли систему мониторинга автоматизированных рабочих мест (АРМ).

Собственное ПО в режиме онлайн дает информацию о производительности персональных компьютеров сотрудников. Эта разработка позволила сократить расходы компании уже на 28 миллионов рублей.

Мы разработали систему мониторинга ПК сотрудников и уже сэкономили 28 миллионов рублей: кейс МГТС

В чем проблема?

Со временем любое оборудование устаревает, замедляя рабочие процессы и снижая эффективность труда. В среднем срок службы компьютера — около семи лет. Полная замена устаревшего компьютера обходится примерно в 33,5 тысячи рублей. Чем больше компания, тем больше затраты.

Наш парк ПК насчитывает более пяти тысяч компьютеров. Их замена стоила бы около 200 миллионов рублей каждые семь лет.

При этом плановое обновление не всегда гарантирует безотказную работу оборудования: из строя выходит, тормозит и зависает даже относительно новое железо.

Держать под контролем состояние ПК и предотвращать проблемы помогает ряд специальных программ – систем мониторинга, таких как System Center Operation Manager, HPE OneView HP DaaS Analytics and Proactive Management, SolarWinds, Veeam ONE. Но эти решения стоят денег, их вполне резонно использовать для сложных информационных систем, но не для ПК рядовых сотрудников.

Фото: Unsplash

В этой ситуации возникает риск того, что тысячи компьютеров, оставшись без присмотра, будут работать неэффективно. Хорошо, если сотрудник, чей компьютер стал сбоить, обращается в Helpdesk. Но некоторые до последнего не сообщают о проблеме.

В обоих случаях производительность труда снижается, а это негативно отражается на бизнесе.

RB.RU рекомендует лучших поставщиков цифровых решений для вашего бизнеса — по ссылке

Решение 2 в 1

Чтобы избежать таких ситуаций, мы поставили перед собой задачу сократить до минимума стихийные поломки и проблемы с компьютерами и снизить затраты на модернизацию парка ПК по сроку службы. Оказалось, что обоих этих зайцев можно убить одним выстрелом.

Для этого была нужна система мониторинга, которая смогла бы регулярно собирать объективную информацию о производительности и утилизации ресурсов всех имеющихся компьютеров. И в случае неполадок сигнализировать о проблемах и предлагать решение.

Фото: Unsplash

Такая система позволила бы нам фиксировать и решать проблему заблаговременно и прицельно: менять комплектующие, а не компьютеры целиком. Мы спрогнозировали, что таким образом можно продлить срок эксплуатации машины с семи до десяти лет.

На основе бесплатных инструментов и собственных исследований мы самостоятельно разработали такую систему мониторинга. Ее можно применить не только в крупной, но и в любой средней и малой компании.

Этап 1: разработка алгоритма 

В качестве отправной точки мы взяли 28 метрик производительности из известных всем рекомендаций Microsoft. Далее выделили те, которые имело смысл анализировать с точки зрения поставленной задачи. Их получилось 19. Однако даже это число параметров оказалось слишком большим и потребовало бы много ресурсов.

Нужно было сократить число до минимального, но при этом не потерять необходимые метрики. Было решено сделать это опытным путем.

Фото: Unsplash

Для этого мы создали тестовую группу, в которую вошло около 200 сотрудников. Мы обсудили с ними проблемы, с которыми они сталкиваются во время работы, и порядок мониторинга.

Большинство жалоб сводились к следующему:

  • медленно запускаются программы, открываются и сохраняются файлы и папки;
  • компьютер часто перезагружается;
  • некоторые программы не открываются;
  • громко шумит системный блок.

У зафиксированных проблем могли быть разные источники, и нужно было «научить» систему безошибочно определять, в каких именно комплектующих кроется неисправность. В качестве инструмента сбора информации мы использовали встроенное в ОС Windows приложение Performance Monitor c записью данных в файл в формате CSV.

На протяжении рабочей недели один раз в сутки Performance Monitor выдавал отчет о работе каждого тестового компьютера. Пять отчетов дали точное представление о систематически возникающих проблемах.

Затем мы сопоставили полученные данные с отзывами сотрудников. Как мы и предполагали, яркая корреляция прослеживалась только в шести метриках из 19: если, например, сотрудник жаловался на зависания, этот факт подтверждали два-три показателя. Так, для основных комплектующих (CPU, Disk, RAM) мы определили шесть ключевых метрик:

Изображение: МГТС

По ним мы определили пороговые значения и количество повторений для реагирования, затем проверили их на тестовом стенде. Превышение порогового значения в одной из групп определенное количество раз означает, что компьютеру необходимо обслуживание.

Таким образом мы выявили проблемы в тестовой группе и предложили сотрудникам произвести модернизацию – заменить HDD на SSD и/или увеличить оперативную память.

Производительность компьютеров с новыми комплектующими мы сравнили с абсолютно новым компьютером: частичная модернизация оказалась не менее эффективна, чем полная замена ПК.

Далее нам предстояло автоматизировать регистрацию превышения пороговых значений для того, чтобы алерты о проблемах (запросы на замену комплектующих) приходили автоматически.

Этап 2: реализация решения

Для минимизации затрат на этом этапе было решено использовать OpenSource-продукты – ELK-стек: ElasticSearch, Logstash и Kibana (Grafana).

Мы сделали следующее:

  1. собрали информацию с компьютеров и загрузили ее в базу данных;
  2. визуализировали и проанализировали информацию о производительности;
  3. реализовали автоматическую регистрацию заданий на модернизацию;
  4. интегрировали с базой данных управления конфигурации (CMDB) для получения данных о конфигурации ПК, его месторасположении и пользователе.

Этап 3: пилотирование решения

Потом был пробный запуск системы мониторинга, в течение которого в 90% случаев пользователи подтверждали наличие проблем.

Критерии срабатывания триггеров на автоматическую регистрацию заданий на модернизацию:

Изображение: МГТС

Например, увеличение оперативной памяти требуется, если сработал триггер метрики \Memory\% Committed Bytes in Use. То есть в течение рабочей недели система зафиксировала 180 случаев, когда память была загружена более, чем на 80%.

Такие критерии подойдут для линейного персонала большинства компаний.

Этап 4: запуск системы и модернизация

Разработка системы заняла около четырех месяцев. Летом 2018 года мы запустили новую систему мониторинга в эксплуатацию. Нам оставалось лишь составить списки необходимых комплектующих, рассчитать объем для закупок и начать модернизацию.

Результат

За четыре месяца система мониторинга выявила те или иные проблемы в 48% ПК. При этом полноценная замена требовалась только в семи процентах от этого числа – мониторинг обнаружил в них недостаточную производительность процессора (CPU), или же проблемы были на немодернизируемых устройствах. В остальных компьютерах достаточно было заменить жесткие диски и увеличить оперативную память.

Мы сформировали и обеспечили процесс непрерывности работы сотрудников, сократив время простоя из-за неработающего оборудования и оснащения рабочих мест, что в свою очередь также повлияло на бизнес-показатели компании.

Такой подход позволяет эффективно использовать имеющиеся ресурсы: на основании статистики мы можем на каждый ПК выделить объем средств, необходимый конкретно ему.

В итоге мы отказались от практики замены компьютера на основании установленных нормативов по сроку эксплуатации и использования типовых конфигураций ПК. Это позволило сократить затраты на модернизацию одного АРМ в семь раз и увеличить ожидаемый срок эксплуатации ПК на три года. На данный момент мы модернизировали почти половину проблемных ПК, сэкономив 28 миллионов рублей. Модернизация остальных завершится в первом квартале 2019 года.


Материалы по теме:

Чем полезно мышление разработчика и как ему научиться

«Искать разработчика — все равно что искать жену»: как техлиды нанимают сотрудников в команду

Как выглядели первые персональные компьютеры

Как защитить свой компьютер и не переплатить – 5 надежных антивирусов не дороже 1300 рублей

Как повысить эффективность работы сотрудников-миллениалов?

Фото на обложке: Unsplash

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Это мэтч: как бизнесу выбрать формат благотворительности
  2. 2 Зачем BI среднему и малому бизнесу: пять понятных сценариев
  3. 3 Для руководителей, которые забыли слово «отпуск»: как Wazzup внедрил внутреннюю экономику
  4. 4 Как продвигать мобильные приложения прямо сейчас? Кейс FitStars
  5. 5 Материнский капитал как инвестиция. Как заставить деньги работать на вас?
ArtTech — карта разработчиков арт-технологий
Все игроки российского рынка технологий для искусства
Перейти