Мы разработали систему мониторинга ПК сотрудников и уже сэкономили 28 миллионов рублей: кейс МГТС

Сергей Гелашвили
Сергей Гелашвили

Директор по архитектуре и эксплуатации ИТ МГТС

Расскажите друзьям
Софья Федосеева

Сергей Гелашвили, директор по архитектуре и эксплуатации ИТ МГТС, рассказывает, как в компании внедряли систему мониторинга автоматизированных рабочих мест (АРМ).

Собственное ПО в режиме онлайн дает информацию о производительности персональных компьютеров сотрудников. Эта разработка позволила сократить расходы компании уже на 28 миллионов рублей.

В чем проблема?

Со временем любое оборудование устаревает, замедляя рабочие процессы и снижая эффективность труда. В среднем срок службы компьютера — около семи лет. Полная замена устаревшего компьютера обходится примерно в 33,5 тысячи рублей. Чем больше компания, тем больше затраты.

Наш парк ПК насчитывает более пяти тысяч компьютеров. Их замена стоила бы около 200 миллионов рублей каждые семь лет.

При этом плановое обновление не всегда гарантирует безотказную работу оборудования: из строя выходит, тормозит и зависает даже относительно новое железо.

Держать под контролем состояние ПК и предотвращать проблемы помогает ряд специальных программ – систем мониторинга, таких как System Center Operation Manager, HPE OneView HP DaaS Analytics and Proactive Management, SolarWinds, Veeam ONE. Но эти решения стоят денег, их вполне резонно использовать для сложных информационных систем, но не для ПК рядовых сотрудников.

Фото: Unsplash

В этой ситуации возникает риск того, что тысячи компьютеров, оставшись без присмотра, будут работать неэффективно. Хорошо, если сотрудник, чей компьютер стал сбоить, обращается в Helpdesk. Но некоторые до последнего не сообщают о проблеме.

В обоих случаях производительность труда снижается, а это негативно отражается на бизнесе.

Подписывайтесь на канал Rusbase в «Яндекс.Дзен», чтобы ничего не пропустить

Решение 2 в 1

Чтобы избежать таких ситуаций, мы поставили перед собой задачу сократить до минимума стихийные поломки и проблемы с компьютерами и снизить затраты на модернизацию парка ПК по сроку службы. Оказалось, что обоих этих зайцев можно убить одним выстрелом.

Для этого была нужна система мониторинга, которая смогла бы регулярно собирать объективную информацию о производительности и утилизации ресурсов всех имеющихся компьютеров. И в случае неполадок сигнализировать о проблемах и предлагать решение.

Фото: Unsplash

Такая система позволила бы нам фиксировать и решать проблему заблаговременно и прицельно: менять комплектующие, а не компьютеры целиком. Мы спрогнозировали, что таким образом можно продлить срок эксплуатации машины с семи до десяти лет.

На основе бесплатных инструментов и собственных исследований мы самостоятельно разработали такую систему мониторинга. Ее можно применить не только в крупной, но и в любой средней и малой компании.

Этап 1: разработка алгоритма 

В качестве отправной точки мы взяли 28 метрик производительности из известных всем рекомендаций Microsoft. Далее выделили те, которые имело смысл анализировать с точки зрения поставленной задачи. Их получилось 19. Однако даже это число параметров оказалось слишком большим и потребовало бы много ресурсов.

Нужно было сократить число до минимального, но при этом не потерять необходимые метрики. Было решено сделать это опытным путем.

Фото: Unsplash

Для этого мы создали тестовую группу, в которую вошло около 200 сотрудников. Мы обсудили с ними проблемы, с которыми они сталкиваются во время работы, и порядок мониторинга.

Большинство жалоб сводились к следующему:

  • медленно запускаются программы, открываются и сохраняются файлы и папки;

  • компьютер часто перезагружается;

  • некоторые программы не открываются;

  • громко шумит системный блок.

У зафиксированных проблем могли быть разные источники, и нужно было «научить» систему безошибочно определять, в каких именно комплектующих кроется неисправность. В качестве инструмента сбора информации мы использовали встроенное в ОС Windows приложение Performance Monitor c записью данных в файл в формате CSV.

На протяжении рабочей недели один раз в сутки Performance Monitor выдавал отчет о работе каждого тестового компьютера. Пять отчетов дали точное представление о систематически возникающих проблемах.

Затем мы сопоставили полученные данные с отзывами сотрудников. Как мы и предполагали, яркая корреляция прослеживалась только в шести метриках из 19: если, например, сотрудник жаловался на зависания, этот факт подтверждали два-три показателя. Так, для основных комплектующих (CPU, Disk, RAM) мы определили шесть ключевых метрик:

Изображение: МГТС

По ним мы определили пороговые значения и количество повторений для реагирования, затем проверили их на тестовом стенде. Превышение порогового значения в одной из групп определенное количество раз означает, что компьютеру необходимо обслуживание.

Таким образом мы выявили проблемы в тестовой группе и предложили сотрудникам произвести модернизацию – заменить HDD на SSD и/или увеличить оперативную память.

Производительность компьютеров с новыми комплектующими мы сравнили с абсолютно новым компьютером: частичная модернизация оказалась не менее эффективна, чем полная замена ПК.

Далее нам предстояло автоматизировать регистрацию превышения пороговых значений для того, чтобы алерты о проблемах (запросы на замену комплектующих) приходили автоматически.

Этап 2: реализация решения

Для минимизации затрат на этом этапе было решено использовать OpenSource-продукты – ELK-стек: ElasticSearch, Logstash и Kibana (Grafana).

Мы сделали следующее:

  1. собрали информацию с компьютеров и загрузили ее в базу данных;

  2. визуализировали и проанализировали информацию о производительности;

  3. реализовали автоматическую регистрацию заданий на модернизацию;

  4. интегрировали с базой данных управления конфигурации (CMDB) для получения данных о конфигурации ПК, его месторасположении и пользователе.

Этап 3: пилотирование решения

Потом был пробный запуск системы мониторинга, в течение которого в 90% случаев пользователи подтверждали наличие проблем.

Критерии срабатывания триггеров на автоматическую регистрацию заданий на модернизацию:

Изображение: МГТС

Например, увеличение оперативной памяти требуется, если сработал триггер метрики \Memory\% Committed Bytes in Use. То есть в течение рабочей недели система зафиксировала 180 случаев, когда память была загружена более, чем на 80%.

Такие критерии подойдут для линейного персонала большинства компаний.

Этап 4: запуск системы и модернизация

Разработка системы заняла около четырех месяцев. Летом 2018 года мы запустили новую систему мониторинга в эксплуатацию. Нам оставалось лишь составить списки необходимых комплектующих, рассчитать объем для закупок и начать модернизацию.

Результат

За четыре месяца система мониторинга выявила те или иные проблемы в 48% ПК. При этом полноценная замена требовалась только в семи процентах от этого числа – мониторинг обнаружил в них недостаточную производительность процессора (CPU), или же проблемы были на немодернизируемых устройствах. В остальных компьютерах достаточно было заменить жесткие диски и увеличить оперативную память.

Мы сформировали и обеспечили процесс непрерывности работы сотрудников, сократив время простоя из-за неработающего оборудования и оснащения рабочих мест, что в свою очередь также повлияло на бизнес-показатели компании.

Такой подход позволяет эффективно использовать имеющиеся ресурсы: на основании статистики мы можем на каждый ПК выделить объем средств, необходимый конкретно ему.

В итоге мы отказались от практики замены компьютера на основании установленных нормативов по сроку эксплуатации и использования типовых конфигураций ПК. Это позволило сократить затраты на модернизацию одного АРМ в семь раз и увеличить ожидаемый срок эксплуатации ПК на три года. На данный момент мы модернизировали почти половину проблемных ПК, сэкономив 28 миллионов рублей. Модернизация остальных завершится в первом квартале 2019 года.


Материалы по теме:

Чем полезно мышление разработчика и как ему научиться

«Искать разработчика — все равно что искать жену»: как техлиды нанимают сотрудников в команду

Как выглядели первые персональные компьютеры

Как защитить свой компьютер и не переплатить – 5 надежных антивирусов не дороже 1300 рублей

Как повысить эффективность работы сотрудников-миллениалов?

Фото на обложке: Unsplash


В нашем Instagram @rusbase сегодня есть на что посмотреть! Подписаться

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

‡агрузка...

Комментарии

  • Baram Burum
    Baram Burum 15:46, 30.01.2019
    0
    Не очень понятно почему МГТС тратил ресурсы на решение этой, откровенно ненужной задачи, когда у компании проблемы гораздо более высокго порядка?
  • Милана Кадырова
    Baram Burum Милана Кадырова 17:28, 30.01.2019
    1
    • katyadefa katyadefa
    Cовершенно очевидно, что качество работы сотрудников зависит и от условий труда. Если раньше стояли в очереди для оплаты квитанций, то сейчас все делается онлайн. Время потраченное на это, в разы сократилось. Точно также это работают с сотрудниками в компаниях - освобождается время для других задач.
  • Анна Мельникова
    Анна Мельникова 18:56, 14.02.2019
    0
    Согласна, задача не первостепенная. Тем более что в большинстве случаев производительность падает не из-за компьютера, а из-за того, кто за ним сидит. Когда мы у себя кикидлер поставили, вскрылось несколько серьезных проблем (опоздания, посещения посторонних сайтов, соцсетей...).
Зарегистрируйтесь, чтобы оставлять комментарии и получить доступ к Pipeline — социальной сети, соединяющей стартапы и инвесторов.
Open Innovations Startup Tour Набережные Челны
1 апреля 2019
Ещё события


Telegram канал @rusbase