Мнения / Искусственный интеллект

«Не роботы в голливудском кино»: 4 ошибки при внедрении машинного обучения

И как их не допустить

17 июня 2020, 19:34

«Не роботы в голливудском кино»: 4 ошибки при внедрении машинного обучения

Внедрять машинное обучение сложно и дорого. Team Lead группы анализа компании «Иннодата» Татьяна Куприянова рассказывает, как удачно использовать технологию и не потратить деньги впустую.

Машинное обучение — это обычное дело не только для титанов IT-отрасли. Им интересуются компании, для которых искусственный интеллект — это не роботы в голливудском кино, а инструмент оптимизации бизнес-процессов и увеличения прибыли.

Что такое машинное обучение

Машинное обучение (Machine Learning, ML) — это методы искусственного интеллекта, которые помогают находить оптимальное решение бизнес-задач через поиск закономерностей в данных. ML устанавливает зависимость конечного результата от набора признаков.

В крупных компаниях уже есть большие объемы данных, которые содержат необходимую и/или полезную информацию для объективных решений. IT-рынок предлагает технологии и аппаратное обеспечение, которое помогает быстро выполнять сложные вычисления и эффективно разрабатывать продукты, используя ML.

ML применяют везде: в медицине, транспорте, логистике, безопасности, промышленности, продажах, маркетинге. Алгоритмы используют в науке, например, в астрономии, химии.

Shutterstock/ESB Professional

Главные ошибки при внедрении ML

Прежде чем машинное обучение начнет улучшать результаты, компаниям нужно научиться его использовать. Любое обучение (особенно самостоятельное) невозможно без ошибок.

Ошибка 1: Компании ставят неправильные цели

Большинство попыток внедрения машинного обучения заканчиваются неудачами. Одна из причин — непонимание возможностей технологии и ее специфики. Нужно определить бизнес-цель, установить показатели, по которым будет определяться успешность ее достижения. На основе этого сформировать требования для машинного обучения.

Глобальные бизнес-метрики компаний обычно связаны с прибыльностью. Их редко получается использовать при постановке задач машинного обучения. Для ML используют промежуточные бизнес-метрики. Например, маркетинговые: охват уникальных пользователей, CTR, конверсия из перехода на сайт в регистрацию, конверсия в продажу из регистрации, повторные продажи.

Один из самых важных факторов успеха — определение технических метрик, которые учитывают все аспекты бизнес-задач.

Ошибка 2: Компании не уделяют внимания сбору данных

Сбор и хранение данных — один из ключевых шагов в машинном обучении. Важно правильно продумать этот процесс. Удачное применение методов и решение задач зависит от качества и количества данных. Иначе это может привести к увеличению трудозатрат и — что еще хуже — невозможности достичь цели. Поэтому важно учитывать эти аспекты:

Нужно сохранять «сырые» данные. В процессе подготовки данных для моделирования есть несколько этапов преобразований. Алгоритмы преобразований могут меняться. Если не сохранять данные в исходном виде и сразу трансформировать их в ту форму, в которой они будут использоваться в алгоритмах ML, то в случае изменения логики обработки, есть риск искажения.

Важно иметь возможность вернуться к исходным данным, чтобы применить к ним другие (оптимизированные или альтернативные) алгоритмы.
При выборе источника нужно учитывать качество и объем данных. Иногда важно учитывать частоту обновления оперативных данных. Если есть альтернативы, то стоит выбирать те источники, которые точнее отвечают требованиям.
В проектах машинного обучения с оперативными данными нужно заранее позаботиться о внедрении системы мониторинга и диагностики потоков данных. Это поможет визуально отслеживать изменения, выявлять аномалии и сигнализировать о проблемах.

Если у вас есть документация ко всем источникам данных, считайте, что вам крупно повезло.

Обычно подробное описание не прилагается. Тогда команде нужно время, чтобы собрать и структурировать ресурсы для их использования. Этот этап очень важен, так как закладывает фундамент для анализа и внедрения алгоритмов машинного обучения.

Shutterstock/THICHA SATAPITANON

Ошибка 3: Компании не знают, какие задачи передать на аутсорсинг

Как только компания решает внедрять машинное обучение, то встает перед выбором: создать внутреннее подразделение или передать работу на аутсорсинг. Выбор неверного варианта затормозит проекты по внедрению ML. Как лучше поступить?

Собираем внутреннюю команду

Первое, что необходимо учесть: поиск специалистов машинного обучения — непростой процесс. Технология — популярна, хорошие специалисты ожидают высокую заработную плату, а для того чтобы проверить их знания, необходим сотрудник, который разбирается в ML.

Можно нанять новичков, обучить их, вырастить из них профессионалов. Но это может оказаться неэффективным в краткосрочной перспективе и потребует больших усилий и времени, особенно если в компании не хватает опыта работы с ML.

Даже если компания найдет хороших специалистов, необходимо настроить и поддерживать инфраструктуру. Придется приобрести высокопроизводительное «железо» или арендовать ресурсы облачных сервисов. Не все компании могут позволить себе такие большие финансовые расходы.

Отдаем задачи партнеру на аутсорс

Если компания не уверена в перспективности внедрения ML, ей рано строить внутреннюю команду. В таких случаях лучше всего привлечь стороннюю организацию, которая быстро cможет провести проверку концепции, чтобы оценить рентабельность инвестиций.

Если ML-задачи не связаны со спецификой бизнеса, компаниям целесообразно отдавать их на аутсорс.

У сторонних организаций в этой сфере уже есть кадры. Делегирование обязанностей подрядчику поможет сократить риски и сэкономить на содержании своей команды.

Ошибка 4: Компании неправильно выстраивают процессы машинного обучения

Процесс машинного обучения — итеративный и экспериментальный. Он предполагает тестирование алгоритмов, настройку параметров и постоянное отслеживание того, как изменения влияют на метрики. Линейные методологии в проектах машинного обучения не применяют: они ведут к проблемам на стадиях тестирования и промышленной эксплуатации. Нужно применять гибкие методологии и адаптировать их под конкретный проект.

Нужно предусмотреть частые коммуникации с заказчиком, чтобы не возникало расхождений между требованиями клиента и возможностями машинного обучения. Еженедельных встреч часто не хватает, поэтому в команде должен быть представитель со стороны заказчика для оперативного общения.

Важно организовать коммуникацию внутри команды. Это играет особую роль на крупных проектах, где теряется нить взаимопонимания между структурами команды.

Еще один важный фактор — автоматизация тестирования. Разработка решений на базе машинного обучения существенно не отличается от разработки обычного программного обеспечения. Автоматизация помогает не просто верифицировать программный код, но «держать руку на пульсе» и видеть все изменения.

Как получить максимум

От общего к частному. Метрики для машинного обучения должны учитывать бизнес-метрики. Всегда.
Храним «сырые данные». Необходимо обеспечить сохранение данных в исходном виде, только потом допускается их трансформация.
Знать все о своих данных. Отслеживать, откуда поступает информация, в каких объемах и какого качества. Это поможет подобрать источники, которые точнее всего отвечают требованиям проекта.
Заботиться о данных. Необходимо заранее позаботиться о внедрении систем мониторинга и диагностики потоков данных, чтобы оперативно найти и решить проблему.
Уметь делиться. Не все задачи можно решить при помощи внутренних ресурсов компании. Если задача не связана со спецификой бизнеса, и она — единичная, то можно отдать ее проверенным специалистам с опытом на рынке.
Тесно взаимодействовать с заказчиком.

Фото обложки: Shutterstock/Peshkova.

Авторы