Колонки

Как голосовые роботы распознают речь и с чем справляются лучше живых операторов

Колонки
Александр Кузнецов
Александр Кузнецов

сооснователь и COO Neuro.net

Евгения Хрисанфова

Сегодня голосовые роботы могут быть настолько реалистичными, что в большинстве случаев меньше 10 человек из тысячи способны распознать, что с ними говорит не живой оператор. Александр Кузнецов, сооснователь и исполнительный директор Neuro.net, рассказывает, какие технологии позволяют этого достичь и что это дает бизнесу.

Как голосовые роботы распознают речь и с чем справляются лучше живых операторов
Присоединиться

Как развивались голосовые роботы

Для начала вспомним, как эволюционировала автоматизация телефонных звонков за последнее десятилетие — от простого голосового меню до интеллектуальных роботов. Ее развитие стимулирует то, что большинство клиентов все еще предпочитают общаться с компаниями по телефону — так обращаются в клиентскую поддержку 74% людей.

«Если вы хотите проверить статус заказа, нажмите “один”. Оформить возврат — нажмите “два”», — так общается первое поколение систем автоматизации, IVR (Interactive Voice Response). Они используются для того, чтобы направить клиента к нужному специалисту. Более продвинутые версии таких систем способны распознавать голосовые ответы человека: «Ответьте “да” или “нет”, чтобы продолжить».

Следующий этап развития — голосовые роботы, которых сложно спутать с человеком. Их голос звучит механически, потому что робот использует синтез речи, то есть лишь озвучивает текст. Таких роботов используют для того, чтобы донести информацию до клиента — напомнить о записи на прием или сообщить, что заказ пришел.

Новейшее поколение — AI-роботы, которые обучаются на истории диалогов, анализируют речь собеседника и общаются максимально естественно. Из 5 тысяч человек, которым звонит наш робот, только пятеро догадываются, что общаются не с оператором. К 2021 году такие роботы будут обрабатывать 15% от всех взаимодействий с клиентами. Это возможно благодаря технологиям распознавания речи и семантического (то есть направленного на извлечение смысла) анализа натурального языка.

Разговор по телефону

Какие технологии использует наш AI-робот

Для распознавания речи. Первый этап — перевести голос человека в понятный роботу язык. Для этого он использует облачные технологии Google Speech Recognition и Yandex SpeechKit, которые сегодня считаются одними из самых точных. Еще роботу помогает модуль MRCP (Media Resource Control Protocol, протокол управления медиа-ресурсами), который позволяет распознавать и анализировать текст во время разговора, а не постфактум. Его предоставляют разные вендоры, но мы используем собственную разработку.

Для определения смысла. Чтобы научить робота понимать собеседника и учитывать контекст, мы используем модуль Natural-language understanding (NLU, понимание естественного языка) — он занимается семантическим разбором текста, полученного от систем автоматического распознавания речи. Технология выделяет из текста объекты распознавания — сущности и намерения. Например, система получает такой текст: «Мне в целом интересно ваше предложение, но хотелось бы подешевле. И я сейчас немного занят, вы могли бы мне перезвонить завтра часиков в шесть?».

Сущности здесь следующие:

  • «Завтра»;
  • «Часиков в шесть».

А намерения такие:

  • «Мне интересно ваше предложение»;
  • «Хотелось бы подешевле»;
  • «Я сейчас немного занят»;
  • «Могли бы мне перезвонить».

Система переводит речь человека в понятные для себя значения (например, намерение «call_back» с значением «true») и на основе этого ведет диалог дальше.

Для определения пола. Человек обычно определяет пол собеседника по голосу за несколько секунд. Робот тоже умеет делать это на основе сравнения массивов данных: у него есть критерии женского голоса, а есть — мужского. Это тембр, тональность, интонации, длина фраз и т.д. Чтобы справляться со сложными случаями (например, когда детские голоса звучат как женские), робот использует дополнительные параметры: резкость, теплоту, твердость, глубину тембра и другие.

Еще помогает компонент накапливания — его суть в том, что робот не сразу определяет пол собеседника, а анализирует его в процессе разговора на основе нескольких фраз. Вероятности того, мужчина это или женщина, робот суммирует, и правильный ответ определяется в зависимости от наибольшего значения. Сейчас точность системы при определении пола составляет 95%. Похожие технологии используются при определении возраста.

Для распознавания шума. В реальном разговоре голос прерывают шумы, голоса посторонних людей и другие звуки. Робот разрезает запись на кусочки, чтобы не анализировать лишнюю информацию. Так, если клиент говорит: «Здравствуйте, [пауза], меня зовут Василий [пауза]», — то каждая пауза будет концом отдельной голосовой записи для анализа. Но и на такую маленькую запись может попасть шум, который приведет к ошибкам в распознавании речи.

Например, когда у нас была фраза длиной в три секунды, которую произносила женщина, но в середине фразы звучал щелчок, то он искажал всю запись. Когда нейросеть анализировала массив данных за эти три секунды, то за счет щелчка она решала, что средний уровень длины волны больше соответствует мужскому голосу.

Поэтому мы обучили робота определять шум на основе различных записей — музыки, двигателя машины, сигнализации, звуков улицы, телефонного шума при низком качестве связи и т.д. Теперь, если в один из анализируемых кусочков попадет шум, робот справится с ним в зависимости от задачи. Это помогает вести диалог.

Так, если бы трубку взял клиент, у которого на фоне стройка, то без распознавания шума робот бы постоянно задерживался с ответами — по уровню шума ему казалось бы, что собеседник постоянно отвечает. Если система понимает, что это фоновый шум, то может вести разговор как человек.

Мужчина говорит по телефону

Как AI-роботы помогают бизнесу

Интеллектуальных роботов можно обучить совершать исходящие звонки вместо сотрудников кол-центров. Они могут рассказать клиентам о новой акции, предложить товары, предоставить промокод и многое другое. Чтобы робот начал звонить клиентам, сначала его нужно обучить на записях разговоров с клиентами.

Нашему роботу требуется всего несколько сотен записей из кол-центра компании, чтобы научиться выделять сценарии диалогов, присущие конкретному бизнесу. Алгоритмы расшифровывают и анализируют эти записи, результат проверяют лингвисты, а потом с помощью машинного обучения тренируют робота распознавать ответы и вести диалог.

Для точности более 93% такой системе достаточно всего 600 записей разговоров. Кроме того, когда робот начинает работу, он продолжает обучаться на реальных разговорах, что с каждым разом сокращает количество ошибок.

Когда обучение закончено, мы записываем все возможные ответы в студии, стараясь избегать «машинного голоса», при этом учитывая эмоциональную окраску фраз и интонацию. А дальше робот начинает выполнять поставленные задачи. Вот что это может быть.

Проведение исследований и опросов. Робот может звонить клиентам и выяснять степень их удовлетворенности и потребности. Для одного из сотовых операторов мы создали робота, который задает вопросы о качестве услуг и использует ответы, чтобы определить индекс потребительской лояльности NPS. В 98% случаев робот ведет диалог без ошибок: робот выдерживает паузы, использует нужные интонации и логично отвечает на слова собеседника. За три недели пилотного проекта затраты заказчика на кол-центр сократились на 7%.

Предложение персонализированных товаров и услуг. Согласно исследованию сервиса по работе с клиентами Segment, 49% людей приобретают продукты, которые не намеревались покупать, если получают персонализированное предложение. Робот может рассказать о тех товарах и акциях, которые подходят конкретному клиенту. Определение возраста используют, чтобы не предлагать товары и услуги несовершеннолетним. Кроме того, робот может сориентироваться в ситуации, когда за человека берет трубку кто-то другой — например, муж, пока жена не может говорить. А когда наш робот Вика помогала продавать дополнительные услуги клиентам международного сотового оператора в зависимости от пола, конверсия в продажи составила 46% — в сравнении с 35% у людей-операторов. При этом использовать робота — это как минимум в два раза дешевле, чем содержать кол-центр.

Возвращение нелояльных клиентов. Неактивных покупателей можно вернуть с помощью звонков со специальными предложениями. AI-робот способен сделать это лучше операторов — в нашем сотрудничестве с KUPIVIP.RU конверсия в покупки оказалась на 2% выше, чем при общении с реальными сотрудниками кол-центра. Робот звонил клиентам, которые давно не совершали покупки, во время Black Friday и предлагал промокоды. Только 3,8% звонков пришлось перевести на живого оператора. Около 8% собеседников воспользовались купоном на дополнительную скидку.

Смартфон

Сбор и обработка информации. С помощью AI-робота можно обработать входящие звонки, которые клиенты совершают, чтобы передать или запросить информацию. Наш робот в одном из регионов помогает принимать показания счетчиков, причем ему диктуют информацию как реальному оператору, а не как в ограниченных голосовых меню.

Холодные звонки. Выявить заинтересованность потенциальных клиентов или найти исполнителей — еще одна задача, которая под силу голосовому роботу. В таких сценариях роботы в десятки раз эффективнее операторов кол-центров. За короткое время они могут сделать огромное количество звонков, что особенно важно при ограниченных сроках. Робота можно настроить так, чтобы отрегулировать очередь получения лидов. Если менеджеры не готовы обработать их, то робот останавливает обзвон и ждет освободившегося оператора.

Рекрутинг и HR. Самый долгий и однообразный этап в найме сотрудников — отбор и первичные контакты с кандидатами. AI-робот может взять рутину на себя: обзвонить кандидатов и назначить им время для собеседования, ответить на основные вопросы по поводу вакансии и даже провести предварительное интервью, чтобы проверить, удовлетворяет ли кандидат заявленным требованиям.

Особенно эффективен робот-рекрутер при наборе на массовые вакансии: так, PepsiCo с его помощью смогла заполнить 10% вакансий, когда компании понадобилось быстро нанять 200 человек в новый центр поддержки продаж.

Для работы с сотрудниками после их найма робот тоже пригодится: он может отвечать на частые вопросы (вроде срока отпусков, даты выдачи зарплаты, порядка начисления премий) и информировать сотрудников о крупных изменениях.

Идентификация клиентов. Вслед за речевой аналитикой будет развиваться распознавание конкретного клиента по голосу. Это нужно для идентификации клиентов, например, в банках. Если оператору нужно услышать кодовое слово, то робот сможет все понять по голосу. Возможно, это будет еще одним шагом к замене операторов на роботов. Такая технология уже проходит пилотные тесты у продвинутых в IT банков.

Девушка говорит по телефону

Как получить максимум от голосовых роботов

  1. Решайте конкретную «боль». Голосовые роботы хороши, если бизнес точно знает, зачем они нужны. Не нужно внедрять технологии, если нет цели что-то поменять и улучшить.
  2. Обращайтесь к профессионалам. В мире очень немного компаний, которые могут самостоятельно разработать и правильно внедрить голосовых роботов в свои бизнес-процессы. Если внутреннему IT-департаменту не хватает компетенций, лучше сразу обращаться к профессиональному подрядчику.
  3. Продумывайте автоматизацию заранее. Мы всегда рекомендуем оставлять «пространство» для внедрения технологий в будущем. Это поможет сэкономить средства и обойтись без фундаментальной перестройки бизнеса.

Фото на обложке: dotshock/Shutterstock

Фото в материале: Unsplash

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Как речевые технологии решают проблемы контакт-центров и розничных продаж
  2. 2 Голосовой ассистент как «лицо» бренда и закат эпохи спам-звонков: тренды в применении диалоговых роботов
  3. 3 Ставить крест на голосовых роботах еще рано – и вот почему
  4. 4 Может ли искусственный интеллект распознавать ложь?
ArtTech — карта разработчиков арт-технологий
Все игроки российского рынка технологий для искусства
Перейти