Почему так сложно научить машину разговаривать, как человек

Истории 25 января 2019

Вероника Елкина

Ex-Редактор «Историй»

Вероника Елкина

Новое поколение компьютерных голосов должно звучать достаточно человечно, чтобы мы чувствовали с ними связь. Но не слишком убедительно, чтобы те не смогли нас обмануть. И поймать этот баланс будет довольно трудно.

Подписаться на RB.RU в Telegram

Когда машины только начали с нами говорить, их речь была похожа на детский лепет. Люди слышали, как голос объявляет остановки в пригородном поезде, и сразу понимали, что он механический, потому что никто из местных жителей не произнесет «Порт Честер», как «порчестер». Но такие объявления никого не смущали. Другое дело, если поезд загорится — в экстренной ситуации мы хотим слышать живой голос, который подскажет нам, что делать и поможет успокоиться.

Исследования показали, что люди хорошо воспринимают фразы, произносимые механическим голосом, только если они простые и короткие. Мы привыкли постоянно считывать невербальные подсказки в малозаметных изменениях голоса, поэтому когда их нет, легко отвлекаемся — именно поэтому так тяжело долго слушать компьютерные голоса.

Если мы собираемся заменить живых помощников ассистентом Google или хотим по-настоящему общаться с Alexa, то нужно, чтобы машины могли разговаривать, как люди: реагировать на вербальные сигналы, поддерживать ритм и темп разговора. И научить их этому невероятно трудно.

Изображение: Yourstory

Мешает интонационная конструкция речи. В нее входят интонация, тон, ударения и ритм, придающие нашим голосам уникальность. Важны не слова, которые мы говорим, а как мы их произносим. «Секрет человеческого голоса в мелодичности», — считает Эмма Родеро, профессор факультета коммуникации из Университета Помпеу Фабра в Барселоне. Родеро занимается исследованием механических голосов и считает, что компьютеру крайне тяжело скопировать все тонкости человеческой речи.

«Интонация сочетает в себе четыре свойства: тон (самое важное), скорость речи, интенсивность и громкость. Когда я говорю, я комбинирую их самыми разными способами. Siri такого не умеет», — рассказывает Родеро.

Родеро работала со звуковыми инженерами и давала им список интонаций, связанных с разными эмоциями, например, радостью или грустью. В этом и заключается главный недостаток машин — они могут воспроизводить только то, что в них заложено, а каждый человек совершенно уникален.

«Когда вы рады, вы можете по-разному передать эту эмоцию в своем голосе. А мы не можем этого заложить в компьютер, — сказала Родеро. — Это одна из проблем, с которой сталкиваются инженеры: алгоритмы ограничены, а наш голос нет».

Технологические компании пытаются решить эту проблему, выбирая для искусственного интеллекта записи максимально выразительного голоса. Когда нужно было выбрать голос для Debater от IBM (искусственного интеллекта, способного вести дебаты), компания провела кастинг и отобрала 20 актеров озвучания. Самого подходящего определила команда IBM на основе своих личных предпочтений. Инженеры спрашивали себя, достаточно ли убедительно звучит тот или иной голос, способен ли он тронуть человека и так далее.

Но это было только начало.

«Актер озвучания записал для нас примерно 150 тысяч слов, то есть у нас вышло где-то 20 часов речи, — рассказал Рон Хурей, один из людей, работавших над проектом Debater. — Специальная команда должна была отметить степень выразительности каждого слова и провести глубокий анализ.

Затем слова разбили на фонемы и обозначили их детали — где тон идет вверх, а где вниз, как долго они длятся и так далее. А еще нам нужно было извлечь интонацию. Позже пришлось вносить множество правок вручную». По словам Хурея, чтобы добиться правильной интонационной конструкции команда также использовала глубинное обучение.

Amazon тоже уделяет много внимания интонационной конструкции речи Alexa. Компания долгое время искала голос, который смог бы отражать личность Alexa — умного, скромного и полезного голосового помощника. Однако ее голос может меняться в зависимости от местных особенностей региона, в котором тот будет использоваться. Сейчас Alexa говорит на шести языках с 14 вариантами локализации.

Изображение: Getty

Alexa также запрограммирована таким образом, чтобы различать контекст: она говорит по-разному в зависимости от ситуации. Она даже способна понимать, что вы ей шепчете и будет шептать в ответ.

Но все же нам еще очень далеко до того, чтобы машины научились говорить естественно. Debater можно только хорошо участвовать в классических дебатах, Alexa — поддерживать базовые разговоры, а Google Assistant — отвечать на определенные действия.

В прошлом году Google показала работу технологии Duplex — искусственный интеллект позвонил в ресторан и заказал столик, причем делал это так естественно, что человек-оператор не заподозрил, что с ним разговаривает машина. Демонстрация произвела фурор. Профессор Зейнеп Туфекси из Университета Северной Каролины, исследующий влияние технологий на общество, считает, что презентация была в корне неправильной. Живой человек не догадался, что общается с ИИ, а значит, технологию можно использовать для обмана.

Google сообщила, что постарается включить в технологию функцию уведомления о том, что с вами общается робот. Энди Аарон из IBM, работавший над проектом Debater, считает это шагом в верном направлении. «Голоса машин становятся все лучше и лучше, а значит важно, чтобы система не могла обмануть человека, — сказал он. — При всех попытках сделать речь машин наиболее живой, нужно не забывать уведомлять собеседника о том, что он говорит с роботом».

Источник.

Материалы по теме:

Умные экраны с камерами, биометрия, контекстуальность и интерактивные драмы — как виртуальные ассистенты станут реальными

Почему будущее e-commerce за голосовыми помощниками?

Эксперимент: редакция разговаривает с голосовым помощником «Алиса» от «Яндекса»

Откровения с Siri: почему люди изливают душу голосовым помощникам

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ