Колонки

Право голоса для ребенка: как голосовые технологии помогают детям учиться

Колонки
Михаил Котлов
Михаил Котлов

CEO международного стартапа IntellectoKids

Анастасия Удальцова

Михаил Котлов, CEO международного стартапа IntellectoKids, разрабатывающего образовательные приложения для детей от 3 до 7 лет, рассказывает о трендах и сложностях использования голосовых технологий в детском обучении, а также на примере одного из продуктов компании объясняет, как дети могут изучать иностранный язык с помощью технологии распознавания речи. 

Право голоса для ребенка: как голосовые технологии помогают детям учиться

Голосовые технологии — причины популярности 

31% пользователей смартфонов хотя бы раз в неделю вызывают голосовой поиск. Если не верите мне, спросите Siri. Голосовые технологии окончательно стали частью нашей жизни, и не только бытовой: постепенно они проникли в социальные и бизнес-сферы. 

С каждым годом перспективы использования голосовых технологий растут. По оценкам экспертов, к 2023 году только рынок распознавания речи достигнет $16 млрд 

Среди голосовых технологий различают:

  • автоматическое распознавание речи (ASR): преобразование речи в цифровую информацию, например в текст. На этой технологии основаны работа Siri, Алисы и голосовой ввод текста; 
  • синтез речи: преобразование текста в голос;
  • распознавание голоса: верификация и идентификация личности по голосовому сигналу. 

Как и где помогают? 

  • голосовые технологии используют в медиа, финансах, промышленности, образовании и других отраслях. 
  • в банковской сфере технология распознавания голоса применяется для аутентификации личности клиентов, чтобы уменьшить число телефонных преступлений, связанных с мошенничеством. 
  • специалисты в киноиндустрии используют технологию распознавания речи, чтобы сэкономить на создании субтитров.  
  • незрячие люди теперь могут пользоваться смартфонами
  • синтезаторы речи (вспомним Стивена Хокинга) помогают людям с ограниченными возможностями общаться

 

Онлайн-галерея «Цифровые двойники». Угадай, что изображено на картинах.

Голосовые технологии в детском образовании 

Как скоро голосовые технологии придут в детское образование, было лишь вопросом времени, ведь их применение открывает новые возможности для учителей. 

Занятия становятся более интерактивными, что помогает удерживать внимание учеников и повышать вовлеченность в образовательный процесс. К примеру, американские школы уже вовсю используют на уроках умные колонки как инструмент для доступа к обучающему контенту: дети с удовольствием задают голосовому помощнику вопросы по теме урока.  

Конечно же, голосовые технологии в детском образовании решают более сложные задачи, чем в повседневной жизни. 

Например, приложения и устройства с технологией распознавания речи помогают:

  • Пополнять словарный запас. Согласно исследованию профессора Стэнфордского университета Брюса МакКэндлесса, ребенок быстрее запоминает слово, тренируясь правильно его произносить, чем читая.  
  • Учиться читать. В том же исследовании говорится, что дети быстрее развивают навык чтения, если обращают внимание на фонетическую составляющую слов.
  • Вовлекать ребенка в образовательный процесс через интерактивные диалоги, которые способствуют лучшему пониманию урока.
  • Изучать иностранные языки: корректировать произношение, увеличивать словарный запас и повышать беглость речи; обеспечивать разговорную практику.
  • Определять слабые места ребенка в изучении темы.
  • Сделать обучение более индивидуальным. Ребенок учится в своем темпе, сам узнает новый материал; 
  • Диагностировать дислексию и нарушения речи у детей. 

 

Особенности обучения детей с помощью технологии распознавания речи

Несмотря на широкие возможности, применение голосовых технологий в детском образовании имеет свои особенности. Они связаны с тем, что большинство устройств с этими функциями при создании были обучены только на взрослых голосах, тогда как дети говорят совсем иначе.

  • Дети удлиняют слоги.
  • У детей более разнящиеся голосовые данные. Поскольку детские голосовые связки меньше, а гортань еще не полностью развита, приходится иметь дело с большим спектром речевых образцов, чем у взрослых. 
  • В разном возрасте дети демонстрируют разную степень правильного произношения: процент ошибок в распознавании среди дошкольников больше, чем у тех же старшеклассников. Более того, показатели могут отличаться, даже у детей одного возраста.   
  • Детские голоса более тонкие и высокие в сравнении со взрослыми.
  • У детей неструктурированная речь. При распознавании нейросеть не только «узнает» отдельное слово, но пытается понять контекст. Если ребенок смешал контексты (сначала говорил одно, потом переключился на другое), то распознать сложнее. 

Все эти факторы влияют на точность распознавания голосовых запросов. Поэтому в идеале голосовые инструменты, используемые в детском обучении, должны быть заточены именно под детскую манеру речи. 

Точность распознавания зависит от того, как близко ребенок находится к микрофону и нет ли на фоне посторонних шумов. А еще — от модели планшета или телефона. На старых моделях микрофон не всегда расположен удачно. 

Еще следует учесть, что дети иначе воспринимают ошибки. При чем тут голосовые технологии? Ребенок может болезненно реагировать в случае неверного произнесения слова. 

Компании, которые создают образовательные приложения и сервисы для детей с использованием голосовых технологий, должны это учитывать. К примеру, персонаж, обучающий ребенка в игровой форме иностранному языку, должен реагировать и указывать на ошибку в позитивном ключе.

 

Как дети могут изучать иностранный язык с помощью голосовых технологий

Мы в IntellectoKids развиваем экосистему мобильных продуктов, объединенных единой подпиской и закрывающих разные потребности родителей. 

Одна из таких потребностей — обучение ребенка английскому языку. Поэтому год назад мы выпустили образовательное приложение IntellectoKids: English For Kids, в основу которого легла технология распознавания речи Google Speech-to-Text и технология синтеза речи Google Text-to-Speech. 

 

Почему голосовые технологии

Мы решили использовать голосовые технологии по нескольким причинам. Наша аудитория — дошкольники от 3 до 7 лет: читать многие из них пока не умеют, зато им подходит обучение через аудирование. 

К тому же нам хотелось, чтобы ребенок не только учил слова, но запоминал диалоги и активно участвовал в них, а еще понимал, правильно ли он называет то или иное слово. Голосовые технологии отвечают на все эти вопросы. 

 

Как все устроено

Центральный персонаж в приложении — инопланетный робот Тим, с которым ребенок общается на английском языке и играет. 

С технической точки зрения процесс обучения происходит так: Тим говорит какое-то слово на английском языке и просит ребенка повторить. Ребенок произносит слово, технология распознавания речи узнает его, преобразует в текст и сравнивает с тем словом, которое «забито» у нас в системе как верный ответ. Если слова совпадают, Тим радуется. 

Также у нас в приложении есть закадровый голос, разговаривающий с ребенком на родном для него языке: он объясняет правила каждой игры, хвалит за верный ответ или просит повторить сказанное. Сегодня наше приложение «умеет говорить» на 26 языках, и мы постоянно подключаем новые. 

Из-за того, что мы регулярно добавляем в приложение новые игры и слова и в приложении очень много языков, мы решили каждый раз не обращаться за озвучкой к актерам; все фразы записываются в виде текста, а технология синтеза речи «оживляет» их.

Голос нашего Тима немного механизированный — а значит (удачно сложилось), действительно чем-то похож на голос робота. 

С помощью технологии распознавания речи и различных игровых механик дети через наше приложение пополняют словарный запас, тренируют произношение и навык разговорной речи. 

Чем больше правильных ответов выдает ребенок, тем больше игр и диалогов ему открывается. 

Пример игры: робот Тим испачкался, закадровый голос предлагает ребенку его искупать. Но вот незадача: из ванной комнаты пропали некоторые предметы, без которых купание не состоится. Ребенок должен выбрать из большого количества предметов необходимые. 

Допустим, он «кликает» на мыло. Робот Тим произносит «soap» и просит повторить слово. Если ответ верный, робот радуется, если нет, закадровый голос говорит что-нибудь вроде: «Кажется, Тим плохо помыл ушки и не слышит тебя, попробуй еще раз». 

Мы даем две-три попытки, а потом переходим к следующему действию, чтобы дети не теряли мотивацию и не отвлекались. Когда все предметы собраны, ребенок купает Тима. Во время игры дети по-разному взаимодействуют с каждым предметом, так слова запоминаются лучше. 

 

Сложности и решения

Ошибочно будет решить, что достаточно просто «взять» технологию от Google и интегрировать ее в свой продукт, чтобы все заработало. Поначалу точность распознавания голосовых запросов была достаточно низкой. 

Проблемы были, к примеру, такие:  

  • ребенок произносил слово на своем языке вместо английского (это довольно частое явление), и слово определялось как неверное. Например, Тим просит сказать «carrot», а ребенок радостно говорит «морковка», потому что видит на экране морковку. Формально он прав, но система, само собой, не засчитывала слово. Тогда мы применили синхронное распознавание на двух языках (изучаемом и родном для ребенка). Теперь в таких случаях закадровый голос говорит: «Ты сказал правильно, а теперь повтори по-английски». 
  • Ребенок говорил слово на английском языке, а Google определял его как сказанное на родном. 
  • Google плохо распознает простые короткие слова из трех-четырех букв, произнесенные ребенком. Этот и предыдущий пункт разработчикам пришлось прорабатывать отдельно. 

Кроме того, на точность распознавания всегда влияет и контентная часть детского продукта. Поэтому с момента создания MVP мы неоднократно совершенствовали игры и редактировали фразы закадрового голоса. 

Один из примеров: ребенок говорил слово сначала на английском, и тут же повторял на нативном (или наоборот). Этот факт потребовал детальной проработки нарратива и диалогов, чтобы направлять ребенка — и он не сбивался с нужного пути. 

В итоге нашей команде удалось увеличить процент успешно распознаваемых запросов более чем в два раза, и сейчас не менее 40% запросов в приложении распознаются корректно. 

Это хороший результат, учитывая, что ребенок просто не может все слова и фразы произносить правильно с первого раза, так как еще учится. 

 

Что нужно учесть при создании детского приложения с технологией распознавания речи

  • Каждую игру в в любом детском приложении нужно обязательно тестировать на ребенке, чтобы убедиться, что ему будет интересно. Мы организовывали фокус-группы, после которых дорабатывали наш контент. 
  • Ребенку веселее играть с кем-то, а не просто с девайсом. Для вовлечения в образовательный процесс здорово, если голос в приложении будет принадлежать конкретному персонажу, которому ребенок будет доверять. 
  • Чтобы ребенку не надоели занятия, игровые сессии должны быть короткими. Впрочем, это относится ко всем детским приложениям, вне зависимости от задействованных в нем технологий.  
  • Ошибаясь, дети расстраиваются. Поэтому при неверном ответе персонаж все равно должен реагировать позитивно, а не расстраиваться.
  • В целом персонаж всегда должен как-то отзываться на любое действие ребенка, потому что интерактивность способствует эффективному обучению. 
  • Для приложений с технологией распознавания голоса важно, чтобы оно содержало не только слова, которые нужно повторить, но и диалоги
  • Также нужно добавить распознавание на двух языках (нативном и изучаемом). 
  • Учитывая несовершенство сегодняшних систем распознавания голоса, лучше учить ребенка коротким словосочетаниям: длинные могут плохо распознаваться. 
  • Очень важно, чтобы в приложении был понятный и простой интерфейс, поскольку дети не умеют читать.
  • Важно, чтобы кнопки в приложении были крупными, потому что у детей маленькие пальчики.
  • Также следует учесть, что дети часто говорят тихо или непонятно, перескакивают с одного слова на другое. На все эти случаи нужно продумывать реакцию персонажа. 
  • Дешевле и быстрее взять готовую технологию, чем создавать свою.
  • Даже если вы берете готовую технологию, ее придется дорабатывать под конкретное приложение (о некоторых доработках мы рассказали выше).

 

Вывод

С помощью приложений, основанных на голосовых технологиях, можно изучать не только иностранные языки. 

Дошкольники могут в игровом формате запоминать геометрические фигуры, цвета, названия планет, деревьев. 

Дети постарше — более сложные темы вроде таблицы Менделеева или исторических дат. И этот список можно продолжать бесконечно. 

Поэтому, думаю, детских обучающих приложений, в которых применяются голосовые технологии, со временем будет все больше. 

Фото на обложке: Da Antipina/Shutterstock

Иллюстрации предоставлены автором. 

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Как российские дети и их родители тратят деньги — исследование
  2. 2 «Разработка объединила семью»: как дети помогли создать приложение для тренировки чтения
  3. 3 Не только английский: какие иностранные языки пора выучить
EdTech: карта российского рынка
Все компании и инвесторы в области образовательных технологий
Перейти

ВОЗМОЖНОСТИ

18 июня 2021

18 июня 2021