Истории

Исследователи обнаружили, что лексическое богатство ИИ-переводов гораздо ниже тех, что сделаны человеком

Истории
Дарья Сидорова
Дарья Сидорова

Редактор отдела «Истории».

Дарья Сидорова

Ученые из Тилбургского и Мэрилендского университетов решили оценить, как ИИ переводит тексты, с точки зрения лексического и грамматического разнообразия. Хорошая новость: пока человек справляется с этим лучше, чем алгоритмы. Плохая: машинный перевод может повлиять на человеческий язык.

Исследователи обнаружили, что лексическое богатство ИИ-переводов гораздо ниже тех, что сделаны человеком

В ходе исследования было обнаружено, что между обучающими данными, которые получают ИИ-системы, и их переводами присутствует значимая разница. Причина может заключаться в статистической погрешности.

Исследователи изучили ряд различных моделей МО, включая Transformer от Microsoft, нейронный машинный перевод, сети долгой краткосрочной памяти и статистический машинный перевод на основе отдельных фраз. Каждый алгоритм выполнял переводы между английским, французским и испанским языками, а затем исходный текст сравнивался с полученными текстами по девяти показателям.

Результаты показали: независимо от типа модели, в обучающих данных всегда наблюдалось более высокое лексическое разнообразие, чем в машинном переводе.

Другими словами, переводы из набора рекомендаций во всех случаях оказались более разнообразны с точки зрения лексики и синонимов.

Премия молодых предпринимателей Young Awards 2021. Подать заявку.

По словам участников исследования, потеря лексического разнообразия позволяет упростить и согласовать текст, но может помешать ИИ-системам принимать правильные грамматические решения. Негативный эффект также оказывается на более морфологически богатые языки, такие как испанский и французский.

В статье по проделанной работе ученые написали о том, что в связи с широким распространением систем машинного перевода пришло время изучить влияние этих алгоритмов на человеческий язык: «‎Если машинный перевод является упрощенной версией обучающих данных, то о чем это говорит с социолингвистической точки зрения и как это повлияет на язык в долгосрочной перспективе?»

Авторы исследования не предлагают решений для обнаруженной проблемы. Однако они надеятся, что полученные показатели вдохновят других на дальнейшее изучение этой темы.

Источник.

Фото на обложке: ThomasDeco / Shutterstock

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Учёл ошибки Clubhouse: Twitter запустил бета-тестирование голосовых чатов Spaces
  2. 2 Интернет-алгоритмы управляют нашей жизнью. Вот как избавиться от их влияния
  3. 3 Студенты разработали алгоритмы для определения фейковых новостей на фестивале по ИИ и алгоритмическому программированию
  4. 4 Понимающие алгоритмы: зачем бизнесу нужны боты с распознаванием эмоций
Успехи российских стартапов за рубежом
#Гордость
Перейти