Истории

Почему доминирование английского языка в интернете – это проблема

Истории
Анна Самойдюк
Анна Самойдюк

Редактор

Анна Самойдюк

Около половины населения нашей планеты все еще не обладает доступом к интернету. Компании вроде Facebook, SpaceX и Amazon хотят изменить это, запустив в космос специальные интернет-спутники.

Но даже если эти проекты окажутся успешными, технологические гиганты могут столкнуться с более фундаментальной проблемой преодоления цифрового разрыва: языковым барьером.

Почему доминирование английского языка в интернете – это проблема

В мире существует около тысячи языков, но большая часть контента в сети доступна только на нескольких из них, в основном на английском. Более 10% всех статей Википедии написано на английском языке, и почти половина – на европейских диалектах. Обеспечение еще одного миллиарда людей интернетом считается следующим важным шагом, но когда они впервые к нему подключатся, они поймут, что на их языках мало что можно в нем найти.

«Примерно 5% населения планеты общается на английском языке дома, но около 50% всего контента в сети можно найти только на этом языке», – сказал Хуан Ортиз Фройлер из World Wide Web Foundation. Фройлер утверждает, что интернет способствовал «культурной гомогенизации», поскольку большинство людей пользуются Facebook и Google и общаются на тех же доминантных языках. Но проблема «не в изменениях в технологиях», – сказала Кристен Чернешофф, директор сообщества Wikitongues, организации, продвигающей языковое разнообразие. Корпорации и правительства не предоставляют ресурсы и поддержку, необходимые для выведения малых языков в интернет.

Многие крупные онлайн-платформы родились в Кремниевой долине и первоначально были направлены на англоговорящих пользователей. Сегодня они пользуются популярностью во всем мире. Недавно Facebook раскритиковали за то, что организация редко нанимает носителей языка для мониторинга контента в странах, насчитывающих миллионы пользователей платформы. В Мьянме, например, в компании годами работали лишь несколько носителей бирманского языка во времена распространения ненавистнических высказываний. Facebook признал, что не сделал достаточно для предотвращения использования платформы для подстрекательства насилия в стране.

Еще одна часть проблемы связана с тем, что на этих языках было создано относительно мало наборов данных, которые подходят для обучения инструментов искусственного интеллекта. Возьмем, к примеру, сингальскикй язык, на котором говорят около 17 миллионов жителей Шри-Ланки с четырьмя видами письменности. Алгоритмы Facebook – обучаемые в основном на английском и других европейских языках – не очень хорошо в нем ориентируются. Поэтому социальной сети сложно автоматически определять ненавистнические высказывания в стране или прекращать поток дезинформации после террористической атаки.

Фото: Unsplash

Однако Чернешофф утверждает, что языковое разнообразие – это не только практичность, но и самовыражение. Шутки, эмоции и искусство сложно, если не невозможно, перевести с одного языка на другой. Она вспомнила проекты вроде Mother Language Meme Challenge, в рамках которого люди из разных стран создавали мемы на своем родном языке. Идея в том, чтобы продемонстрировать непосредственную связь юмора с языком.

Mozilla на данный момент занимается краудсорсингом языковых датасетов, которые разработчики по всему миру смогут использовать бесплатно. Их проект называется Common Voice, и они считают его «самым разнообразным голосовым датасетом в мире». Он включает записи 42 тысяч человек на распространенных языках вроде английского и немецкого, и менее популярных, вроде валлийского и кабильского. Цель проекта – предоставить программистам необходимые инструменты для разработки программ, преобразующих речь в текст, на разных языках. Марк Сурман, исполнительный директор Mozilla Foundation, верит, что датасеты с открытым исходным кодом вроде Common Voice – один из немногих надежных способов обеспечить языковое разнообразие в технологиях. В коммерческих компаниях этот вопрос «занимает одну из последних ступенек экономической лестницы», – сказал он.

Перенос большего количества языков в интернет может способствовать сохранению культуры, а не простому удобству. Все-таки вряд ли на языке йоруба будет столько же сайтов, сколько на французском или арабском. Новые пользователи интернета просто начнут искать информацию на своем втором или третьем языке, вместо родного.

В то же время корпорации вроде Google разработали программы, которые упрощают доступ к интернет-контенту на разных языках – например, Google Переводчик. Google также отдал часть своих инструментов Wikipedia, чтобы помочь организации переводить статьи, хотя они все еще требуют внимательной проверки носителем языка; редакторы Вики пожаловались, что иногда инструменты Google дают некачественные результаты. В настоящее время продвижение языкового разнообразия в интернете все еще требует серьезных человеческих усилий.

Источник. 


Материалы по теме:

Пять нестандартных сайтов для изучения английского

Как интернет помогает спасти вымирающие языки

Стоит ли учить английский с детства: мнение эксперта

Где выучить иностранные языки бесплатно?

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Актуальные материалы —
в Telegram-канале @Rusbase

ВОЗМОЖНОСТИ

25 октября 2020

30 октября 2020