К 2026 году данные для обучения языковых моделей ИИ могут быть исчерпаны — прогноз

Истории 25 ноября 2022

Елена Лиханова

Старший редактор RB.RU

Елена Лиханова

Большие языковые модели — одна из самых популярных областей исследований ИИ. Все больше компаний разрабатывают программы, способные писать связные статьи и даже компьютерный код. Но, по мнению ряда специалистов, через несколько лет нас ждет проблема: данные для обучения моделей могут закончиться.

Подписаться на RB.RU в Telegram

Языковые модели обучаются, используя тексты из таких источников, как «Википедия», книги, новостные и научные статьи. В последние годы наметилась тенденция обучать эти модели на все большем количестве данных, чтобы сделать их более точными и универсальными.

Проблема в том, что типы данных, обычно используемые для обучения языковых моделей, могут быть исчерпаны в ближайшем будущем — уже в 2026 году, согласно статье исследователей из Epoch, организации по исследованию и прогнозированию ИИ (еще не прошла рецензирование).

Проблема связана с тем фактом, что по мере того, как исследователи создают все более мощные модели с большими возможностями, им приходится находить все больше текстов для их обучения. Разработчики крупных языковых моделей все больше обеспокоены тем, что у них закончатся такого рода данные, говорит Тевен Ле Скао, исследователь ИИ-компании Hugging Face, который не участвовал в работе Epoch.

Читайте по теме:

Ученым все труднее объяснить, как работает ИИ. Почему это опасно?

Общение на языке данных — секретный ингредиент успешного развития бизнеса

Проблема частично связана с тем фактом, что исследователи языкового ИИ фильтруют данные, которые они используют для обучения моделей, по двум категориям: высокое качество и низкое качество. Грань между этими двумя категориями может быть нечеткой, говорит Пабло Вильялобос, штатный исследователь Epoch и ведущий автор статьи, но тексты из первой категории считаются написанными лучше и часто создаются профессиональными авторами.

К категории низкого качества относят сообщения в социальных сетях или комментарии на сайтах. По количеству они значительно превосходят высококачественные данные. Обычно модели обучаются только на высококачественных данных, чтобы они воспроизводили именно этот тип языка. Этот подход привел к некоторым впечатляющим результатам для таких больших языковых моделей, как GPT-3.

По словам Швабхи Сваямдипты, профессора машинного обучения Университета Южной Калифорнии, специализирующегося на качестве наборов данных, одним из способов преодолеть эти ограничения данных было бы переосмыслить понятия «низкого» и «высокого» качества. Он объясняет, что если нехватка данных подтолкнет исследователей использовать в обучении более разнообразные датасеты, это лишь пойдет на пользу языковым моделям.

Также можно найти способы продлить срок службы данных. В настоящее время большие языковые модели обучаются на одних и тех же данных только один раз из-за ограничений производительности и затрат. Но, возможно, удастся обучить модель несколько раз, используя одни и те же данные, считает Сваямдипта.

Некоторые исследователи полагают, что «больше не значит лучше» в любом случае не может быть лучше, когда речь заходит о языковых моделях. Перси Лян, профессор компьютерных наук в Стэнфордском университете, говорит, что есть доказательства того, что повышение эффективности моделей может сделать их лучше, а не больше.

«Мы видели, как модели меньшего размера, обученные на данных более высокого качества, могут превзойти более крупные модели, обученные на данных более низкого качества», — объясняет он.

Источник.

Фото на обложке: Zapp2Photo / Shutterstock

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ

Искусственный интеллект
Большие данные
GPT-3
Машинное обучение
Технологии
Искусственный интеллект
Большие данные
GPT-3
Машинное обучение
Технологии

Истории

Материалы по теме

Пройти курс «Интернет-маркетинг для малого бизнеса»
1 Копирайтер VS нейросеть: пишем текст и теряем заказчиков Разбираемся, насколько хорош ChatGPT 22 апреля 16:00
2 60% ответов GPT-3.5 являются плагиатом — исследование Больше всего плагиата — ответы на вопросы по физике и химии 27 февраля 04:00
3 Microsoft готовит релиз нейросети GPT-4 на следующей неделе C ее помощью можно будет создавать видеоконтент 11 марта 15:40
4 Сервис психологической помощи из США использовал GPT-3, не уведомив пользователей В рамках эксперимента ИИ «ответил» на 30 тысяч сообщений 11 января 15:38

К 2026 году данные для обучения языковых моделей ИИ могут быть исчерпаны — прогноз

Популярное

Налог на прибыль организаций

Большинство ритейлеров заявили о намерении увеличить бизнес без расширения штата

Торговая марка для компании: как проверить и зарегистрировать

Как законно уволиться без отработки?

Ошибка 502 Bad Gateway: причины и способы устранения

Материалы по теме