К 2026 году данные для обучения языковых моделей ИИ могут быть исчерпаны — прогноз
Исследователям придется проявить изобретательность
Большие языковые модели — одна из самых популярных областей исследований ИИ. Все больше компаний разрабатывают программы, способные писать связные статьи и даже компьютерный код. Но, по мнению ряда специалистов, через несколько лет нас ждет проблема: данные для обучения моделей могут закончиться.
Языковые модели обучаются, используя тексты из таких источников, как «Википедия», книги, новостные и научные статьи. В последние годы наметилась тенденция обучать эти модели на все большем количестве данных, чтобы сделать их более точными и универсальными.
Проблема в том, что типы данных, обычно используемые для обучения языковых моделей, могут быть исчерпаны в ближайшем будущем — уже в 2026 году, согласно статье исследователей из Epoch, организации по исследованию и прогнозированию ИИ (еще не прошла рецензирование).
Проблема связана с тем фактом, что по мере того, как исследователи создают все более мощные модели с большими возможностями, им приходится находить все больше текстов для их обучения. Разработчики крупных языковых моделей все больше обеспокоены тем, что у них закончатся такого рода данные, говорит Тевен Ле Скао, исследователь ИИ-компании Hugging Face, который не участвовал в работе Epoch.
Читайте по теме:
Ученым все труднее объяснить, как работает ИИ. Почему это опасно?
Общение на языке данных — секретный ингредиент успешного развития бизнеса
Проблема частично связана с тем фактом, что исследователи языкового ИИ фильтруют данные, которые они используют для обучения моделей, по двум категориям: высокое качество и низкое качество. Грань между этими двумя категориями может быть нечеткой, говорит Пабло Вильялобос, штатный исследователь Epoch и ведущий автор статьи, но тексты из первой категории считаются написанными лучше и часто создаются профессиональными авторами.
К категории низкого качества относят сообщения в социальных сетях или комментарии на сайтах. По количеству они значительно превосходят высококачественные данные. Обычно модели обучаются только на высококачественных данных, чтобы они воспроизводили именно этот тип языка. Этот подход привел к некоторым впечатляющим результатам для таких больших языковых моделей, как GPT-3.
По словам Швабхи Сваямдипты, профессора машинного обучения Университета Южной Калифорнии, специализирующегося на качестве наборов данных, одним из способов преодолеть эти ограничения данных было бы переосмыслить понятия «низкого» и «высокого» качества. Он объясняет, что если нехватка данных подтолкнет исследователей использовать в обучении более разнообразные датасеты, это лишь пойдет на пользу языковым моделям.
Также можно найти способы продлить срок службы данных. В настоящее время большие языковые модели обучаются на одних и тех же данных только один раз из-за ограничений производительности и затрат. Но, возможно, удастся обучить модель несколько раз, используя одни и те же данные, считает Сваямдипта.
Некоторые исследователи полагают, что «больше не значит лучше» в любом случае не может быть лучше, когда речь заходит о языковых моделях. Перси Лян, профессор компьютерных наук в Стэнфордском университете, говорит, что есть доказательства того, что повышение эффективности моделей может сделать их лучше, а не больше.
«Мы видели, как модели меньшего размера, обученные на данных более высокого качества, могут превзойти более крупные модели, обученные на данных более низкого качества», — объясняет он.
Фото на обложке: Zapp2Photo /
-
Партнёрский материал Как компании из Архангельска растут на терпении, связях и самоиронии 29 мая 2026, 14:33
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Банки Ирина Лебедева, Т2: «Ключевой принцип — без неприятных сюрпризов» 25 марта 2026, 09:14
-
Реклама Мессенджер от Wildberries, возвращение Volga и новые сделки в сфере ИИ: главные события первого дня ПМЭФ–2026 03 июня 2026, 21:00
-
Бизнес Малый бизнес в России получил 2,5 балла из 5 по шкале цифровизации — сильнее всего отстаёт сельское хозяйство 03 июня 2026, 20:15
-
Технологии Сеченовский Университет и «Моторика» показали новый имплант — он восстановит зрение при дисфункции сетчатки 03 июня 2026, 20:00
-
Искусственный интеллект В Санкт-Петербурге стартовал ПМЭФ–2026: форум посетят представители более 130 стран, в программе — более 150 сессий 03 июня 2026, 11:21
-
Технологии 84% российских приложений содержат критические уязвимости — проблемы всё чаще возникают из-за некорректного ИИ-кода 02 июня 2026, 17:10
-
Бизнес Яндекс Маркет запустил ленту коротких видео — продавцы смогут продвигать товары через ролики 03 июня 2026, 20:30
-
Деньги «Яндекс» запустил страхование по подписке — теперь ОСАГО и каско можно оформить в приложении такси 03 июня 2026, 19:30
-
Банки ВТБ планирует получить лицензию на работу с криптовалютами — банк готов обслуживать и физических лиц, и бизнес 03 июня 2026, 19:15