Обучение ИИ на сгенерированном контенте разрушает модели — исследование
Авторский контент по-прежнему в цене
Полгода назад мир узнал о ChatGPT, и сегодня интернет заполнен текстами и изображениями, которые были сгенерированы ИИ. Пока крупные языковые модели обучаются на материалах, созданных человеком. Но что, если на замену им придет синтетический контент?
Группа исследователей из Великобритании и Канады пришла к неутешительному выводу — использование сгенерированных данных для обучения вызывает необратимые дефекты в моделях.
Рассматривая распределение вероятностей в моделях, генерирующих текст и изображения, авторы заключили: «обучение на данных, произведенных другими моделями, вызывает коллапс модели — дегенеративный процесс, который с течением времени заставляет модели забывать истинное базовое распределение вероятностей… этот процесс неизбежен, даже в случаях с практически идеальными условиями для долгосрочного обучения».
«Со временем ошибки в сгенерированных данных накапливаются, и в конечном счете модели, которые на них учатся, все хуже воспринимают реальность. Нас поразило, как быстро происходит коллапс моделей: они могут быстро забыть большую часть оригинальных данных, на которых изначально обучались» — прокомментировал один из ведущих авторов исследования Илья Шумайлов.
Еще один автор исследования, профессор информационной безопасности Кембриджа и Эдинбургского университета Росс Андерсон, сравнил это с загрязнением: подобно тому, как в океанах скапливается пластик, а в атмосфере — углекислый газ, мы заполняем интернет бессмысленным контентом.
В результате обучать новые модели будет сложнее, что даст преимущество компаниям, которые уже это сделали, либо тем, кто управляет доступом к человеческим интерфейсам. И некоторые стартапы, отмечает он, уже берут данные для обучения в веб-архиве.
Как происходит коллапс модели
Проблема начинается, когда данные, которые генерируют модели ИИ, загрязняют обучающий датасет для последующих моделей.
«Оригинальные данные, созданные людьми, более честно представляют мир, поскольку содержат и невозможные данные. С другой стороны, генеративные модели склонны слишком хорошо учиться на популярных данных и зачастую не понимают или недостаточно представляют менее популярные» — объяснил Шумайлов.
В качестве примера он привел гипотетический сценарий, в котором модель обучается на наборе с изображениями 100 кошек, у 10 из которых голубой мех, а у 90 — желтый.
Модель не только запоминает, что желтые кошки больше распространены, но и представляет голубых кошек более желтыми, чем на самом деле. В итоге, когда модель просят создать новые данные, среди результатов появляется несколько зеленых кошек.
После нескольких последовательных циклов обучения оригинальный признак голубого меха размывается, становясь сначала зеленым и в конечном итоге желтым. Такое постепенное искажение и потеря миноритарных данных — это коллапс модели.
Чтобы его избежать, важно обеспечить, чтобы миноритарные данные были представлены справедливо — в плане количества и точности изображения. И это сложно, поскольку моделям непросто учиться на редких явлениях.
Читайте по теме:
К 2026 году данные для обучения языковых моделей ИИ могут быть исчерпаны — прогноз
Рынок генеративного ИИ вырастет в 30 раз на горизонте 10 лет — Bloomberg
Такое загрязнение данных создает искаженное восприятие реальности. Даже если модель учат не создавать слишком много повторяющихся результатов, коллапс все равно происходит, потому что модели дают ошибочные ответы, чтобы избежать повторов.
Илья Шумайлов отметил, что могут быть и более серьезные последствия, например дискриминация по полу, этнической принадлежности или иным чувствительным признакам.
Авторы исследования обнаружили, что если в последующих генерациях используется даже 10% оригинального контента, созданного людьми, «коллапс модели все равно происходит, просто не так быстро».
Как избежать проблемы
Исследователи предлагают два решения.
- Создать авторитетную копию, состоящую исключительно или условно из данных, созданных человеком, и не вносить в нее синтетический контент. Таким образом можно будет обучать модель на этих данных повторно или с нуля.
- Использовать в обучении новые чистые наборы данных, созданных человеком.
Однако для этого, отмечают авторы, нужен способ отличить синтетические данные — при помощи механизма массовой разметки, усилий разработчиков ИИ или тех, кто производит контент. Пока надежного или массового способа это сделать нет.
Последствия для отрасли и пользователей
Это тревожные новости для генеративного ИИ и компаний, которые хотят заработать на технологии. В то же время это означает, что контент, созданный людьми, будет еще ценнее, чем сейчас — хотя бы в качестве обучающих данных для искусственного интеллекта.
Полученные результаты имеют важные последствия для области ИИ и указывают, как важно улучшить методологию для поддержания целостности моделей в течение времени.
«Ясно, что коллапс моделей остается проблемой для машинного обучения, и с этим необходимо что-то сделать, чтобы генеративный ИИ продолжил совершенствоваться» — отметил Шумайлов.
Обложка снегерирована нейросетью Midjourney
-
Партнёрский материал Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 16 июня 2026, 15:52
-
Личное Дарио Амодеи. Как обыграть OpenAI и создать самый дорогой ИИ-стартап в мире 16 июня 2026, 12:05
-
Технологии Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 09 июня 2026, 12:14
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Технологии Прощание с эпохой Кука и ставка на агентов: конференция Apple WWDC 2026 12 июня 2026, 15:35
-
Искусственный интеллект Как подключить Яндекс Дропс и использовать все функции Алисы AI: полный обзор первых ИИ-наушников от Яндекса 09 июня 2026, 11:00
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Технологии Уроки китайского единства 26 мая 2026, 13:27
-
Искусственный интеллект Разработчик DeepSeek увеличил свою оценку до $50 млрд — стартап стал самым дорогим ИИ-проектом в Китае 16 июня 2026, 16:00
-
Искусственный интеллект Конференция Conversations от Just AI в Петербурге: VK, Wildberries и другие расскажут, как зарабатывают на ИИ 16 июня 2026, 15:36
-
Россия 2ГИС запустил «Ленту друзей» — теперь пользователи могут увидеть отзывы и рекомендации мест от знакомых 16 июня 2026, 15:00
-
Технологии Яндекс Фабрика выпустила полноразмерные наушники Commo Etude — цена начинается от 8 тыс. ₽ 16 июня 2026, 09:00
-
Маркетплейсы Ozon погасил 7,4 млн акций, выпущенных для мотивации сотрудников — компания устранила размытие капитала 16 июня 2026, 19:00
-
Деньги Состояние Илона Маска превысило $1,4 трлн — он стал самым богатым человеком на планете 16 июня 2026, 18:40
-
Деньги Минкультуры требует взыскать с «Союзмультфильма» 131 млн ₽: причина — студия не реализовала субсидию от ведомства 16 июня 2026, 17:57
-
Бизнес Альфа-Банк подвёл итоги первой программы для импортёров: шесть компаний получили гранты по 1 млн ₽ 15 июня 2026, 18:01