Обучение ИИ на сгенерированном контенте разрушает модели — исследование
Авторский контент по-прежнему в цене
Полгода назад мир узнал о ChatGPT, и сегодня интернет заполнен текстами и изображениями, которые были сгенерированы ИИ. Пока крупные языковые модели обучаются на материалах, созданных человеком. Но что, если на замену им придет синтетический контент?
Группа исследователей из Великобритании и Канады пришла к неутешительному выводу — использование сгенерированных данных для обучения вызывает необратимые дефекты в моделях.
Рассматривая распределение вероятностей в моделях, генерирующих текст и изображения, авторы заключили: «обучение на данных, произведенных другими моделями, вызывает коллапс модели — дегенеративный процесс, который с течением времени заставляет модели забывать истинное базовое распределение вероятностей… этот процесс неизбежен, даже в случаях с практически идеальными условиями для долгосрочного обучения».
«Со временем ошибки в сгенерированных данных накапливаются, и в конечном счете модели, которые на них учатся, все хуже воспринимают реальность. Нас поразило, как быстро происходит коллапс моделей: они могут быстро забыть большую часть оригинальных данных, на которых изначально обучались» — прокомментировал один из ведущих авторов исследования Илья Шумайлов.
Еще один автор исследования, профессор информационной безопасности Кембриджа и Эдинбургского университета Росс Андерсон, сравнил это с загрязнением: подобно тому, как в океанах скапливается пластик, а в атмосфере — углекислый газ, мы заполняем интернет бессмысленным контентом.
В результате обучать новые модели будет сложнее, что даст преимущество компаниям, которые уже это сделали, либо тем, кто управляет доступом к человеческим интерфейсам. И некоторые стартапы, отмечает он, уже берут данные для обучения в веб-архиве.
Как происходит коллапс модели
Проблема начинается, когда данные, которые генерируют модели ИИ, загрязняют обучающий датасет для последующих моделей.
«Оригинальные данные, созданные людьми, более честно представляют мир, поскольку содержат и невозможные данные. С другой стороны, генеративные модели склонны слишком хорошо учиться на популярных данных и зачастую не понимают или недостаточно представляют менее популярные» — объяснил Шумайлов.
В качестве примера он привел гипотетический сценарий, в котором модель обучается на наборе с изображениями 100 кошек, у 10 из которых голубой мех, а у 90 — желтый.
Модель не только запоминает, что желтые кошки больше распространены, но и представляет голубых кошек более желтыми, чем на самом деле. В итоге, когда модель просят создать новые данные, среди результатов появляется несколько зеленых кошек.
После нескольких последовательных циклов обучения оригинальный признак голубого меха размывается, становясь сначала зеленым и в конечном итоге желтым. Такое постепенное искажение и потеря миноритарных данных — это коллапс модели.
Чтобы его избежать, важно обеспечить, чтобы миноритарные данные были представлены справедливо — в плане количества и точности изображения. И это сложно, поскольку моделям непросто учиться на редких явлениях.
Читайте по теме:
К 2026 году данные для обучения языковых моделей ИИ могут быть исчерпаны — прогноз
Рынок генеративного ИИ вырастет в 30 раз на горизонте 10 лет — Bloomberg
Такое загрязнение данных создает искаженное восприятие реальности. Даже если модель учат не создавать слишком много повторяющихся результатов, коллапс все равно происходит, потому что модели дают ошибочные ответы, чтобы избежать повторов.
Илья Шумайлов отметил, что могут быть и более серьезные последствия, например дискриминация по полу, этнической принадлежности или иным чувствительным признакам.
Авторы исследования обнаружили, что если в последующих генерациях используется даже 10% оригинального контента, созданного людьми, «коллапс модели все равно происходит, просто не так быстро».
Как избежать проблемы
Исследователи предлагают два решения.
- Создать авторитетную копию, состоящую исключительно или условно из данных, созданных человеком, и не вносить в нее синтетический контент. Таким образом можно будет обучать модель на этих данных повторно или с нуля.
- Использовать в обучении новые чистые наборы данных, созданных человеком.
Однако для этого, отмечают авторы, нужен способ отличить синтетические данные — при помощи механизма массовой разметки, усилий разработчиков ИИ или тех, кто производит контент. Пока надежного или массового способа это сделать нет.
Последствия для отрасли и пользователей
Это тревожные новости для генеративного ИИ и компаний, которые хотят заработать на технологии. В то же время это означает, что контент, созданный людьми, будет еще ценнее, чем сейчас — хотя бы в качестве обучающих данных для искусственного интеллекта.
Полученные результаты имеют важные последствия для области ИИ и указывают, как важно улучшить методологию для поддержания целостности моделей в течение времени.
«Ясно, что коллапс моделей остается проблемой для машинного обучения, и с этим необходимо что-то сделать, чтобы генеративный ИИ продолжил совершенствоваться» — отметил Шумайлов.
Обложка снегерирована нейросетью Midjourney
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Банки Ирина Лебедева, Т2: «Ключевой принцип — без неприятных сюрпризов» 25 марта 2026, 09:14
-
Бизнес Сергей Косинский: «Мне достался Франкенштейн, из которого попросили сделать нормального человека» 02 февраля 2026, 19:51
-
Искусственный интеллект IT-рынок без «единорогов», дефицит ЦОДов и постоянные разговоры об ИИ: чем запомнился ЦИПР в 2026 году 22 мая 2026, 23:30
-
Деньги Объём крипторынка России превысил 32 трлн ₽ в 2025 году — большая часть операций проходит через легальные площадки 22 мая 2026, 20:30
-
Бизнес Киноиндустрия призвала проверить сделку Warner Bros. и Paramount — отрасль опасается монополизации рынка 22 мая 2026, 20:00
-
Банки Окупаемость однокомнатной квартиры под сдачу в Москве — почти 25 лет: стоимость растёт быстрее аренды 22 мая 2026, 19:30
-
Тренды В «Москва-Сити» резко выросла доля пустующих офисов: площадь свободных метров достигла максимума за 10 лет 22 мая 2026, 19:07
-
Тренды 92% россиян нашли друзей на работе: в офисе начинают дружить чаще, чем в университете 22 мая 2026, 18:30
-
Банки Банкоматы и платёжные терминалы будут работать без интернета — технологию разработали Минцифры и операторы связи 22 мая 2026, 18:00
-
Искусственный интеллект ИИ меняет структуру бизнеса: эксперты ЦИПР — о том, как менеджеры управляют командами из ИИ-агентов 22 мая 2026, 14:30