Top.Mail.Ru
Истории

Обучение ИИ на сгенерированном контенте разрушает модели — исследование

Истории
Елена Лиханова
Елена Лиханова

Старший редактор RB.RU

Елена Лиханова

Полгода назад мир узнал о ChatGPT, и сегодня интернет заполнен текстами и изображениями, которые были сгенерированы ИИ. Пока крупные языковые модели обучаются на материалах, созданных человеком. Но что, если на замену им придет синтетический контент?

Группа исследователей из Великобритании и Канады пришла к неутешительному выводу — использование сгенерированных данных для обучения вызывает необратимые дефекты в моделях.

Обучение ИИ на сгенерированном контенте разрушает модели — исследование
  1. Истории

Рассматривая распределение вероятностей в моделях, генерирующих текст и изображения, авторы заключили: «обучение на данных, произведенных другими моделями, вызывает коллапс модели — дегенеративный процесс, который с течением времени заставляет модели забывать истинное базовое распределение вероятностей… этот процесс неизбежен, даже в случаях с практически идеальными условиями для долгосрочного обучения».

«Со временем ошибки в сгенерированных данных накапливаются, и в конечном счете модели, которые на них учатся, все хуже воспринимают реальность. Нас поразило, как быстро происходит коллапс моделей: они могут быстро забыть большую часть оригинальных данных, на которых изначально обучались» — прокомментировал один из ведущих авторов исследования Илья Шумайлов.

Еще один автор исследования, профессор информационной безопасности Кембриджа и Эдинбургского университета Росс Андерсон, сравнил это с загрязнением: подобно тому, как в океанах скапливается пластик, а в атмосфере — углекислый газ, мы заполняем интернет бессмысленным контентом.

В результате обучать новые модели будет сложнее, что даст преимущество компаниям, которые уже это сделали, либо тем, кто управляет доступом к человеческим интерфейсам. И некоторые стартапы, отмечает он, уже берут данные для обучения в веб-архиве.

Как происходит коллапс модели

Проблема начинается, когда данные, которые генерируют модели ИИ, загрязняют обучающий датасет для последующих моделей.

«Оригинальные данные, созданные людьми, более честно представляют мир, поскольку содержат и невозможные данные. С другой стороны, генеративные модели склонны слишком хорошо учиться на популярных данных и зачастую не понимают или недостаточно представляют менее популярные» — объяснил Шумайлов.

В качестве примера он привел гипотетический сценарий, в котором модель обучается на наборе с изображениями 100 кошек, у 10 из которых голубой мех, а у 90 — желтый.

Модель не только запоминает, что желтые кошки больше распространены, но и представляет голубых кошек более желтыми, чем на самом деле. В итоге, когда модель просят создать новые данные, среди результатов появляется несколько зеленых кошек.

После нескольких последовательных циклов обучения оригинальный признак голубого меха размывается, становясь сначала зеленым и в конечном итоге желтым. Такое постепенное искажение и потеря миноритарных данных — это коллапс модели.

Чтобы его избежать, важно обеспечить, чтобы миноритарные данные были представлены справедливо — в плане количества и точности изображения. И это сложно, поскольку моделям непросто учиться на редких явлениях.


Читайте по теме:

К 2026 году данные для обучения языковых моделей ИИ могут быть исчерпаны — прогноз

Рынок генеративного ИИ вырастет в 30 раз на горизонте 10 лет — Bloomberg


Такое загрязнение данных создает искаженное восприятие реальности. Даже если модель учат не создавать слишком много повторяющихся результатов, коллапс все равно происходит, потому что модели дают ошибочные ответы, чтобы избежать повторов.

Илья Шумайлов отметил, что могут быть и более серьезные последствия, например дискриминация по полу, этнической принадлежности или иным чувствительным признакам.

Авторы исследования обнаружили, что если в последующих генерациях используется даже 10% оригинального контента, созданного людьми, «коллапс модели все равно происходит, просто не так быстро».

Как избежать проблемы

Исследователи предлагают два решения.

  1. Создать авторитетную копию, состоящую исключительно или условно из данных, созданных человеком, и не вносить в нее синтетический контент. Таким образом можно будет обучать модель на этих данных повторно или с нуля.
  2. Использовать в обучении новые чистые наборы данных, созданных человеком.

Однако для этого, отмечают авторы, нужен способ отличить синтетические данные — при помощи механизма массовой разметки, усилий разработчиков ИИ или тех, кто производит контент. Пока надежного или массового способа это сделать нет.

Последствия для отрасли и пользователей

Это тревожные новости для генеративного ИИ и компаний, которые хотят заработать на технологии. В то же время это означает, что контент, созданный людьми, будет еще ценнее, чем сейчас — хотя бы в качестве обучающих данных для искусственного интеллекта.

Полученные результаты имеют важные последствия для области ИИ и указывают, как важно улучшить методологию для поддержания целостности моделей в течение времени.

«Ясно, что коллапс моделей остается проблемой для машинного обучения, и с этим необходимо что-то сделать, чтобы генеративный ИИ продолжил совершенствоваться» — отметил Шумайлов.

Источник.

Обложка снегерирована нейросетью Midjourney

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Прячем, шифруем и маркируем: как разработчики защищают свои языковые модели от кражи
  2. 2 AI для HR: профиль кандидата, который повысит скорость найма в два раза
  3. 3 Эволюция ML-сервисов в микрофинансовых организациях и советы по внедрению
  4. 4 Машины не восстанут, но вылететь с работы можно: разбираемся, зачем осваивать нейросети
  5. 5 Мнение эксперта: Игорь Пивоваров о том, что происходит с OpenAI
FutureFood
Кто производит «альтернативную» еду
Карта