Для обучения нейросетей разработчики используют информацию, собранную в интернете, в том числе ту, что защищена авторским правом. И поскольку это никак не регулируется, сайты решают проблему самостоятельно.
Многие идут на крайние меры: по данным детектора контента ИИ Originality.AI, почти 20% из 1 тыс. крупнейших в мире сайтов блокируют поисковых роботов, которые собирают данные для сервисов искусственного интеллекта.
В начале августа OpenAI представила краулер GPTBot и сообщила, что полученные с его помощью данные могут использоваться для улучшения ее будущих моделей. Компания пообещала, что не будет собирать платный контент, и поделилась инструкциями о том, как отключить краулера.
Вскоре крупные новостные сайты и сервисы, в том числе New York Times и Disney, начали блокировать GPTBot.
По данным Originality.AI, 22 августа краулер заблокировали 9,1% из 1 тыс. самых посещаемых в мире сайтов. К 29 августу их число выросло до 12%. Крупнейшими из них являются Amazon, Quora и Indeed.
Common Crawl Bot — еще один краулер, который регулярно собирает данные для сервисов ИИ — заблокировали 6,77% из 1 тыс. крупнейших сайтов.
Краулер или поисковый робот может получать информацию из любой страницы, но, в отличие от браузера, хранит материалы в базе данных, а не отображает их пользователю. Именно так работают поисковые системы, подобные Google.
Google и другие компании считают такой подход оправданным, хотя многие издатели и владельцы интеллектуальной собственности давно выступают против этого и даже подают в суд. Развитие больших языковых моделей вновь привлекло внимание к этому вопросу.
Некоторые издатели видели хоть какую-то выгоду в краулерах Google и других поисковиков, поскольку те привлекали пользователей на их сайты. Однако передача данных разработчикам ИИ пока не приносит издателям никакой пользы, и потому они более агрессивно блокируют эти программы.
Многие медиакомпании хотят делиться своими данными через платную лицензию, но переговоры об этом еще находятся на ранней стадии. Другие подают в суд на компании, создающие ИИ, которые могли использовать их данные без разрешения.
СМИ, которые последние 20 лет чувствовали себя обманутыми Google, враждебно относятся к быстрой коммерциализации сервисов ИИ. Сообщается, что в следующем году доход OpenAI может составить более $1 млрд.
Если слишком много сайтов заблокируют краулеры, разработчикам будет сложнее улучшать свои продукты. Originality.AI обнаружил: из 1 тыс. крупнейших сайтов число тех, что заблокировали GPTBot, увеличивается примерно на 5% еженедельно.
Фото на обложке: Gil C /
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- Пройти курс «Как самозанятому стать ИП»
- 1 В iOS 18.2 появится возможность купить подписку на ChatGPT
- 2 Бывший глава отдела AGI в OpenAI объяснил уход из компании стремлением к «независимости»
- 3 Новые инструменты Midjourney: ретекстурирование и редактор изображений с компьютера
- 4 OpenAI выпустит собственный ИИ-чип в 2026 году
ВОЗМОЖНОСТИ
08 ноября 2024
10 ноября 2024
10 ноября 2024