Для обучения нейросетей разработчики используют информацию, собранную в интернете, в том числе ту, что защищена авторским правом. И поскольку это никак не регулируется, сайты решают проблему самостоятельно.
Многие идут на крайние меры: по данным детектора контента ИИ Originality.AI, почти 20% из 1 тыс. крупнейших в мире сайтов блокируют поисковых роботов, которые собирают данные для сервисов искусственного интеллекта.
В начале августа OpenAI представила краулер GPTBot и сообщила, что полученные с его помощью данные могут использоваться для улучшения ее будущих моделей. Компания пообещала, что не будет собирать платный контент, и поделилась инструкциями о том, как отключить краулера.
Вскоре крупные новостные сайты и сервисы, в том числе New York Times и Disney, начали блокировать GPTBot.
По данным Originality.AI, 22 августа краулер заблокировали 9,1% из 1 тыс. самых посещаемых в мире сайтов. К 29 августу их число выросло до 12%. Крупнейшими из них являются Amazon, Quora и Indeed.
Common Crawl Bot — еще один краулер, который регулярно собирает данные для сервисов ИИ — заблокировали 6,77% из 1 тыс. крупнейших сайтов.
Краулер или поисковый робот может получать информацию из любой страницы, но, в отличие от браузера, хранит материалы в базе данных, а не отображает их пользователю. Именно так работают поисковые системы, подобные Google.
Google и другие компании считают такой подход оправданным, хотя многие издатели и владельцы интеллектуальной собственности давно выступают против этого и даже подают в суд. Развитие больших языковых моделей вновь привлекло внимание к этому вопросу.
Некоторые издатели видели хоть какую-то выгоду в краулерах Google и других поисковиков, поскольку те привлекали пользователей на их сайты. Однако передача данных разработчикам ИИ пока не приносит издателям никакой пользы, и потому они более агрессивно блокируют эти программы.
Многие медиакомпании хотят делиться своими данными через платную лицензию, но переговоры об этом еще находятся на ранней стадии. Другие подают в суд на компании, создающие ИИ, которые могли использовать их данные без разрешения.
СМИ, которые последние 20 лет чувствовали себя обманутыми Google, враждебно относятся к быстрой коммерциализации сервисов ИИ. Сообщается, что в следующем году доход OpenAI может составить более $1 млрд.
Если слишком много сайтов заблокируют краулеры, разработчикам будет сложнее улучшать свои продукты. Originality.AI обнаружил: из 1 тыс. крупнейших сайтов число тех, что заблокировали GPTBot, увеличивается примерно на 5% еженедельно.
Фото на обложке: Gil C /
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
-
Пройти курс «Выбор системы налогообложения»
- 1 Маску отказали официально: совет директоров OpenAI единогласно отклонил предложение о покупке
- 2 Adobe выпустила ИИ-генератор видео для конкуренции с OpenAI
- 3 Reuters: OpenAI завершит разработку своего первого ИИ-чипа в 2025 году
- 4 Илон Маск предложил купить OpenAI за почти $100 млрд