Крупнейшие сайты блокируют программы, которые собирают данные для обучения нейросетей
Среди них — New York Times, Reuters и CNN
Для обучения нейросетей разработчики используют информацию, собранную в интернете, в том числе ту, что защищена авторским правом. И поскольку это никак не регулируется, сайты решают проблему самостоятельно.
Многие идут на крайние меры: по данным детектора контента ИИ Originality.AI, почти 20% из 1 тыс. крупнейших в мире сайтов блокируют поисковых роботов, которые собирают данные для сервисов искусственного интеллекта.
В начале августа OpenAI представила краулер GPTBot и сообщила, что полученные с его помощью данные могут использоваться для улучшения ее будущих моделей. Компания пообещала, что не будет собирать платный контент, и поделилась инструкциями о том, как отключить краулера.
Вскоре крупные новостные сайты и сервисы, в том числе New York Times и Disney, начали блокировать GPTBot.
По данным Originality.AI, 22 августа краулер заблокировали 9,1% из 1 тыс. самых посещаемых в мире сайтов. К 29 августу их число выросло до 12%. Крупнейшими из них являются Amazon, Quora и Indeed.
Common Crawl Bot — еще один краулер, который регулярно собирает данные для сервисов ИИ — заблокировали 6,77% из 1 тыс. крупнейших сайтов.
Краулер или поисковый робот может получать информацию из любой страницы, но, в отличие от браузера, хранит материалы в базе данных, а не отображает их пользователю. Именно так работают поисковые системы, подобные Google.
Google и другие компании считают такой подход оправданным, хотя многие издатели и владельцы интеллектуальной собственности давно выступают против этого и даже подают в суд. Развитие больших языковых моделей вновь привлекло внимание к этому вопросу.
Некоторые издатели видели хоть какую-то выгоду в краулерах Google и других поисковиков, поскольку те привлекали пользователей на их сайты. Однако передача данных разработчикам ИИ пока не приносит издателям никакой пользы, и потому они более агрессивно блокируют эти программы.
Многие медиакомпании хотят делиться своими данными через платную лицензию, но переговоры об этом еще находятся на ранней стадии. Другие подают в суд на компании, создающие ИИ, которые могли использовать их данные без разрешения.
СМИ, которые последние 20 лет чувствовали себя обманутыми Google, враждебно относятся к быстрой коммерциализации сервисов ИИ. Сообщается, что в следующем году доход OpenAI может составить более $1 млрд.
Если слишком много сайтов заблокируют краулеры, разработчикам будет сложнее улучшать свои продукты. Originality.AI обнаружил: из 1 тыс. крупнейших сайтов число тех, что заблокировали GPTBot, увеличивается примерно на 5% еженедельно.
Фото на обложке: Gil C /
-
Партнёрский материал Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 16 июня 2026, 15:52
-
Бизнес Музыкальный бизнес в России в 2026-м: как ИИ и новые законы меняют рынок 19 июня 2026, 18:30
-
Личное Дарио Амодеи. Как обыграть OpenAI и создать самый дорогой ИИ-стартап в мире 16 июня 2026, 12:05
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Бизнес Как бренд пазлов «Харди Гарди» получил рекламу у блогера-миллионника, просто рассказав о своём проекте 05 июня 2026, 14:23
-
Деньги Онлайн-инкассация: как превратить наличную выручку в рабочий капитал 01 июня 2026, 10:00
-
Технологии Прощание с эпохой Кука и ставка на агентов: конференция Apple WWDC 2026 12 июня 2026, 15:35
-
Технологии В работе Claude произошёл сбой 23 июня — пользователи по всему миру жалуются на недоступность нейросети 23 июня 2026, 19:26
-
Россия «Почта России» сможет принимать заявления россиян на госуслуги — законопроект уже одобрен комитетом Госдумы 23 июня 2026, 17:30
-
Технологии «Моторика» привлекла 1 млрд ₽ льготного финансирования — средства направят на развитие нейротехнологий 23 июня 2026, 16:40
-
Бизнес Налоговые долги бизнеса и граждан достигли 4 трлн ₽: главные причины — дорогие кредиты и рост НДС 23 июня 2026, 15:30
-
Россия Госдума ввела ипотечные каникулы для семей с двумя детьми — заёмщики смогут приостановить выплаты на 18 месяцев 23 июня 2026, 19:47
-
Маркетплейсы Wildberries может купить «Еаптеку» осенью 2026 года — тогда маркетплейс обгонит Ozon и «Яндекс» на фармрынке 23 июня 2026, 19:13
-
Искусственный интеллект VK, «Яндекс» и «Авито Реклама» выступят на конференции «AdIndex Сити»: главная тема — влияние ИИ 22 июня 2026, 14:49
-
На регате Digital Club встретятся представители бизнеса — среди них «Аэрофлот», ВТБ и Ozon Банк 22 июня 2026, 16:12