Крупнейшие сайты блокируют программы, которые собирают данные для обучения нейросетей
Среди них — New York Times, Reuters и CNN
Для обучения нейросетей разработчики используют информацию, собранную в интернете, в том числе ту, что защищена авторским правом. И поскольку это никак не регулируется, сайты решают проблему самостоятельно.
Многие идут на крайние меры: по данным детектора контента ИИ Originality.AI, почти 20% из 1 тыс. крупнейших в мире сайтов блокируют поисковых роботов, которые собирают данные для сервисов искусственного интеллекта.
В начале августа OpenAI представила краулер GPTBot и сообщила, что полученные с его помощью данные могут использоваться для улучшения ее будущих моделей. Компания пообещала, что не будет собирать платный контент, и поделилась инструкциями о том, как отключить краулера.
Вскоре крупные новостные сайты и сервисы, в том числе New York Times и Disney, начали блокировать GPTBot.
По данным Originality.AI, 22 августа краулер заблокировали 9,1% из 1 тыс. самых посещаемых в мире сайтов. К 29 августу их число выросло до 12%. Крупнейшими из них являются Amazon, Quora и Indeed.
Common Crawl Bot — еще один краулер, который регулярно собирает данные для сервисов ИИ — заблокировали 6,77% из 1 тыс. крупнейших сайтов.
Краулер или поисковый робот может получать информацию из любой страницы, но, в отличие от браузера, хранит материалы в базе данных, а не отображает их пользователю. Именно так работают поисковые системы, подобные Google.
Google и другие компании считают такой подход оправданным, хотя многие издатели и владельцы интеллектуальной собственности давно выступают против этого и даже подают в суд. Развитие больших языковых моделей вновь привлекло внимание к этому вопросу.
Некоторые издатели видели хоть какую-то выгоду в краулерах Google и других поисковиков, поскольку те привлекали пользователей на их сайты. Однако передача данных разработчикам ИИ пока не приносит издателям никакой пользы, и потому они более агрессивно блокируют эти программы.
Многие медиакомпании хотят делиться своими данными через платную лицензию, но переговоры об этом еще находятся на ранней стадии. Другие подают в суд на компании, создающие ИИ, которые могли использовать их данные без разрешения.
СМИ, которые последние 20 лет чувствовали себя обманутыми Google, враждебно относятся к быстрой коммерциализации сервисов ИИ. Сообщается, что в следующем году доход OpenAI может составить более $1 млрд.
Если слишком много сайтов заблокируют краулеры, разработчикам будет сложнее улучшать свои продукты. Originality.AI обнаружил: из 1 тыс. крупнейших сайтов число тех, что заблокировали GPTBot, увеличивается примерно на 5% еженедельно.
Фото на обложке: Gil C /
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Бизнес Анна Симакова: «В кризис выживают крупные структуры» 20 февраля 2026, 10:06
-
Бизнес «Точно розовый?»: как Eburet из табурета-трансформера вырос в B2B-бренд, который заходит на рынок в 50 млрд ₽ 11 февраля 2026, 19:48
-
Искусственный интеллект Экономика суверенитета: как финансовый сектор, промышленность и ретейл монетизируют новые технологии 28 апреля 2026, 17:00
-
Бизнес Анна Выборнова, клуб недвижимости «Движение»: «Через искренность получается хорошо устанавливать деловые связи» 18 февраля 2026, 16:00
-
Личное Евгений Касперский: «От пароля „123“ мы не спасаем. Но есть и хорошие новости» 04 февраля 2026, 12:35
-
Бизнес В I квартале 2026 года выручка X5 Group выросла до 62,4 млрд рублей — но чистая прибыль снизилась сразу на треть 29 апреля 2026, 21:00
-
Тренды Ритейлеры переходят на мини-формат магазинов — Lime, «Детский мир» и Sela уже тестируют новый формат офлайн-точек 29 апреля 2026, 20:30
-
Тренды В России появится «Индекс Цезаря» — с его помощью будут измерять популярность готовой еды среди россиян 29 апреля 2026, 19:44
-
Бизнес Впервые за 25 лет в России не открылось ни одной гостиницы — в 2026 году рынок сдерживают ставка и дефицит кадров 29 апреля 2026, 17:03
-
Бизнес Доходы российских авиакомпаний упали почти вдвое в 2025 году — сразу 14 перевозчиков получили убыток 29 апреля 2026, 15:50
-
Искусственный интеллект OpenAI не смогла выполнить цели по наращиванию продаж и аудитории — это отразилось на акциях партнёров стартапа 28 апреля 2026, 19:00
-
Банки В Москве проходит Альфа-Саммит — топ-менеджеры обсуждают ключевые вызовы бизнеса и экономики 28 апреля 2026, 10:00