Крупнейшие сайты блокируют программы, которые собирают данные для обучения нейросетей
Среди них — New York Times, Reuters и CNN
Для обучения нейросетей разработчики используют информацию, собранную в интернете, в том числе ту, что защищена авторским правом. И поскольку это никак не регулируется, сайты решают проблему самостоятельно.
Многие идут на крайние меры: по данным детектора контента ИИ Originality.AI, почти 20% из 1 тыс. крупнейших в мире сайтов блокируют поисковых роботов, которые собирают данные для сервисов искусственного интеллекта.
В начале августа OpenAI представила краулер GPTBot и сообщила, что полученные с его помощью данные могут использоваться для улучшения ее будущих моделей. Компания пообещала, что не будет собирать платный контент, и поделилась инструкциями о том, как отключить краулера.
Вскоре крупные новостные сайты и сервисы, в том числе New York Times и Disney, начали блокировать GPTBot.
По данным Originality.AI, 22 августа краулер заблокировали 9,1% из 1 тыс. самых посещаемых в мире сайтов. К 29 августу их число выросло до 12%. Крупнейшими из них являются Amazon, Quora и Indeed.
Common Crawl Bot — еще один краулер, который регулярно собирает данные для сервисов ИИ — заблокировали 6,77% из 1 тыс. крупнейших сайтов.
Краулер или поисковый робот может получать информацию из любой страницы, но, в отличие от браузера, хранит материалы в базе данных, а не отображает их пользователю. Именно так работают поисковые системы, подобные Google.
Google и другие компании считают такой подход оправданным, хотя многие издатели и владельцы интеллектуальной собственности давно выступают против этого и даже подают в суд. Развитие больших языковых моделей вновь привлекло внимание к этому вопросу.
Некоторые издатели видели хоть какую-то выгоду в краулерах Google и других поисковиков, поскольку те привлекали пользователей на их сайты. Однако передача данных разработчикам ИИ пока не приносит издателям никакой пользы, и потому они более агрессивно блокируют эти программы.
Многие медиакомпании хотят делиться своими данными через платную лицензию, но переговоры об этом еще находятся на ранней стадии. Другие подают в суд на компании, создающие ИИ, которые могли использовать их данные без разрешения.
СМИ, которые последние 20 лет чувствовали себя обманутыми Google, враждебно относятся к быстрой коммерциализации сервисов ИИ. Сообщается, что в следующем году доход OpenAI может составить более $1 млрд.
Если слишком много сайтов заблокируют краулеры, разработчикам будет сложнее улучшать свои продукты. Originality.AI обнаружил: из 1 тыс. крупнейших сайтов число тех, что заблокировали GPTBot, увеличивается примерно на 5% еженедельно.
Фото на обложке: Gil C /
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Искусственный интеллект Нам не нужен свой OpenAI: где России искать эффект от ИИ и что для этого делать 19 мая 2026, 11:00
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Банки Ирина Лебедева, Т2: «Ключевой принцип — без неприятных сюрпризов» 25 марта 2026, 09:14
-
Искусственный интеллект ИИ меняет структуру бизнеса: эксперты ЦИПР — о том, как менеджеры управляют командами из ИИ-агентов 22 мая 2026, 14:30
-
Бизнес OpenAI может подать документы на IPO уже 22 мая — компания рассчитывает выйти на биржу в сентябре 21 мая 2026, 13:45
-
Технологии Минпромторг может ввести требования по локализации дата-центров: аналитики предупреждают — появление ЦОД замедлится 21 мая 2026, 13:00
-
Искусственный интеллект IT-рынок без «единорогов», дефицит ЦОДов и постоянные разговоры об ИИ: чем запомнился ЦИПР в 2026 году 22 мая 2026, 23:30
-
Бизнес Киноиндустрия призвала проверить сделку Warner Bros. и Paramount — отрасль опасается монополизации рынка 22 мая 2026, 20:00
-
Бизнес КАМАЗ вернулся к пятидневной рабочей неделе: компания отменила сокращённый график из-за роста заказов 22 мая 2026, 16:49
-
Бизнес Количество товаров на Wildberries растёт быстрее спроса — доля селлеров с продажами упала с 20% до 14% за год 22 мая 2026, 16:15
-
Бизнес Т-Технологии опубликовали финансовый отчет за I квартал 2026 года — прибыль компании достигла 46,5 млрд ₽ 21 мая 2026, 18:15