Как человечество пожертвовало свои знания ИИ
Он обучен на наших данных, взятых из сети
Случалось ли вам вести блог, создавать веб-страницу или болтать на форумах? Скорее всего, ваши слова были использованы для обучения чат-ботов. Это не только создает юридический казус, но и заставляет задуматься, как то, что мы оставили в сети, сформировало сегодняшний онлайн-мир.
Газета Washington Post изучила общедоступный набор данных, широко используемый для обучения алгоритмов, продемонстрировав, насколько современная индустрия ИИ полагается на 30-летний опыт интернет-публикаций.
Мы думали, что делимся своими сердцами и умами, и, конечно же, так оно и было. Но, сами того не осознавая, мы также создавали богатую, пусть и неполную, базу данных о человеческом самовыражении.
Поскольку такие визуальные инструменты, как Dall-E, Midjourney и Stable Diffusion, стали популярными еще до появления чат-ботов, создатели визуального контента — фотографы, иллюстраторы и художники — первыми осознали происходящее.
Читайте по теме:
Работы DALL-E — искусство или плагиат?
Netflix использовал ИИ для создания аниме и вызвал панику среди художников
Музыканты испытывают то же самое, наблюдая многочисленные копии своих работ, созданных ИИ, — как было с так и не состоявшейся на прошлой неделе коллаборацией Дрейка и The Weeknd.
Возможно, не все записывали песни или рисовали картинки, но большинство когда-нибудь писали что-то в интернете.
Проект Washington Post позволяет ввести любое доменное имя, чтобы узнать, использовалось ли оно в датасете для обучения ИИ и в какой степени. Отметим, что это не то же, что OpenAI использовала для ChatGPT, компания не раскрыла источники данных для обучения.
Команда Post выяснила, что набор данных содержал более полумиллиона личных блогов, что составляет 3,8% от общего количества токенов (отдельных языковых фрагментов) в данных. При этом публикации на проприетарных платформах социальных сетей, таких как Facebook*, Instagram и Twitter, не отображаются. Эти компании сохранили доступ к данным за собой.
Эти учебные базы данных огромны, но вряд ли репрезентативны. Некоторые культуры, группы и предметы представлены в выборке избыточно, а многие другие незаслуженно игнорируются. И все предубеждения, ограничения и токсичные аспекты интернет-культуры проявляются в данных обучения ИИ.
Найдя в списке свою работу, вы, вероятно, спросите себя: «Это то, чего я хотел?» и «Почему со мной не посоветовались?» и «Что, если бы я знал, что это произойдет?».
Потребность искусственного интеллекта в обучающих данных выставляет всю 30-летнюю историю популярного интернета в новом свете.
Сегодняшние прорывы в области ИИ не могли бы произойти без наличия цифровых хранилищ информации, идей и чувств, которые интернет побудил людей создавать.
Но мы создавали все это друг для друга, а не для обучения алгоритмов. С этой точки зрения появление этих массивов данных стало чрезвычайно важным побочным следствием возникновения интернета.
В 1995 году, когда одно поколение влюбилось в сеть и браузер, или десять лет спустя, когда другое поколение было увлечено блогами и «коллективной мудростью», этот результат не так бросался в глаза.
К началу 2010-х годов бурное развитие машинного обучения начала вызывать беспокойство у некоторых дальновидных экспертов. Но потребовалось очень пристальное внимание, чтобы понять, что вся сеть, возможно, вот-вот превратится в тренировочный материал для искусственного интеллекта.
Сегодня это непреднамеренное последствие занимает центральное место в нашем онлайн-опыте, напоминая нам о том, что все, что мы делаем прямо сейчас с искусственным интеллектом и для него, в свою очередь, будет формировать будущее так, как мы не можем предвидеть.
Например, если в общедоступных сетях появится множество имитаций, мы рискуем отбить у друг желание создавать собственные оригинальные работы и делиться ими. Это может привести к тому, что будущие модели искусственного интеллекта навсегда застрянут в 2000-2020 годах, и им не на чем будет учиться новому.
* Meta и входящие в нее Facebook и Instagram признаны экстремистскими организациями, деятельность которых запрещена в РФ.
Обложка и иллюстрация снегерированы нейросетью Midjourney
-
Партнёрский материал Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 16 июня 2026, 15:52
-
Бизнес Музыкальный бизнес в России в 2026-м: как ИИ и новые законы меняют рынок 19 июня 2026, 18:30
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Личное Дарио Амодеи. Как обыграть OpenAI и создать самый дорогой ИИ-стартап в мире 16 июня 2026, 12:05
-
Бизнес Отказ от завода и ставка на интеллект: как Катерина Карпова реанимировала PURE LOVE 02 марта 2026, 11:45
-
Технологии Что сдерживает модернизацию ЖКХ: итоги отраслевой дискуссии на ПМЭФ 09 июня 2026, 12:14
-
Бизнес Как бренд пазлов «Харди Гарди» получил рекламу у блогера-миллионника, просто рассказав о своём проекте 05 июня 2026, 14:23
-
Технологии Прощание с эпохой Кука и ставка на агентов: конференция Apple WWDC 2026 12 июня 2026, 15:35
-
Россия Сразу несколько приложений VK удалили из App Store — в российской компании назвали действия Apple «неприемлемыми» 25 июня 2026, 12:06
-
Деньги Илон Маск лишился статуса триллионера — всего за день акции SpaceX подешевели на 30% 25 июня 2026, 11:51
-
Бизнес Сеть «Му-му» закрыла половину кафе за четыре года — из 40 заведений осталось только 18 25 июня 2026, 11:26
-
Бизнес Российский производитель оптоволоконных кабелей «Инкаб» провёл IPO: компания привлекла более 2 млрд ₽ от инвесторов 24 июня 2026, 19:35
-
Бизнес «ВкусВилл» закроет все розничные магазины в Казахстане — товары бренда останутся на полках местных торговых сетей 24 июня 2026, 16:47
-
Ритейл Самокат обновил главную страницу приложения — пользователям стало проще искать нужные товары 24 июня 2026, 07:00
-
Технологии «Моторика» привлекла 1 млрд ₽ льготного финансирования — средства направят на развитие нейротехнологий 23 июня 2026, 16:40
-
Искусственный интеллект VK, «Яндекс» и «Авито Реклама» выступят на конференции «AdIndex Сити»: главная тема — влияние ИИ 22 июня 2026, 14:49
