Как человечество пожертвовало свои знания ИИ
Он обучен на наших данных, взятых из сети
Случалось ли вам вести блог, создавать веб-страницу или болтать на форумах? Скорее всего, ваши слова были использованы для обучения чат-ботов. Это не только создает юридический казус, но и заставляет задуматься, как то, что мы оставили в сети, сформировало сегодняшний онлайн-мир.
Газета Washington Post изучила общедоступный набор данных, широко используемый для обучения алгоритмов, продемонстрировав, насколько современная индустрия ИИ полагается на 30-летний опыт интернет-публикаций.
Мы думали, что делимся своими сердцами и умами, и, конечно же, так оно и было. Но, сами того не осознавая, мы также создавали богатую, пусть и неполную, базу данных о человеческом самовыражении.
Поскольку такие визуальные инструменты, как Dall-E, Midjourney и Stable Diffusion, стали популярными еще до появления чат-ботов, создатели визуального контента — фотографы, иллюстраторы и художники — первыми осознали происходящее.
Читайте по теме:
Работы DALL-E — искусство или плагиат?
Netflix использовал ИИ для создания аниме и вызвал панику среди художников
Музыканты испытывают то же самое, наблюдая многочисленные копии своих работ, созданных ИИ, — как было с так и не состоявшейся на прошлой неделе коллаборацией Дрейка и The Weeknd.
Возможно, не все записывали песни или рисовали картинки, но большинство когда-нибудь писали что-то в интернете.
Проект Washington Post позволяет ввести любое доменное имя, чтобы узнать, использовалось ли оно в датасете для обучения ИИ и в какой степени. Отметим, что это не то же, что OpenAI использовала для ChatGPT, компания не раскрыла источники данных для обучения.
Команда Post выяснила, что набор данных содержал более полумиллиона личных блогов, что составляет 3,8% от общего количества токенов (отдельных языковых фрагментов) в данных. При этом публикации на проприетарных платформах социальных сетей, таких как Facebook*, Instagram и Twitter, не отображаются. Эти компании сохранили доступ к данным за собой.
Эти учебные базы данных огромны, но вряд ли репрезентативны. Некоторые культуры, группы и предметы представлены в выборке избыточно, а многие другие незаслуженно игнорируются. И все предубеждения, ограничения и токсичные аспекты интернет-культуры проявляются в данных обучения ИИ.
Найдя в списке свою работу, вы, вероятно, спросите себя: «Это то, чего я хотел?» и «Почему со мной не посоветовались?» и «Что, если бы я знал, что это произойдет?».
Потребность искусственного интеллекта в обучающих данных выставляет всю 30-летнюю историю популярного интернета в новом свете.
Сегодняшние прорывы в области ИИ не могли бы произойти без наличия цифровых хранилищ информации, идей и чувств, которые интернет побудил людей создавать.
Но мы создавали все это друг для друга, а не для обучения алгоритмов. С этой точки зрения появление этих массивов данных стало чрезвычайно важным побочным следствием возникновения интернета.
В 1995 году, когда одно поколение влюбилось в сеть и браузер, или десять лет спустя, когда другое поколение было увлечено блогами и «коллективной мудростью», этот результат не так бросался в глаза.
К началу 2010-х годов бурное развитие машинного обучения начала вызывать беспокойство у некоторых дальновидных экспертов. Но потребовалось очень пристальное внимание, чтобы понять, что вся сеть, возможно, вот-вот превратится в тренировочный материал для искусственного интеллекта.
Сегодня это непреднамеренное последствие занимает центральное место в нашем онлайн-опыте, напоминая нам о том, что все, что мы делаем прямо сейчас с искусственным интеллектом и для него, в свою очередь, будет формировать будущее так, как мы не можем предвидеть.
Например, если в общедоступных сетях появится множество имитаций, мы рискуем отбить у друг желание создавать собственные оригинальные работы и делиться ими. Это может привести к тому, что будущие модели искусственного интеллекта навсегда застрянут в 2000-2020 годах, и им не на чем будет учиться новому.
* Meta и входящие в нее Facebook и Instagram признаны экстремистскими организациями, деятельность которых запрещена в РФ.
Обложка и иллюстрация снегерированы нейросетью Midjourney
-
Партнёрский материал Как компании из Архангельска растут на терпении, связях и самоиронии 29 мая 2026, 14:33
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Банки Владимир Скворцов: «Наша задача — снизить страховые риски клиента и быстро выплатить, если что-то случится» 19 мая 2026, 16:00
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Личное Из фарцовщика в создателя дизайн-завода Flacon: как Николай Матушевский дважды бросал свой бизнес и начинал с нуля 05 мая 2026, 12:09
-
Личное «Успешным я стану, продав бизнес и уехав в Африку реабилитировать горилл». Интервью с ресторатором Денисом Бобковым 10 апреля 2026, 17:00
-
Технологии Александр Пьянов, «Яндекс Драйв»: «Мы готовы стать агрегатором для всего рынка каршеринга» 08 апреля 2026, 12:26
-
Деньги Онлайн-инкассация: как превратить наличную выручку в рабочий капитал 01 июня 2026, 10:00
-
Реклама Мессенджер от Wildberries, возвращение Volga и новые сделки в сфере ИИ: главные события первого дня ПМЭФ–2026 03 июня 2026, 21:00
-
Бизнес Яндекс Маркет запустил ленту коротких видео — продавцы смогут продвигать товары через ролики 03 июня 2026, 20:30
-
Бизнес Малый бизнес в России получил 2,5 балла из 5 по шкале цифровизации — сильнее всего отстаёт сельское хозяйство 03 июня 2026, 20:15
-
Технологии Сеченовский Университет и «Моторика» показали новый имплант — он восстановит зрение при дисфункции сетчатки 03 июня 2026, 20:00
-
Деньги «Яндекс» запустил страхование по подписке — теперь ОСАГО и каско можно оформить в приложении такси 03 июня 2026, 19:30
-
Банки ВТБ планирует получить лицензию на работу с криптовалютами — банк готов обслуживать и физических лиц, и бизнес 03 июня 2026, 19:15
-
Россия В Москве впервые пройдёт фестиваль Signal Factory — более 70 артистов выступят на территории завода «Кристалл» 03 июня 2026, 18:45
-
Россия Минпромторг может отложить внедрение технологического сбора на электронику — пошлину введут с 1 декабря 2026 года 03 июня 2026, 18:13
