Истории / Искусственный интеллект

Как человечество пожертвовало свои знания ИИ

Он обучен на наших данных, взятых из сети

26 апреля 2023, 07:00

3 минуты

Как человечество пожертвовало свои знания ИИ

Искусственный интеллект

Автор:

Елена Лиханова

Случалось ли вам вести блог, создавать веб-страницу или болтать на форумах? Скорее всего, ваши слова были использованы для обучения чат-ботов. Это не только создает юридический казус, но и заставляет задуматься, как то, что мы оставили в сети, сформировало сегодняшний онлайн-мир.

Газета Washington Post изучила общедоступный набор данных, широко используемый для обучения алгоритмов, продемонстрировав, насколько современная индустрия ИИ полагается на 30-летний опыт интернет-публикаций.

Мы думали, что делимся своими сердцами и умами, и, конечно же, так оно и было. Но, сами того не осознавая, мы также создавали богатую, пусть и неполную, базу данных о человеческом самовыражении.

Поскольку такие визуальные инструменты, как Dall-E, Midjourney и Stable Diffusion, стали популярными еще до появления чат-ботов, создатели визуального контента — фотографы, иллюстраторы и художники — первыми осознали происходящее.

Читайте по теме:

Работы DALL-E — искусство или плагиат?

Netflix использовал ИИ для создания аниме и вызвал панику среди художников

Музыканты испытывают то же самое, наблюдая многочисленные копии своих работ, созданных ИИ, — как было с так и не состоявшейся на прошлой неделе коллаборацией Дрейка и The Weeknd.

Возможно, не все записывали песни или рисовали картинки, но большинство когда-нибудь писали что-то в интернете.

Проект Washington Post позволяет ввести любое доменное имя, чтобы узнать, использовалось ли оно в датасете для обучения ИИ и в какой степени. Отметим, что это не то же, что OpenAI использовала для ChatGPT, компания не раскрыла источники данных для обучения.

Команда Post выяснила, что набор данных содержал более полумиллиона личных блогов, что составляет 3,8% от общего количества токенов (отдельных языковых фрагментов) в данных. При этом публикации на проприетарных платформах социальных сетей, таких как Facebook*, Instagram и Twitter, не отображаются. Эти компании сохранили доступ к данным за собой.

Эти учебные базы данных огромны, но вряд ли репрезентативны. Некоторые культуры, группы и предметы представлены в выборке избыточно, а многие другие незаслуженно игнорируются. И все предубеждения, ограничения и токсичные аспекты интернет-культуры проявляются в данных обучения ИИ.

Найдя в списке свою работу, вы, вероятно, спросите себя: «Это то, чего я хотел?» и «Почему со мной не посоветовались?» и «Что, если бы я знал, что это произойдет?».

Потребность искусственного интеллекта в обучающих данных выставляет всю 30-летнюю историю популярного интернета в новом свете.

Сегодняшние прорывы в области ИИ не могли бы произойти без наличия цифровых хранилищ информации, идей и чувств, которые интернет побудил людей создавать.

Но мы создавали все это друг для друга, а не для обучения алгоритмов. С этой точки зрения появление этих массивов данных стало чрезвычайно важным побочным следствием возникновения интернета.

В 1995 году, когда одно поколение влюбилось в сеть и браузер, или десять лет спустя, когда другое поколение было увлечено блогами и «коллективной мудростью», этот результат не так бросался в глаза.

изображение двух роботов, противостояние чат-ботов, будущее интернета

К началу 2010-х годов бурное развитие машинного обучения начала вызывать беспокойство у некоторых дальновидных экспертов. Но потребовалось очень пристальное внимание, чтобы понять, что вся сеть, возможно, вот-вот превратится в тренировочный материал для искусственного интеллекта.

Сегодня это непреднамеренное последствие занимает центральное место в нашем онлайн-опыте, напоминая нам о том, что все, что мы делаем прямо сейчас с искусственным интеллектом и для него, в свою очередь, будет формировать будущее так, как мы не можем предвидеть.

Например, если в общедоступных сетях появится множество имитаций, мы рискуем отбить у друг желание создавать собственные оригинальные работы и делиться ими. Это может привести к тому, что будущие модели искусственного интеллекта навсегда застрянут в 2000-2020 годах, и им не на чем будет учиться новому.

* Meta и входящие в нее Facebook и Instagram признаны экстремистскими организациями, деятельность которых запрещена в РФ.

Источник.

Обложка и иллюстрация снегерированы нейросетью Midjourney

Подписаться на телеграм-канал