Истории / Искусственный интеллект

Работы DALL-E — искусство или плагиат?

Алгоритмы не могут творить без произведений, созданных человеком

03 августа 2022, 12:03

10 минут

Искусственный интеллект

Технологии

Автор:

Елена Лиханова

Когда-то художники спорили, можно ли считать искусством произведения, созданные промышленным способом — например, банки из-под супа Энди Уорхолла или «Фонтан» Марселя Дюшана.

Сегодня DALL-E и прочие системы генеративного ИИ предлагают изображения, которые сопоставимы со старыми мастерами если не по замыслу, то по технике. Но зачастую эти системы обучаются на контенте, созданном людьми и взятом из сети.

В материале — о творческих и юридических вопросах, которые поднимает технология.

Новый рубеж

Самый известный генеративный искусственный интеллект (Generative Artificial Intelligences, GAI) на данный момент — DALL-E 2, система Open AI для создания «реалистичных изображений и рисунков на основе описания на естественном языке».

Пользователь может ввести фразу «плюшевые мишки покупают продукты в стиле укиё-э», и модель представит несколько соответствующих изображений. Точно так же можно попросить, чтобы мишки делали покупки в Древнем Египте, и изображения будут больше похожи на диорамы из музея, изображающие жизнь эпохи фараонов.

Для нетренированного глаза некоторые из картинок будут выглядеть вполне достоверно, несмотря на то, что технология все еще находится на относительно ранней стадии.

23 августа 2022 года в Москве RB.RU проведет Speed Dating, на котором стартапы, создающие продукты и сервисы в области креативных индустрий, лично презентуют свои проекты инвесторам. Участвовать.

Недавно Open AI объявила, что в рамках масштабного бета-теста откроет DALL-E 2 для 1 млн пользователей. В течение первого месяца можно будет бесплатно сгенерировать 50 изображений, и каждый последующий месяц — еще 15.

Дополнительный пакет из 115 изображений обойдется в $15, по мере развития продукта компания обещает представить более детальное ценообразование.

Важнее всего, что пользователи смогут зарабатывать на изображениях, разрешая их печать, продажу или иным образом лицензируя контент, созданный на основе их описания.

Два изображения медведей в разных стилях, созданные DALL-E 2. Фото в тексте: Open AI

Однако эти системы не могут работать в вакууме: каждый GAI необходимо обучать. В конце концов, ИИ — это красивый термин, обозначающий по сути способ объяснить программе, как распознавать шаблоны.

Бен Хагаг, руководитель отдела исследований ИИ-стартапа Darrow, объясняет: «Мы говорим системе: "Взгляни на этот набор данных и найди закономерности", и затем она формирует целостное представление о имеющихся данных. Модель учится так же, как ребенок».

Поэтому, если ребенок посмотрит тысячу фотографий пейзажей, он скоро поймет, что небо, обычно находящееся в верхней части изображения, будет голубым, а земля — зеленой.

В качестве примера Хагаг рассказывает, как Google построил свою языковую модель, обучая систему на нескольких гигабайтах текста, от словаря до примеров написанного слова.

«Модель понимала закономерности, как строится язык, синтаксис и скрытую структуру, которую трудно определить даже лингвистам», — говорит Хагаг. Теперь модель настолько сложна, что «как только вы вводите несколько слов, она может предсказать, что вы собираетесь написать дальше».

Читайте по теме:

«Сбер» создал нейросеть ruDALL-E, она генерирует картинки по описанию на русском языке

Как развивалась дискуссия вокруг сознания нейросети Google

В 2018 году Аджит Варма из Google рассказал The Wall Street Journal, что его функция интеллектуального ответа была протестирована на «миллиардах сообщений Gmail», добавив, что в первоначальных тестах предлагались такие варианты, как «Я люблю тебя» и «Отправлено с моего iPhone», поскольку они так часто встречаются в сообщениях.

Разработчикам, у которых нет доступа к такому обширному датасету, как у Google, необходимо искать данные другими способами.

«Каждый исследователь, разрабатывающий языковую модель, сначала загружает "Википедию", а затем добавляет что-то еще», — говорит Хагаг.

Он добавляет, что в модель, вероятно, добавят все доступные данные, которые смогут найти. Для обучения алгоритма может быть использовано что угодно — от развязного твита, отправленного несколько лет назад, до искреннего поста в Facebook*.

Гуань Ван, технический директор Huski, говорит, что это очень распространенная практика: большинство моделей ИИ учатся на открытых данных, и большинство исследователей стремятся загрузить в нее максимум примеров.

«Когда мы ищем речевые данные, мы берем любую речь, которую сможем получить», — добавляет Гуань Ван, технический директор Huski.

Известно, что эта политика дает далеко не идеальные результаты, и здесь Бен Хагаг цитирует Райли Ньюмана, бывшего руководителя отдела обработки данных Airbnb, который сказал, что «хорошие данные лучше, чем много данных». Однако чаще «легче получить больше данных» и почистить их.

Теперь DALL-E доступен миллиону пользователей, но вполне вероятно, что ранее они уже сталкивались с его менее продвинутым аналогом. Craiyon, ранее DALL-E Mini, — детище французского разработчика Бориса Даймы, который начал работу над своей моделью после прочтения оригинальной статьи Open AI о DALL-E.

Вскоре после этого Google и сообщество разработчиков ИИ HuggingFace провели хакатон, на котором создавали простые модели машинного обучения. Тогда он предложил повторить DALL-E.

Команда выиграла соревнование, хотя и предложила примитивную версию. В отличие от полноразмерного DALL-E, его команда сосредоточилась на уменьшении модели, чтобы она могла работать на сравнительно маломощном оборудовании.

Оригинальная модель Даймы не скрывала, какие датасеты использовала, и это зачастую создавало проблемы.

«В ранних моделях и некоторых из существующих вы просите картинку — например, горы в снегу, — и видите на ней водяной знак Shutterstock или Alamy», — говорит он. С этим сталкиваются многие исследователи ИИ, поскольку GAI обучаются работе на общедоступных библиотеках изображений, которые имеют защиту от пиратов.

Во время обучения модель пришла к ошибочному выводу: пейзажи высокого качества обычно имеют водяной знак одного из публичных фотостоков. После в нее внесли правки. Дайма добавляет, что некоторые ранние результаты были «небезопасны для просмотра на работе», и из-за этого датасет для обучения также пришлось скорректировать.

Но не только он заметил, что на произведениях ИИ регулярно появляются водяные знаки фотостоков. Неужели люди просто используют общедоступную библиотеку, чтобы обучить свои алгоритмы? Похоже, что одна из причин — сам Google, который проиндексировал целый ряд изображений Shutterstock с водяными знаками в рамках проекта Conceptual Captions.

Shutterstock отказался прокомментировать эту практику. Представитель Google заявил, что в компании не считают это проблемой. Он также сослался на отчет Creative Commons, в котором говорится, что «использование произведений для обучения ИИ по умолчанию должно рассматриваться как не нарушающее авторских прав, при условии, что доступ к произведениям, защищенным авторским правом, был законным на момент ввода».

При этом сам Shutterstock прямо запрещает посетителям своего сайта использовать «любой интеллектуальный анализ данных, роботов или аналогичные методы сбора и извлечения данных и/или изображений в связи с сайтом или контентом Shutterstock».

ноутбук с Shutterstock, изображение фотостока

Фото в тексте: NEW HOPE / Shutterstock

Алекс Кардинелл, CEO стартапа Article Forge, работающего в области ИИ, говорит, что он не видит проблем с обучением моделей на текстах, защищенных авторским правом, «при условии, что сам материал был приобретен законно и модель не занимается плагиатом материала».

Дайма говорит, что в настоящее время сотни тысяч, если не миллионы людей ежедневно используют его систему. Чтобы возмещать расходы на хостинг и обработку, он размещает на сайте рекламу.

Автор признает, что недостаточно разбирается в законодательстве США об авторском праве, чтобы обсуждать влияние его собственной модели или других проектов в этой области. Это ситуация, с которой, возможно, сталкивается и Open AI, учитывая, что теперь он позволяет пользователям продавать изображения, созданные DALL-E.

Закон и искусство

Правовая ситуация не особенно ясна, особенно в США, где было несколько случаев, связанных с интеллектуальным анализом текста и данных (Text and Data Mining, TDM). В США TDM преимущественно подпадает под действие закона о добросовестном использовании, который разрешает различные формы копирования и сканирования в целях предоставления доступа. Тем не менее, это не устоявшаяся практика.

Есть достаточно прецедентный случай — иск Гильдии авторов против Google (2015). Тогда орган, представляющий интересы авторов, обвинил Google в оцифровке печатных работ, которые все еще охранялись авторским правом.

Первоначально Google планировал в партнерстве с несколькими библиотеками создать базу данных текстов, чтобы облегчить исследования. Однако авторов беспокоило, что компания нарушает авторские права: они полагали, что даже если она не делает текст произведения общедоступным, Google не может сканировать и хранить произведения.

В конце концов суд вынес решение в пользу Google, заявив, что оцифровка работ, защищенных авторским правом, не является нарушением авторских прав.

Рахул Теланг — профессор информационных систем Университета Карнеги-Меллон и эксперт в области оцифровки и авторского права. По его мнению, случай с Google Книгами создает «своего рода прецедент», но недостаточно весомый.

Вероятнее всего, считает он, в подобных случаях суды будут применять обычные тесты на нарушение авторских прав. В интересах стран не ограничивать TDM, где это возможно, чтобы стимулировать внутренние исследования в области ИИ.

Управление по авторским правам США заявляет, что оно зарегистрирует «оригинальное авторское произведение при условии, что оно было создано человеком». Это связано со старым прецедентом, согласно которому единственное, что заслуживает авторского права, — это «плоды интеллектуального труда», созданные «творческими силами разума».

Читайте по теме:

Созданная российскими разработчиками нейросеть написала музыку городов

Как расследовать аварии с участием роботов и почему это важно делать

В 1991 году этот принцип был подтвержден случаем кражи списков из одной телефонной компании другой. Верховный суд США постановил, что, хотя на составление книги и были затрачены усилия, содержащаяся в ней информация не является оригинальной работой, созданной человеком, и поэтому не может быть защищена авторским правом.

Будет интересно посмотреть, возникают ли какие-либо проблемы у пользователей, пытающихся лицензировать или продавать работу DALL-E именно по этой причине.

Роб Холмс — частный детектив, который работает по вопросам нарушения авторских прав и товарных знаков со многими крупными технологическими компаниями и модными брендами. Он считает, что игроки в отрасли не торопятся инициировать иск, который решил бы проблему TDM и авторского права: это слишком дорого.

Однако бренды действуют быстро, если существует непосредственный риск для прибыли. Например, дизайнерский бренд Hermés судится с художником по имени Мейсон Ротшильд, который продюсирует MetaBirkins NFT. Эти стилизованные изображения по дизайну напоминают знаменитую сумочку Birkin от Hermés, и французский модный дом называет их подделкой.

Вероятно, это тоже будет иметь последствия для отрасли, поскольку речь идет о достаточно философском вопросе — какую работу считать достаточно трансформированной, чтобы избежать обвинений в пиратстве.

Обучен на ваших данных

ИИ уже используется на практике.

Microsoft, например, сотрудничала с OpenAI, чтобы использовать GPT-3 для написания кода. В 2021 году компания объявила, что интегрирует систему в свою low-code платформу разработки, чтобы помочь людям создавать приложения и инструменты для продуктов Microsoft.
Duolingo использует систему для улучшения грамматики французского языка, в то время как такие приложения, как Flowrite, используют ее, чтобы упростить и ускорить написание сообщений в блогах и электронных писем.
Аналог DALL-E 2 Midjourney, который недавно открыл бета-версию, способен создавать впечатляющие иллюстрации. Пользователи, которые хотят генерировать больше изображений или использовать их в коммерческих целях, должны будут оплатить тариф в $10-50 в месяц.

Пока это не представляет проблему для Craiyon, поскольку сейчас он создает иллюстрации в низком разрешении.

«Люди спрашивают, почему модели плохо удаются лица, не понимая, что она одинаково хороша — или плоха — во всем», — говорит Дайма.

При этом он считает, что вне зависимости от качества, любой GAI должен уважать «применимые законы» и что он не должен использоваться для «вредных целей».

Искусственный интеллект — уже не просто игрушка или интересный исследовательский проект, поскольку он уже причинил много вреда. Так, Times писала, что сервис Clearview AI оказался не совсем надежным и из-за него по ошибке уже арестовали несколько человек. А дипфейки особенно полюбились мошенникам и используются, чтобы создавать контент для взрослых с лицами знаменитостей.

Читайте по теме:

Мошенники создали дипфейк Олега Тинькова для поддельной рекламы инвестиций

«Позвонил начальник, попросил помочь закрыть сделку»: как мошенники используют дипфейки

Естественно, возможность синтезировать любое изображение без необходимости обрабатывать его должна вызывать тревогу.

Конечно, Дюшан и Уорхол, возможно, расширили понимание искусства, но не уничтожили его. Было бы ошибкой предполагать, что автоматическая генерация изображений приведет к краху цивилизации.

Но какие последствия это означает для художников? Что, если не останутся без средств к существованию? Возможно, пора внедрять способ защиты материалов, чтобы не позволить перерабатывать их в мясорубке искусственного интеллекта.

* Meta и входящие в нее Facebook и Instagram признаны экстремистскими организациями, деятельность которых запрещена в РФ.

Источник.

Фото на обложке: Open AI

Подписаться на телеграм-канал