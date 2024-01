За последнее время нам пришлось привыкнуть к тому, что материалы The New York Times предвзяты, полны домыслов, абсурда и выдуманных фактов. Мнением в Facebook*-посте поделился израильский AI-стратег Микаэл Горский. RB.ru публикует этот текст полностью.

«Великая жалоба» (The New York Times против Microsoft и OpenAI), поданная 27 декабря 2023 года, такая же: она построена на искажении фактов, сомнительной аргументации и ложных допущениях. Против ответчиков выдвинуто семь обвинений:

Обвинение I: Нарушение авторских прав (17 U.S.C. § 501) - В этом обвинении утверждается, что ответчики непосредственно нарушили авторские права The New York Times, используя контент New York Times в обучении больших языковых моделей (LLM) и их работе, создавая генеративные результаты, которые включают копии и производные от работ New York Times. Жалоба утверждает, что это нарушает исключительные права The New York Times по закону об авторских правах.

Обвинение II: Косвенное нарушение авторских прав - The New York Times утверждает, что Microsoft контролировала, направляла и извлекала выгоду из нарушения, совершенного OpenAI. Утверждается, что Microsoft предоставила необходимую инфраструктуру и получила прибыль, включив GPT в свои продукты.

Обвинение III: Содействие нарушению авторских прав (против Microsoft) - Это обвинение сосредоточено на роли Microsoft в нарушении. В нем утверждается, что Microsoft существенно способствовала и помогала в нарушении, предоставив вычислительную инфраструктуру и ресурсы, необходимые для работы GPT.

Обвинение IV: Содействие нарушению авторских прав (против всех ответчиков) - Это обвинение является альтернативным иску к Обвинению III и утверждает, что все ответчики существенно способствовали и помогали прямому нарушению авторских прав New York Times конечными пользователями продуктов на основе GPT.

Обвинение V: Digital Millennium Copyright Act – Удаление информации об управлении авторскими правами (17 U.S.C. § 1202) - New York Times утверждает, что ответчики удалили информацию о авторских правах из материалов New York Times в нарушение DMCA. Это обвинение сосредоточено на действиях ответчиков по удалению или изменению уведомлений об авторских правах The New York Times и другой идентифицирующей информации из их работ.

Обвинение VI: Нечестная конкуренция по общему праву путем присвоения - В этом обвинении утверждается, что ответчики занимались несправедливым соперничеством, присваивая контент New York Times. The New York Times утверждает, что она инвестирует значительные ресурсы в создание своего контента, и использование этого контента ответчиками без разрешения равносильно бесплатному использованию усилий и инвестиций The New York Times.

Обвинение VII: “Разбавление” товарного знака (15 U.S.C. § 1125(c)) - The New York Times утверждает, что несанкционированное использование ее товарных знаков ответчиками в связи с контентом низкого качества и неточным, созданным ИИ, “разбавляет” качество товарных знаков The New York Times. В этом обвинении утверждается, что такие действия порочат репутацию The New York Times в точности, оригинальности и качестве, вызывая экономические потери.

Для подтверждения этих обвинений юристы NYT написали 44 страницы текста, скомпилированного из статей Википедии и тщательно подобранными «доказательствами»: текстами и скриншотами ChatGPT.

Я просмотрел каждый скриншот и каждый текст в иске NYT, и хочу сказать, что 99% этого материала либо не относится к делу, либо представляет из себя результаты работы прошлых версий GPT. Авторы иска сделали «великое открытие» - LLM могут галлюцинировать - но они не смогли заставить GPT-4 генерировать нужные им галлюцинации и использовали скриншоты двухлетней давности. Они сами попросили GPT-3 образца 2022 года сгенерировать текст в стиле New York Times, получили результат и представили его как доказательство злонамеренного поведения OpenAI.

И логика и формулировки иска NYT крайне неопределенны, чем не отличаются от их освещения текущих мировых событий. Смехотворные «открытия» и неумная аргументация служат обоснованием набора невероятных требований:

Требование I. Присудить The New York Times возмещение всех понесенных или утвержденных убытков во всех мыслимых формах, форматах и стилях, разрешенных законом или справедливостью.

Требование II. Навсегда запретить ответчикам незаконное, несправедливое и нарушающее права поведение, изложенное в иске.

Требование III. Уничтожить все модели GPT или другие модели LLM и учебные datasets, в которые входят материалы New York Times.

Милая деталь: 99% языковых моделей (LLM) в мире обучены на бесплатном dataset под названием «Common Crawl», и этот dataset включает в себя архивы New York Times. Так что NYT фактически просит суд уничтожить все LLM в мире.

Бонус-трек. Зато теперь мы знаем, сколько компаний у OpenAI, — они перечислены в иске. Мега-запутанная юридическая структура столь же невнятная, сколь и продемонстрированные недавно всему миру стандарты корпоративного управления. OpenAI, Inc., OpenAI LP, OpenAI GP LLC, OpenAI LLC, OpenAI OpCo LLC, OpenAI Global LLC, OAI Corporation, LLC, OpenAI Holdings, LLC.

Вчера в блоге OpenAI появился красиво и умно написанный пост, построенный как ответ на судебную жалобу The New York Times. Вот резюме от ChatGPT+, переведенное Google Translate:

Мы в OpenAI стремимся разрабатывать инструменты искусственного интеллекта, которые открывают новые возможности решения проблем. Наши технологии применяются во всем мире, наши продукты используют миллионы разработчиков и большинство компаний из списка Fortune 500.

Наш подход

В отношении сотрудничества с медиа: мы тесно сотрудничаем с новостными группами, чтобы создавать новые возможности, поддерживать репортеров и редакторов, а также внедрять наши модели искусственного интеллекта в более широкий спектр контента.

В отношении добросовестного использования авторских материалов и отказа от обучения моделей ИИ на части материалов. Мы верим в то, что использование публично доступных авторских материалов для обучения ИИ подпадает под разрешенное использование в рамках концепции Fair Use, но одновременно с этим мы предлагаем правообладателям возможность исключить их материалы из учебных datasets.

В отношении проблемы «выдачи авторских фрагментов» в наших ИИ-продуктах: эта редкая ошибка активно устраняется. Мы стремимся сократить непреднамеренное запоминание в наших моделях, чтобы сохранить целостность нашей технологии.

Полный контекст наших взаимоотношений с The New York Times: до недавнего времени мы вели активные переговоры с The New York Times, направленные на взаимовыгодное партнерство. Судебный иск стал для нас неожиданностью, но мы открыты для конструктивного сотрудничества.

Мы стремимся ответственно развивать искусственный интеллект, уделяя особое внимание сотрудничеству с медиа индустрией для повышения качества журналистики за счет преобразующего потенциала искусственного интеллекта.

〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️

Мой перевод юридических терминов и конструкций может быть неточным, да и в принципе невредно ознакомиться с источниками. Они — где всегда.

* принадлежит Meta — компании, признанной экстремистской и террористической на территории РФ

Фото на обложке: Unsplash