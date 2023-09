Крупнейшие разработчики генеративного ИИ из Кремниевой долины публикуют вакансии для поэтов, драматургов или писателей со степенью магистра или PhD. Десятки других набирают сотрудников для разметки с гуманитарным образованием или многолетним опытом работы в области литературы.

Списки не ограничиваются английским: некоторые ищут специально поэтов и писателей-фантастов на хинди и японском, а также тех, кто пишет на языках, менее представленных в интернете.

Подрядчикам предстоит писать короткие рассказы на заданную тему, которые будут использоваться в моделях ИИ. Кроме того, они будут предоставлять отзывы о литературном качестве сгенерированных текстов.

Эти списки иллюстрируют связь между впечатляющими возможностями генеративного ИИ и невидимой работой людей, стоящих за ним.

В ноябре 2022 года, когда был запущен ChatGPT, особенно впечатляюще выглядела способность чат-бота писать стихи на английском. Сейчас разработчики собирают образцы художественных произведений, благодаря которым он сможет создавать контент на других языках.

По словам Дэна Брауна, профессора Университета Ватерлоо, который исследует креативность вычислительных систем, эти инвестиции могут окупиться.

«Если вы можете правильно генерировать заголовки таблоидов на французском языке, это одно. Но если [продукт] может воспроизвести стиль Гюго или кого-то известного, это вызывает доверие другого рода», — говорит он.

Среди клиентов Scale AI и Appen есть крупнейшие игроки в области разработки искусственного интеллекта, включая OpenAI, Meta*, Google и Microsoft. Они пытаются занять лидирующие позиции в гонке за лидерство в перспективном направлении.

Конкуренция постоянно растет, и, как объясняет Браун, здесь невероятно важно преимущество первых компаний, которые занимают рынок до прихода новых игроков.

Представитель Appen заявил, что спрос на письменных подрядчиков значительно возрос с конца 2022 года, в том числе на языках, отличных от английского. «В данном случае креативные писатели обладают уникальным опытом, который позволяет нам разрабатывать высококачественные обучающие данные для создания креативного ИИ, такого как поэзия, тексты песен и написание повествований».

Представитель Scale AI отказался отвечать на какие-либо конкретные вопросы о том, как они набирают персонал. «В нашей работе всегда были и будут задействованы люди, поскольку это крайне важно для разработки ответственного, безопасного и точного искусственного интеллекта», — прокомментировал он.

Фото в тексте: Unsplash

Обучить ИИ создавать художественные тексты высокого качества — непростая задача. Многие крупные языковые модели не обучены быть креативными. Одним из критериев, используемых исследователями искусственного интеллекта для оценки креативности, является новизна — насколько текст, созданный моделью, отличается от того, что уже существует. Но такие инструменты, как ChatGPT, были созданы для имитации человеческого письма, а не для творчества.

«Они обучены воспроизводить. Они не созданы для того, чтобы быть великими, они стараются быть как можно ближе к тому, что существует», — объясняет Фабрицио Гоес, преподающий информатику в Университете Лестера.

Есть причина, по которой многие из первых статей от ИИ были футбольными обзорами и финансовыми новостями. Часто подобные тексты придерживаются единого формата и не требуют оригинальности. Между поэзию оценивают по ее способности удивительным образом создавать образы или вызывать определенное настроение.

«Когда люди [пишут стихи], им очень, очень трудно делать это хорошо, — сказал Браун, отметив, что большинство поэтов проходят через этапы редактирования и доработки, которым не обучены языковые модели. — Даже сейчас, после того, как началась революция больших языковых моделей, эти машины не предназначены создавать новое».

Например, ChatGPT трудно подражать структуре и ритму известных поэтов, пишущих на английском, особенно тех, что нарушают литературные нормы. Стихи американского поэта Уолта Уитмена отличаются необычными формами, а их структура не похожа на классическую поэзию. ChatGPT не мог повторить этот стиль и часто придерживался классических строф из четырех строк, даже если в инструкции было прямое указание этого не делать.

Еще сложнее с сочинением стихов на других языках. Согласно Гоесу, те же исследователи пытались имитировать распространенные польские стили поэзии. Ранее в этом году они пытались усовершенствовать модели для создания таких поэтических форм, как японские хайку и вака.

На сегодняшний день есть свидетельства того, что крупные разработчики ИИ обучают модели на материалах, которые легко собрать в набор данных. Среди них Project Gutenberg, база данных с открытым исходным кодом, содержащая десятки тысяч литературных произведений со статусом общественного достояния.

Некоторые исследователи также предполагают, что разработчики использовали Archive of Our Own (AO3), платформу, на которой размещено более 5 млн фанфиков. Недавно The Atlantic сообщила, что защищенные авторским правом произведения известных авторов, включая Стивена Кинга, Зейди Смит и Джорджа Сондерса, попали в популярный датасет LLM Books3.

Как и в большинстве баз, собранных с помощью интернета, большинство материалов здесь написаны на английском языке.

Клиенты Scale AI и Appen хорошо доплачивают креативным авторам, которые помогают восполнить этот пробел в литературном языке. Например, в Японии Scale AI платит сотруднику, работающему с данными, всего $13,98. Но опытный поэт, который пишет на японском, книжный редактор или креативный писатель могут получать до $50. Вероятно, это связано с требованием о наличии высшего образования.

Есть прецеденты, когда эти компании полагались на экспертов для работы с данными — будь то медики, комментирующие медицинские изображения, или бывшие военные, работающие над продуктами оборонной сферы.

Милагрос Мичели, исследователь из Исследовательского института распределенного искусственного интеллекта (DAIR), рассказывает, что тренд на использование профессионалов усилился только за последние 6 месяцев. Компании переходят от создания моделей с нуля к их точной настройке для конкретных приложений.

Требования к массовой разметке данных становятся более строгими.

«Сейчас недостаточно, чтобы кто-то просто говорил на этом языке, — говорит Мичелли. — Недостаточно быть его носителем. Нужно обладать очень широким словарным запасом и абсолютным знанием языка».

* Meta и входящие в нее Facebook и Instagram признаны экстремистскими организациями, деятельность которых запрещена в РФ.

Фото на обложке: Unsplash