Компания Meta* в продолжение своих исследований возможностей генеративных моделей ИИ представила последнюю разработку — мультимодальную модель для преобразования текста в изображение и наоборот — под названием CM3leon (произносится близко к слову «хамелеон»).
Аналог популярных инструментов Stable Diffusion, DALL-E и Midjourney, «новичок» CM3leon, по словам разработчиков, достигает лучших результатов за счет использования «авторегрессионной модели на основе токенов» взамен более распространенной сейчас диффузионной модели, пишет VentureBeat.
«Диффузионные модели в последнее время доминируют в работе по генерации изображений из-за их высокой производительности и относительно скромных вычислительных затрат, – говорится в исследовании Meta* research. – Но авторегрессионные модели на основе токенов также дают хорошие результаты, хотя их намного дороже обучать и использовать для вывода».
«CM3leon достигает высочайшей производительности при преобразовании текста в изображение, несмотря на то, что на его обучение затрачивается в пять раз меньше вычислительных ресурсов, чем на предыдущие методы», – написано в блоге.
Основная схема работы CM3leon в чем-то похожа на то, как работают существующие модели генерации текста. Но в процессе разработки представители Meta* уделили особое внимание юридическим вопросам: «Этические последствия поиска данных изображений в области преобразования текста в изображение были предметом значительных дебатов».
В результате на этапе тестирования в CM3leon использовались только лицензированные изображения с Shutterstock. Сейчас — после предварительной подготовки — разработка проходит этап «контролируемой тонкой настройки» (SFT, который использует также OpenAI для обучения ChatGPT).
По утверждению исследователей Meta, этот подход дает «высокооптимизированные результаты» (как с точки зрения использования ресурсов, так и качества изображения). Программа учится пониманию даже самых сложных подсказок, что полезно для генеративных задач. В ответ на многоступенчатые запросы генерируются высококачественные и релевантные изображения с высоким разрешением.
«Мы обнаружили, что настройка инструкций заметно повышает производительность мультимодальной модели в различных задачах, таких как генерация подписи к изображению, визуальный ответ на вопрос, редактирование текста на основе и условная генерация изображений», – пишут разработчики.
Пока что CM3leon все еще тестируется, и нет информации, Meta* сделает эту технологию общедоступной, но, если это произойдет, весьма вероятно, что с учетом мощности и эффективности модели компания захочет монетизировать разработку.
* Признана экстремистской и запрещена в РФ
Фото на обложке: Unsplash
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
-
Пройти курс «Интернет-маркетинг для малого бизнеса»
- 1 Meta* выплатит Трампу $25 млн в рамках иска о блокировке его аккаунтов
- 2 Богатейшие люди мира потеряли $108 млрд из-за китайской нейросети DeepSeek
- 3 Meta* позволит пользователям добавить WhatsApp в Центр аккаунтов
- 4 Трамп собрал рекордные $250 млн на церемонию инаугурации — ABC News