Новости

Meta* представила новую генеративную ИИ-модель CM3leon

Новости
Екатерина Алипова
Екатерина Алипова

Редактор выходного дня RB.RU

Екатерина Алипова

Компания Meta* в продолжение своих исследований возможностей генеративных моделей ИИ представила последнюю разработку — мультимодальную модель для преобразования текста в изображение и наоборот — под названием CM3leon (произносится близко к слову «хамелеон»).

Meta* представила новую генеративную ИИ-модель CM3leon

Аналог популярных инструментов Stable Diffusion, DALL-E и Midjourney, «новичок» CM3leon, по словам разработчиков, достигает лучших результатов за счет использования «авторегрессионной модели на основе токенов» взамен более распространенной сейчас диффузионной модели, пишет VentureBeat.

«Диффузионные модели в последнее время доминируют в работе по генерации изображений из-за их высокой производительности и относительно скромных вычислительных затрат, – говорится в исследовании Meta* research. – Но авторегрессионные модели на основе токенов также дают хорошие результаты, хотя их намного дороже обучать и использовать для вывода».

«CM3leon достигает высочайшей производительности при преобразовании текста в изображение, несмотря на то, что на его обучение затрачивается в пять раз меньше вычислительных ресурсов, чем на предыдущие методы», – написано в блоге.

Основная схема работы CM3leon в чем-то похожа на то, как работают существующие модели генерации текста. Но в процессе разработки представители Meta* уделили особое внимание юридическим вопросам: «Этические последствия поиска данных изображений в области преобразования текста в изображение были предметом значительных дебатов».

В результате на этапе тестирования в CM3leon использовались только лицензированные изображения с Shutterstock. Сейчас — после предварительной подготовки — разработка проходит этап «контролируемой тонкой настройки» (SFT, который использует также OpenAI для обучения ChatGPT).

По утверждению исследователей Meta, этот подход дает «высокооптимизированные результаты» (как с точки зрения использования ресурсов, так и качества изображения). Программа учится пониманию даже самых сложных подсказок, что полезно для генеративных задач. В ответ на многоступенчатые запросы генерируются высококачественные и релевантные изображения с высоким разрешением.

«Мы обнаружили, что настройка инструкций заметно повышает производительность мультимодальной модели в различных задачах, таких как генерация подписи к изображению, визуальный ответ на вопрос, редактирование текста на основе и условная генерация изображений», – пишут разработчики.

Пока что CM3leon все еще тестируется, и нет информации, Meta* сделает эту технологию общедоступной, но, если это произойдет, весьма вероятно, что с учетом мощности и эффективности модели компания захочет монетизировать разработку.

* Признана экстремистской и запрещена в РФ

Фото на обложке: Unsplash

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Все, что вы хотели знать про судьбоносный для Generative AI судебный иск
  2. 2 Что будет с поисковыми системами через 5 лет и как seo-специалистам справиться с переменами
  3. 3 Искусственный интеллект vs SEO: кто кого?
  4. 4 Нейросеть ChatGPT: новый бесплатный чат-бот с искусственным интеллектом
  5. 5 Лучшие изобретения по версии Time — и другие новости технологий, меняющих мир
FutureFood
Кто производит «альтернативную» еду
Карта