Top.Mail.Ru
Новости

«Сбер» создал нейросеть ruDALL-E, она генерирует картинки по описанию на русском языке

Новости
Анастасия Марьина
Анастасия Марьина

Глава отдела новостей RB.RU

Анастасия Марьина

«Сбер» сообщил, что создал первую в мире нейронную сеть, которая может генерировать изображения на основе текстового описания на русском языке. Она называется ruDALL-E.

«Сбер» создал нейросеть ruDALL-E, она генерирует картинки по описанию на русском языке

Использовать нейросеть предлагается для создания дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна, говорится в сообщении «Сбера».

Попробовать ruDALL-E уже можно на ее сайте.

Изображение на основе нейросети

Нейросеть одновременно обучается на картинках и текстах и позволяет создавать неограниченное число новых изображений по заданному описанию. Модель существует в двух вариантах: 

  • ruDALL-E XL — содержит 1,3 млрд параметров;
  • ruDALL-E 12B — 12 млрд параметров.

Модель ruDALL-E XL доступна бесплатно, ее можно загрузить с сервиса Github. Обе модели в ближайшее время будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

Как ruDALL-E создает изображения:

Создание изображений при помощи технологии происходит в три этапа.

  • Первая нейросеть принимает текст на вход и генерирует заданное число картинок.
  • Вторая выбирает наиболее удачные из них и те, которые больше всего соответствуют описанию.
  • Третья увеличивает картинки в размере без потери качества. Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики.

Архитектура модели DALL-E для английского языка была впервые представлена OpenAI в 2021 году, однако она так и не была полностью выложена в открытый доступ. На основе публикации OpenAI команды SberDevices и Sber AI при помощи SberCloud воспроизвели код и начали обучать нейросеть на платформе ML Space на базе суперкомпьютера Кристофари. Таким образом получился аналогичный результат для русского языка.

Изображение на основе нейросети

Обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар текст-изображение. Проект по обучению ruDALL-E, как сообщается, стал самым крупным нейросетевым вычислительным проектом в России и СНГ.

Подписывайтесь на наш TG-канал, чтобы быть в курсе всех новостей и событий!

Фото на обложке: Unsplash

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Битва нейросетей: Midjourney, DALL-E, Kandinsky и «Шедеврум»
  2. 2 Добро и бизнес: как универсальный дизайн помогает завоевывать клиентов и делает комфортной жизнь людей с ОВЗ
  3. 3 Как управлять клиентским опытом в ритейле: разбираемся на примере «Дикси» и «Магнит у дома»
  4. 4 Какой корпоративный дизайн выбрать, чтобы подчеркнуть достижения компании: сквиркл-, гласс- или неоморфизм
  5. 5 Советы бизнесу: как сформулировать задачу для дизайнера, чтобы получить качественный результат
ArtTech — карта разработчиков арт-технологий
Все игроки российского рынка технологий для искусства
Перейти