«Сбер» представил нейросеть Kandinsky Video — это генеративная модель для создания полноценных видеороликов по текстовому описанию. Об этом говорится в сообщении компании.
Модель способна сгенерировать видеоряд длительностью до восьми секунд с частотой 30 кадров в секунду. Разрешение видео составит 512 х 512 пикселей. Генерация займет до трех минут.
В архитектуре Kandinsky Video два ключевых блока: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, второй — за генерацию интерполяционных кадров, которые отвечают за плавность движений в готовом видео.
Сгенерированное видео — это непрерывная сцена с движением как объекта, так и фона. Это является ключевым отличием видеороликов, синтезированных Kandinsky Video, от анимационных видеороликов, в которых динамика достигается за счет моделирования пролета камеры относительно статичной сцены.
Работа Kandinsky Video
Модель обучена на датасете из более чем 300 тыс. пар «текст — видео». В основе двух блоков архитектуры Kandinsky Video — новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0.
«Сбер» представил Kandinsky 3.0 22 ноября. Компания усовершенствовала нейросеть: в сравнении с предыдущими версиями она лучше понимает текстовый запрос пользователя, умеет создавать более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами.
Работа Kandinsky 3.0
Изображения: «Сбер»
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- Пройти курс «Искусство переговоров»
- 1 билайн Big Data & AI разработал решение для отслеживания потенциальных случаев мошенничества со стороны персонала
- 2 Нобелевскую премию по физике присудили за исследования в области нейросетей
- 3 В «Яндекс Браузере» появился текстовый редактор на базе нейросети YandexGPT
- 4 Прячем, шифруем и маркируем: как разработчики защищают свои языковые модели от кражи