Мнения / Искусственный интеллект

За кулисами Sora: как работает видеонейросеть от OpenAI

Sora не идеальна: она плохо генерирует текст, руки и длинные ролики

11 июня 2024, 13:27

5 минут

За кулисами Sora: как работает видеонейросеть от OpenAI

Искусственный интеллект

Технологии

Автор:

Сергей Дорожкин

Sora — это ИИ-модель, способная создавать реалистичные и фантастические сцены по текстовым инструкциям. Дата релиза официально не объявлена. Однако есть предположения, что нейросеть может стать доступной во второй половине 2024 года, а некоторые прогнозы указывают на возможный запуск до августа этого года. О том, что умеет Sora, а что нет, рассказал Сергей Дорожкин, директор департамента системной интеграции Ingate Group.

Что умеет Sora

Согласно официальной информации на сайте OpenAI, Sora может генерировать видео продолжительностью до одной минуты в соответствии с запросами пользователей.

Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движений и точными деталями объектов и фона. Модель понимает не только то, что запрашивает пользователь, но и как эти вещи существуют в физическом мире.

Промты могут включать не только текст, но и существующие изображения и видео. Дополнительная возможность — монтаж нескольких роликов через создание плавных переходов между видео с разными сюжетами и композициями.

По теме. OpenAI представила нейросеть для преобразования текста в видео

Почему с Chat GPT-4o релиз Sora может произойти раньше

Последовательность релизов Chat GPT и Sora, скорее всего, непосредственно связана. Как и в случае с другой генеративной сетью от OpenAI — Dall-E, будущая нейросеть будет тесно интегрирована и с Chat GPT, что позволит значительно улучшить качество создаваемого видео. В новой версии скорость работы нейросети Chat GPT заметно выросла, а это означает и более быструю обработку промптов, которая необходима для создания видеокадров.

О будущей гибкости Sora можно судить по Dall-E, интегрированной с Chat GPT. Пользователь может попросить нейросеть нарисовать кота, и она сразу это сделает. Затем можно попросить изменить цвет шерсти с рыжего на белый, и Dall-E мгновенно поймет запрос, используя предыдущую картинку для генерации новой.

Если нужно добавить определенную деталь на кота, то ИИ-модель так же оперативно внесет изменения, скорректировав изображение в соответствии с пожеланиями пользователей.

Эта гибкость в соответствии с запросами людей породила вирусные серии изображений, где пользователи пошагово модифицировали картинки, создавая целые истории. Несмотря на то что качество изображений может быть не самым высоким, подобных результатов практически невозможно достичь с помощью других нейросетей или это требуется больше усилий.

Каждый промпт в Dall-E преобразуется в сложную структуру, включающую физические модели взаимодействия с миром. Например, когда пользователь описывает человека, сидящего на стуле, учитываются свойства стула, вес человека и его влияние на стул. Обучение модели под взаимодействие с разными промптами позволяет создавать такие реалистичные изображения. Скорее всего, с Sora будет происходить нечто подобное.

Зачем Sora использует видео с Vimeo, YouTube и сайтов 18+

CTO OpenAI Мира Мурати подтвердила, что нейросеть будет обучаться на видео, которые сейчас находятся в общественном доступе. Однако она отказалась назвать конкретные видеосервисы или сайты.

Основная часть обучающей выборки любой нейросети — это контент веб-страниц и из книг. Содержание пользовательских диалогов с нейросетями учитывается в обучении не всегда и только для поддержания диалога.

Как известно, владельцы популярных сайтов уже вынуждены регулярно обращаться в OpenAI с целью запрета использования собственного контента для обучений моделей. New York Times даже обратилась в суд по этому поводу. В России Роскомнадзор разослал специальные рекомендации владельцам сетей связи о том, как закрыть сайты от OpenAI.

Очевидно, что Sora будет обучаться на видео, которые выложены на двух самых популярных видеосервисах — Vimeo и YouTube. Фокусироваться на небольших сайтах не имеет смысла из-за особенностей используемого видеоплеера в каждом отдельном случае.

Условия договоренностей OpenAI с видеосервисами, скорее всего, раскрывать не будут. И даже пользовательские соглашения видеосервисов с креаторами, которые монетизируют свой контент благодаря популярным платформам, будут содержать расплывчатые формулировки.

Порносайты также представляют интерес для обучения ИИ-моделей. И разработчику нейросети также нужно будет договариваться с владельцами таких сайтов. Контент для взрослых используется, чтобы нейросеть узнала, как выглядят фигуры людей без одежды в реалистичных пропорциях.

Как Sora будет фильтровать небезопасный контент

Для фильтрации нежелательного контента в Chat GPT существует несколько этапов. На первом уровне все промпты проходят автоматическую проверку на использование запрещенных ключевых слов и тематик. Если запрос нарушает политику использования нейросети, то в ответ приходит сообщение: Content violation, означающее, что такой запрос не может быть обработан.

На втором уровне анализируется сгенерированное изображение или видео, как будет в случае с Sora. Результат работы нейросети проходит через отдельный модуль, который анализирует каждое изображение. Затем включается фильтр контента. Если изображение попадает в категорию с возрастным ограничением 18+, то оно будет заблокировано, несмотря на то, что запрос изначально был безобидный.

По теме. 52% ответов ChatGPT по программированию неверны — исследование

Почему руки, текст и длинные ролики — вызов для Sora

Чем длиннее ролик, тем выше вероятность появления артефактов и тем больше время генерации. Технически ролики могут быть любой длины, но ограничение Sora в минуту логично. Нет смысла создавать десятиминутный ролик, у которого каждую минуту будут заметны несостыковки на уровне отдельных сцен и монтажных склеек.

Каждая новая сцена, каждый новый кадр — это риск появления артефактов. Более перспективный способ — сначала создавать короткие видео и потом самостоятельно их монтировать.

В видео, за исключением лучших кадров, на потоке возникнут проблемы с изображением и движением рук. Нейросети не понимают, как выглядят и как работают человеческие пальцы, как они захватывают предметы. Для них это просто набор пикселей. Нейросети будет сложно изобразить дружеское рукопожатие или руки, сложенные в замок.

Вот так нейросеть сейчас генерирует руки

Тексты внутри изображения — еще одно слабое место нейросетей. Причем это не зависит от языка. ИИ-модели воспринимают текст как картинку из линий или палочек, которые ничего не значат.

На основе видеопрезентации кадров, уже сгенерированных нейросетью, можно впечатлиться общим уровнем ее возможностей. По сравнению с другими существующим генеративными нейросетями, это пока что лучшее качество, которого удавалось достичь. При этом остаются нерешенными недостатки, характерные для изображений, сгенерированных с помощью ИИ. Отлично прорисованный передний план с заметными артефактами на заднем плане, которому ИИ-модели обычно уделяют меньше внимания.

Фото на обложке: Shutterstock

Подписаться на телеграм-канал