За кулисами Sora: как работает видеонейросеть от OpenAI

Колонки 11 июня 2024

Сергей Дорожкин

Директор департамента системной интеграции Ingate Group

Елизавета Шатохина

Sora — это ИИ-модель, способная создавать реалистичные и фантастические сцены по текстовым инструкциям. Дата релиза официально не объявлена. Однако есть предположения, что нейросеть может стать доступной во второй половине 2024 года, а некоторые прогнозы указывают на возможный запуск до августа этого года. О том, что умеет Sora, а что нет, рассказал Сергей Дорожкин, директор департамента системной интеграции Ingate Group.

Подписаться на RB.RU в Telegram

Что умеет Sora

Согласно официальной информации на сайте OpenAI, Sora может генерировать видео продолжительностью до одной минуты в соответствии с запросами пользователей.

Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движений и точными деталями объектов и фона. Модель понимает не только то, что запрашивает пользователь, но и как эти вещи существуют в физическом мире.

Промты могут включать не только текст, но и существующие изображения и видео. Дополнительная возможность — монтаж нескольких роликов через создание плавных переходов между видео с разными сюжетами и композициями.

По теме. OpenAI представила нейросеть для преобразования текста в видео

Почему с Chat GPT-4o релиз Sora может произойти раньше

Последовательность релизов Chat GPT и Sora, скорее всего, непосредственно связана. Как и в случае с другой генеративной сетью от OpenAI — Dall-E, будущая нейросеть будет тесно интегрирована и с Chat GPT, что позволит значительно улучшить качество создаваемого видео. В новой версии скорость работы нейросети Chat GPT заметно выросла, а это означает и более быструю обработку промптов, которая необходима для создания видеокадров.

О будущей гибкости Sora можно судить по Dall-E, интегрированной с Chat GPT. Пользователь может попросить нейросеть нарисовать кота, и она сразу это сделает. Затем можно попросить изменить цвет шерсти с рыжего на белый, и Dall-E мгновенно поймет запрос, используя предыдущую картинку для генерации новой.

Если нужно добавить определенную деталь на кота, то ИИ-модель так же оперативно внесет изменения, скорректировав изображение в соответствии с пожеланиями пользователей.

Эта гибкость в соответствии с запросами людей породила вирусные серии изображений, где пользователи пошагово модифицировали картинки, создавая целые истории. Несмотря на то что качество изображений может быть не самым высоким, подобных результатов практически невозможно достичь с помощью других нейросетей или это требуется больше усилий.

Каждый промпт в Dall-E преобразуется в сложную структуру, включающую физические модели взаимодействия с миром. Например, когда пользователь описывает человека, сидящего на стуле, учитываются свойства стула, вес человека и его влияние на стул. Обучение модели под взаимодействие с разными промптами позволяет создавать такие реалистичные изображения. Скорее всего, с Sora будет происходить нечто подобное.

Зачем Sora использует видео с Vimeo, YouTube и сайтов 18+

CTO OpenAI Мира Мурати подтвердила, что нейросеть будет обучаться на видео, которые сейчас находятся в общественном доступе. Однако она отказалась назвать конкретные видеосервисы или сайты.

Основная часть обучающей выборки любой нейросети — это контент веб-страниц и из книг. Содержание пользовательских диалогов с нейросетями учитывается в обучении не всегда и только для поддержания диалога.

Как известно, владельцы популярных сайтов уже вынуждены регулярно обращаться в OpenAI с целью запрета использования собственного контента для обучений моделей. New York Times даже обратилась в суд по этому поводу. В России Роскомнадзор разослал специальные рекомендации владельцам сетей связи о том, как закрыть сайты от OpenAI.

Очевидно, что Sora будет обучаться на видео, которые выложены на двух самых популярных видеосервисах — Vimeo и YouTube. Фокусироваться на небольших сайтах не имеет смысла из-за особенностей используемого видеоплеера в каждом отдельном случае.

Условия договоренностей OpenAI с видеосервисами, скорее всего, раскрывать не будут. И даже пользовательские соглашения видеосервисов с креаторами, которые монетизируют свой контент благодаря популярным платформам, будут содержать расплывчатые формулировки.

Порносайты также представляют интерес для обучения ИИ-моделей. И разработчику нейросети также нужно будет договариваться с владельцами таких сайтов. Контент для взрослых используется, чтобы нейросеть узнала, как выглядят фигуры людей без одежды в реалистичных пропорциях.

Как Sora будет фильтровать небезопасный контент

Для фильтрации нежелательного контента в Chat GPT существует несколько этапов. На первом уровне все промпты проходят автоматическую проверку на использование запрещенных ключевых слов и тематик. Если запрос нарушает политику использования нейросети, то в ответ приходит сообщение: Content violation, означающее, что такой запрос не может быть обработан.

На втором уровне анализируется сгенерированное изображение или видео, как будет в случае с Sora. Результат работы нейросети проходит через отдельный модуль, который анализирует каждое изображение. Затем включается фильтр контента. Если изображение попадает в категорию с возрастным ограничением 18+, то оно будет заблокировано, несмотря на то, что запрос изначально был безобидный.

По теме. 52% ответов ChatGPT по программированию неверны — исследование

Почему руки, текст и длинные ролики — вызов для Sora

Чем длиннее ролик, тем выше вероятность появления артефактов и тем больше время генерации. Технически ролики могут быть любой длины, но ограничение Sora в минуту логично. Нет смысла создавать десятиминутный ролик, у которого каждую минуту будут заметны несостыковки на уровне отдельных сцен и монтажных склеек.

Каждая новая сцена, каждый новый кадр — это риск появления артефактов. Более перспективный способ — сначала создавать короткие видео и потом самостоятельно их монтировать.

В видео, за исключением лучших кадров, на потоке возникнут проблемы с изображением и движением рук. Нейросети не понимают, как выглядят и как работают человеческие пальцы, как они захватывают предметы. Для них это просто набор пикселей. Нейросети будет сложно изобразить дружеское рукопожатие или руки, сложенные в замок.

Вот так нейросеть сейчас генерирует руки

Тексты внутри изображения — еще одно слабое место нейросетей. Причем это не зависит от языка. ИИ-модели воспринимают текст как картинку из линий или палочек, которые ничего не значат.

На основе видеопрезентации кадров, уже сгенерированных нейросетью, можно впечатлиться общим уровнем ее возможностей. По сравнению с другими существующим генеративными нейросетями, это пока что лучшее качество, которого удавалось достичь. При этом остаются нерешенными недостатки, характерные для изображений, сгенерированных с помощью ИИ. Отлично прорисованный передний план с заметными артефактами на заднем плане, которому ИИ-модели обычно уделяют меньше внимания.

Фото на обложке: Shutterstock

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ

Искусственный интеллект
ChatGPT
openai
Технологии
Искусственный интеллект
ChatGPT
openai
Технологии

Обзоры

Материалы по теме

Пройти курс «Как самозанятому стать ИП»
1 По бизнесу бьет фейковый ИИ — вредонос под видом ChatGPT вырос на 175% Число этих зловредов увеличилось на 48 и 175% соответственно 25 июня 19:12
2 Лучшие детекторы AI и GPT для проверки текста на ИИ Для тех, кто не уверен в оригинальности контента 03 апреля 10:12
3 Популярность ChatGPT побила рекорды благодаря фильтру в стиле Хаяо Миядзаки Среднее количество еженедельных активных пользователей превысило 150 млн 01 апреля 19:19
4 В RuStore появилась оплата рублями ChatGPT, Midjourney и других ИИ-сервисов Однако наценка составляет более 50% 30 марта 20:31

За кулисами Sora: как работает видеонейросеть от OpenAI

Что умеет Sora

Почему с Chat GPT-4o релиз Sora может произойти раньше

Зачем Sora использует видео с Vimeo, YouTube и сайтов 18+

Как Sora будет фильтровать небезопасный контент

Почему руки, текст и длинные ролики — вызов для Sora

Популярное

Налог на прибыль организаций

Большинство ритейлеров заявили о намерении увеличить бизнес без расширения штата

Торговая марка для компании: как проверить и зарегистрировать

Как законно уволиться без отработки?

Ошибка 502 Bad Gateway: причины и способы устранения

Материалы по теме