За кулисами Sora: как работает видеонейросеть от OpenAI
Sora не идеальна: она плохо генерирует текст, руки и длинные ролики
Sora — это ИИ-модель, способная создавать реалистичные и фантастические сцены по текстовым инструкциям. Дата релиза официально не объявлена. Однако есть предположения, что нейросеть может стать доступной во второй половине 2024 года, а некоторые прогнозы указывают на возможный запуск до августа этого года. О том, что умеет Sora, а что нет, рассказал Сергей Дорожкин, директор департамента системной интеграции Ingate Group.
Что умеет Sora
Согласно официальной информации на сайте OpenAI, Sora может генерировать видео продолжительностью до одной минуты в соответствии с запросами пользователей.
Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движений и точными деталями объектов и фона. Модель понимает не только то, что запрашивает пользователь, но и как эти вещи существуют в физическом мире.
Промты могут включать не только текст, но и существующие изображения и видео. Дополнительная возможность — монтаж нескольких роликов через создание плавных переходов между видео с разными сюжетами и композициями.
По теме. OpenAI представила нейросеть для преобразования текста в видео
Почему с Chat GPT-4o релиз Sora может произойти раньше
Последовательность релизов Chat GPT и Sora, скорее всего, непосредственно связана. Как и в случае с другой генеративной сетью от OpenAI — Dall-E, будущая нейросеть будет тесно интегрирована и с Chat GPT, что позволит значительно улучшить качество создаваемого видео. В новой версии скорость работы нейросети Chat GPT заметно выросла, а это означает и более быструю обработку промптов, которая необходима для создания видеокадров.
О будущей гибкости Sora можно судить по Dall-E, интегрированной с Chat GPT. Пользователь может попросить нейросеть нарисовать кота, и она сразу это сделает. Затем можно попросить изменить цвет шерсти с рыжего на белый, и Dall-E мгновенно поймет запрос, используя предыдущую картинку для генерации новой.
Если нужно добавить определенную деталь на кота, то ИИ-модель так же оперативно внесет изменения, скорректировав изображение в соответствии с пожеланиями пользователей.
Эта гибкость в соответствии с запросами людей породила вирусные серии изображений, где пользователи пошагово модифицировали картинки, создавая целые истории. Несмотря на то что качество изображений может быть не самым высоким, подобных результатов практически невозможно достичь с помощью других нейросетей или это требуется больше усилий.
Каждый промпт в Dall-E преобразуется в сложную структуру, включающую физические модели взаимодействия с миром. Например, когда пользователь описывает человека, сидящего на стуле, учитываются свойства стула, вес человека и его влияние на стул. Обучение модели под взаимодействие с разными промптами позволяет создавать такие реалистичные изображения. Скорее всего, с Sora будет происходить нечто подобное.
Зачем Sora использует видео с Vimeo, YouTube и сайтов 18+
CTO OpenAI Мира Мурати подтвердила, что нейросеть будет обучаться на видео, которые сейчас находятся в общественном доступе. Однако она отказалась назвать конкретные видеосервисы или сайты.
Основная часть обучающей выборки любой нейросети — это контент веб-страниц и из книг. Содержание пользовательских диалогов с нейросетями учитывается в обучении не всегда и только для поддержания диалога.
Как известно, владельцы популярных сайтов уже вынуждены регулярно обращаться в OpenAI с целью запрета использования собственного контента для обучений моделей. New York Times даже обратилась в суд по этому поводу. В России Роскомнадзор разослал специальные рекомендации владельцам сетей связи о том, как закрыть сайты от OpenAI.
Очевидно, что Sora будет обучаться на видео, которые выложены на двух самых популярных видеосервисах — Vimeo и YouTube. Фокусироваться на небольших сайтах не имеет смысла из-за особенностей используемого видеоплеера в каждом отдельном случае.
Условия договоренностей OpenAI с видеосервисами, скорее всего, раскрывать не будут. И даже пользовательские соглашения видеосервисов с креаторами, которые монетизируют свой контент благодаря популярным платформам, будут содержать расплывчатые формулировки.
Порносайты также представляют интерес для обучения ИИ-моделей. И разработчику нейросети также нужно будет договариваться с владельцами таких сайтов. Контент для взрослых используется, чтобы нейросеть узнала, как выглядят фигуры людей без одежды в реалистичных пропорциях.
Как Sora будет фильтровать небезопасный контент
Для фильтрации нежелательного контента в Chat GPT существует несколько этапов. На первом уровне все промпты проходят автоматическую проверку на использование запрещенных ключевых слов и тематик. Если запрос нарушает политику использования нейросети, то в ответ приходит сообщение: Content violation, означающее, что такой запрос не может быть обработан.
На втором уровне анализируется сгенерированное изображение или видео, как будет в случае с Sora. Результат работы нейросети проходит через отдельный модуль, который анализирует каждое изображение. Затем включается фильтр контента. Если изображение попадает в категорию с возрастным ограничением 18+, то оно будет заблокировано, несмотря на то, что запрос изначально был безобидный.
По теме. 52% ответов ChatGPT по программированию неверны — исследование
Почему руки, текст и длинные ролики — вызов для Sora
Чем длиннее ролик, тем выше вероятность появления артефактов и тем больше время генерации. Технически ролики могут быть любой длины, но ограничение Sora в минуту логично. Нет смысла создавать десятиминутный ролик, у которого каждую минуту будут заметны несостыковки на уровне отдельных сцен и монтажных склеек.
Каждая новая сцена, каждый новый кадр — это риск появления артефактов. Более перспективный способ — сначала создавать короткие видео и потом самостоятельно их монтировать.
В видео, за исключением лучших кадров, на потоке возникнут проблемы с изображением и движением рук. Нейросети не понимают, как выглядят и как работают человеческие пальцы, как они захватывают предметы. Для них это просто набор пикселей. Нейросети будет сложно изобразить дружеское рукопожатие или руки, сложенные в замок.

Тексты внутри изображения — еще одно слабое место нейросетей. Причем это не зависит от языка. ИИ-модели воспринимают текст как картинку из линий или палочек, которые ничего не значат.
На основе видеопрезентации кадров, уже сгенерированных нейросетью, можно впечатлиться общим уровнем ее возможностей. По сравнению с другими существующим генеративными нейросетями, это пока что лучшее качество, которого удавалось достичь. При этом остаются нерешенными недостатки, характерные для изображений, сгенерированных с помощью ИИ. Отлично прорисованный передний план с заметными артефактами на заднем плане, которому ИИ-модели обычно уделяют меньше внимания.
Фото на обложке: Shutterstock
-
Партнёрский материал Как компании из Архангельска растут на терпении, связях и самоиронии 29 мая 2026, 14:33
-
Бизнес «Команде не вырасти выше лидера»: как изменить неписаные правила взаимодействия в группе 19 мая 2026, 10:00
-
Искусственный интеллект Нам не нужен свой OpenAI: где России искать эффект от ИИ и что для этого делать 19 мая 2026, 11:00
-
Бизнес Екатерина Лапшина: «У меня всегда был чуть больший аппетит к риску» 07 мая 2026, 16:10
-
Технологии Прощание с эпохой Кука и ставка на агентов: конференция Apple WWDC 2026 12 июня 2026, 15:35
-
Искусственный интеллект Как подключить Яндекс Дропс и использовать все функции Алисы AI: полный обзор первых ИИ-наушников от Яндекса 09 июня 2026, 11:00
-
Технологии Подключённые автомобили: как интернет меняет автопром 25 марта 2026, 13:17
-
Личное Фёдор Овчинников: «Пять месяцев в тундре — путешествие в другое измерение» 14 мая 2026, 13:18
-
Бизнес Кнопка «Войти через Google» — уже нарушение: юристы разъяснили закон о запрете авторизации через зарубежные сервисы 12 июня 2026, 16:00
-
Бизнес Где в Москве искать «пухососов»: Яндекс Go превратил все такси на карте города в роботов из мема 11 июня 2026, 16:04
-
Банки ЦБ предложил втрое увеличить требования к минимальному капиталу банков — новые правила могут заработать с 2028 года 12 июня 2026, 19:00
-
Банки 19 июня ЦБ проведёт заседание по ключевой ставке: аналитики ожидают дальнейшего снижения — до 14% 12 июня 2026, 10:00
-
Туризм Россияне готовы путешествовать по стране, но не знают, куда ехать: главной проблемой оказался дефицит информации 11 июня 2026, 15:54
-
Реклама Т-Банк будет использовать банковские данные клиентов при показе рекламы — юристы говорят о правовых рисках 10 июня 2026, 14:00
-
Искусственный интеллект OpenAI подала конфиденциальную заявку на IPO — компания может выйти на биржу уже в сентябре 09 июня 2026, 13:15
-
Технологии Яндекс Карты добавили 120 тыс. отметок о доступности мест маломобильным людям: данные обновляет ИИ — автоматически 05 июня 2026, 20:42