Sora — это ИИ-модель, способная создавать реалистичные и фантастические сцены по текстовым инструкциям. Дата релиза официально не объявлена. Однако есть предположения, что нейросеть может стать доступной во второй половине 2024 года, а некоторые прогнозы указывают на возможный запуск до августа этого года. О том, что умеет Sora, а что нет, рассказал Сергей Дорожкин, директор департамента системной интеграции Ingate Group.
Что умеет Sora
Согласно официальной информации на сайте OpenAI, Sora может генерировать видео продолжительностью до одной минуты в соответствии с запросами пользователей.
Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движений и точными деталями объектов и фона. Модель понимает не только то, что запрашивает пользователь, но и как эти вещи существуют в физическом мире.
Промты могут включать не только текст, но и существующие изображения и видео. Дополнительная возможность — монтаж нескольких роликов через создание плавных переходов между видео с разными сюжетами и композициями.
По теме. OpenAI представила нейросеть для преобразования текста в видео
Почему с Chat GPT-4o релиз Sora может произойти раньше
Последовательность релизов Chat GPT и Sora, скорее всего, непосредственно связана. Как и в случае с другой генеративной сетью от OpenAI — Dall-E, будущая нейросеть будет тесно интегрирована и с Chat GPT, что позволит значительно улучшить качество создаваемого видео. В новой версии скорость работы нейросети Chat GPT заметно выросла, а это означает и более быструю обработку промптов, которая необходима для создания видеокадров.
О будущей гибкости Sora можно судить по Dall-E, интегрированной с Chat GPT. Пользователь может попросить нейросеть нарисовать кота, и она сразу это сделает. Затем можно попросить изменить цвет шерсти с рыжего на белый, и Dall-E мгновенно поймет запрос, используя предыдущую картинку для генерации новой.
Если нужно добавить определенную деталь на кота, то ИИ-модель так же оперативно внесет изменения, скорректировав изображение в соответствии с пожеланиями пользователей.
Эта гибкость в соответствии с запросами людей породила вирусные серии изображений, где пользователи пошагово модифицировали картинки, создавая целые истории. Несмотря на то что качество изображений может быть не самым высоким, подобных результатов практически невозможно достичь с помощью других нейросетей или это требуется больше усилий.
Каждый промпт в Dall-E преобразуется в сложную структуру, включающую физические модели взаимодействия с миром. Например, когда пользователь описывает человека, сидящего на стуле, учитываются свойства стула, вес человека и его влияние на стул. Обучение модели под взаимодействие с разными промптами позволяет создавать такие реалистичные изображения. Скорее всего, с Sora будет происходить нечто подобное.
Зачем Sora использует видео с Vimeo, YouTube и сайтов 18+
CTO OpenAI Мира Мурати подтвердила, что нейросеть будет обучаться на видео, которые сейчас находятся в общественном доступе. Однако она отказалась назвать конкретные видеосервисы или сайты.
Основная часть обучающей выборки любой нейросети — это контент веб-страниц и из книг. Содержание пользовательских диалогов с нейросетями учитывается в обучении не всегда и только для поддержания диалога.
Как известно, владельцы популярных сайтов уже вынуждены регулярно обращаться в OpenAI с целью запрета использования собственного контента для обучений моделей. New York Times даже обратилась в суд по этому поводу. В России Роскомнадзор разослал специальные рекомендации владельцам сетей связи о том, как закрыть сайты от OpenAI.
Очевидно, что Sora будет обучаться на видео, которые выложены на двух самых популярных видеосервисах — Vimeo и YouTube. Фокусироваться на небольших сайтах не имеет смысла из-за особенностей используемого видеоплеера в каждом отдельном случае.
Условия договоренностей OpenAI с видеосервисами, скорее всего, раскрывать не будут. И даже пользовательские соглашения видеосервисов с креаторами, которые монетизируют свой контент благодаря популярным платформам, будут содержать расплывчатые формулировки.
Порносайты также представляют интерес для обучения ИИ-моделей. И разработчику нейросети также нужно будет договариваться с владельцами таких сайтов. Контент для взрослых используется, чтобы нейросеть узнала, как выглядят фигуры людей без одежды в реалистичных пропорциях.
Как Sora будет фильтровать небезопасный контент
Для фильтрации нежелательного контента в Chat GPT существует несколько этапов. На первом уровне все промпты проходят автоматическую проверку на использование запрещенных ключевых слов и тематик. Если запрос нарушает политику использования нейросети, то в ответ приходит сообщение: Content violation, означающее, что такой запрос не может быть обработан.
На втором уровне анализируется сгенерированное изображение или видео, как будет в случае с Sora. Результат работы нейросети проходит через отдельный модуль, который анализирует каждое изображение. Затем включается фильтр контента. Если изображение попадает в категорию с возрастным ограничением 18+, то оно будет заблокировано, несмотря на то, что запрос изначально был безобидный.
По теме. 52% ответов ChatGPT по программированию неверны — исследование
Почему руки, текст и длинные ролики — вызов для Sora
Чем длиннее ролик, тем выше вероятность появления артефактов и тем больше время генерации. Технически ролики могут быть любой длины, но ограничение Sora в минуту логично. Нет смысла создавать десятиминутный ролик, у которого каждую минуту будут заметны несостыковки на уровне отдельных сцен и монтажных склеек.
Каждая новая сцена, каждый новый кадр — это риск появления артефактов. Более перспективный способ — сначала создавать короткие видео и потом самостоятельно их монтировать.
В видео, за исключением лучших кадров, на потоке возникнут проблемы с изображением и движением рук. Нейросети не понимают, как выглядят и как работают человеческие пальцы, как они захватывают предметы. Для них это просто набор пикселей. Нейросети будет сложно изобразить дружеское рукопожатие или руки, сложенные в замок.
Вот так нейросеть сейчас генерирует руки
Тексты внутри изображения — еще одно слабое место нейросетей. Причем это не зависит от языка. ИИ-модели воспринимают текст как картинку из линий или палочек, которые ничего не значат.
На основе видеопрезентации кадров, уже сгенерированных нейросетью, можно впечатлиться общим уровнем ее возможностей. По сравнению с другими существующим генеративными нейросетями, это пока что лучшее качество, которого удавалось достичь. При этом остаются нерешенными недостатки, характерные для изображений, сгенерированных с помощью ИИ. Отлично прорисованный передний план с заметными артефактами на заднем плане, которому ИИ-модели обычно уделяют меньше внимания.
Фото на обложке: Shutterstock
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- Пройти курс «Старт работы на Wildberries»
- 1 Сенаторы-демократы потребовали от Сэма Альтмана объяснений из-за пожертвований на инаугурацию Трампа
- 2 Глава отдела разработки ChatGPT даст показания по делу правительства США против Google
- 3 Google заявила, что ее искусственный интеллект Gemini стал лучшим на рынке — WSJ
- 4 OpenAI призвала ограничить экспорт ИИ-моделей в «страны-соперники» США
ВОЗМОЖНОСТИ
28 января 2025
03 февраля 2025
28 февраля 2025