Истории

Исследователи придумали, как обучать ИИ на видео из YouTube

Истории
Елена Лиханова
Елена Лиханова

Старший редактор RB.RU

Елена Лиханова

Видеоархив YouTube — обширный источник самых разных данных, однако они практически не используются для обучения ИИ, поскольку требуют дополнительной разметки. В OpenAI предложили свое решение — метод предобучения видео (VPT).

В качестве демонстрации OpenAI создала бота для Minecraft, обучив его на 70 тысячах часов видеороликов, на которых люди играли в игру. Благодаря методу, считают исследователи, искусственный интеллект сможет освоить самые разные навыки — не только в виртуальном мире, но и физическом.

Исследователи придумали, как обучать ИИ на видео из YouTube

Созданный исследователями Minecraft AI способен выполнять сложные последовательности кликов по клавиатуре и мыши, справляясь с такими игровыми задачами, как рубка деревьев или создание инструментов. Это первый бот, которые умеет создавать так называемые алмазные инструменты. У хорошего игрока-человека на это уходит 20 минут быстрой игры, около 24 тысяч действий.

Это прорыв для методики, известной как имитационное обучение, в рамках которой нейронные сети обучаются выполнять задания, наблюдая за тем, как это делают люди. С помощью имитационного обучения ИИ можно научить управлять руками роботов, водить автомобили или перемещаться по веб-страницам. 


Читайте по теме:

ИИ от Meta* научили заключать и разрывать союзы ради победы в игре

К 2026 году данные для обучения языковых моделей ИИ могут быть исчерпаны — прогноз


В сети существует огромное количество видео, на которых люди выполняют различные задачи. Используя этот ресурс, исследователи надеются сделать для имитационного обучения то же, что GPT-3 сделал для больших языковых моделей.

«За последние несколько лет мы стали свидетелями расцвета парадигмы GPT-3, где мы видим удивительные возможности, больших моделей, обученных на огромных просторах интернета. Во многом это связано с тем, что мы моделируем то, что делают люди, когда они выходят онлайн», — говорит Боуэн Бейкер из OpenAI, один из разработчиков нового бота Minecraft.

Проблема с существующими подходами к имитационному обучению заключается в том, что каждый шаг видеодемонстрации нужно размечать: выполнение этого действия приводит к одному результату, того действия — к другому, и так далее. Ручная разметка занимает много усилий, поэтому такие наборы данных, как правило, небольшие. Бейкер и его коллеги хотели найти способ превратить миллионы видеороликов, доступных онлайн, в новый датасет.

Разработанный командой подход VPT (Video Pre-Training, предобучение видео) позволяет препятствия имитационного обучения, используя для разметки видео другую нейросеть.

Сначала исследователи наняли краудворкеров для игры в Minecraft и записали их щелчки по клавиатуре и мыши вместе с видео с их экранов. В результате у них получилось 2 тысячи часов игры в Minecraft с примечаниями. На этом материале модель обучили сопоставлять действия с результатами на экране. Щелчок мыши в определенной ситуации заставляет персонажа, например, взмахнуть топором. 

Следующим шагом было использовать эту модель для создания меток действий для 70 тысяч часов немаркированного видео, взятого из интернета, а затем обучить бота Minecraft на этом большем наборе данных.

«Видео — это обучающий ресурс с большим потенциалом», — говорит Питер Стоун, исполнительный директор Sony AI America, который ранее работал над имитационным обучением.

Имитационное обучение — это альтернатива обучению с подкреплением, при котором нейросеть учится выполнять задачу с нуля методом проб и ошибок. Это технология, которая обеспечила множество крупнейших прорывов в области ИИ за последние несколько лет. Ее использовали для обучения моделей, которые могут побеждать людей в играх, управлять термоядерным реактором и находить быстрые решения фундаментальных математических задач.

Проблема в том, что обучение с подкреплением лучше всего работает для задач с четкой целью, где случайные действия могут привести к случайному успеху. Алгоритмы обучения с подкреплением вознаграждают эти случайные успехи, повышая вероятность их повторения.

Но Minecraft — это игра без четкой цели. Игроки вольны делать то, что им нравится: бродить по сгенерированному компьютером миру, добывать различные материалы и комбинировать их для создания различных объектов.

Отсутствие границ делает Minecraft идеальным пространством для обучения ИИ. Бейкер был одним из исследователей проекта Hide & Seek, в рамках которого ботов выпускали на виртуальную игровую площадку, где они использовали обучение с подкреплением, чтобы выяснить, как сотрудничать и использовать инструменты для победы в простых играх. Но вскоре боты переросли свое окружение.

«Агенты как бы захватили власть над вселенной; им больше ничего не оставалось делать. Мы хотели расширить пространство, и мы подумали, что Minecraft — отличная площадка для работы», — говорит Бейкер.

minecraft

Фото в тексте: Diego Thomazini / Shutterstock

Они не единственные, кто пришел к этому. Minecraft становится важной тестовой площадкой для новых методов ИИ. MineDojo, среда Minecraft с десятками предварительно разработанных задач, в этом году получила награду на NeurIPS, одной из крупнейших конференций по искусственному интеллекту.

Благодаря VPT бот OpenAI способен выполнять задачи, невозможные только при обучении с подкреплением. Например, чтобы изготовить доски и превратить их в стол, нужно около 970 последовательных действий. Тем не менее, команда обнаружила, что наилучшие результаты достигаются при совместном использовании имитационного обучения и обучения с подкреплением.

Если обучить бота с помощью VPT, а затем точнее настроить его в процессе обучения с подкреплением, он сможет выполнять задачи, включающие более 20 тысяч последовательных действий. 

Исследователи утверждают, что их подход может быть использован для обучения ИИ выполнению других задач. Например, можно было бы использовать его для ботов, которые при помощи клавиатуры и мыши перемещаются по сайтам, бронируют авиабилеты или покупают продукты онлайн.

Но теоретически его можно было бы задействовать в обучении роботов физическим, реальным задачами, на видео от первого лица, на которых люди делают эти вещи. По мнению Стоуна, это вполне реально.

RB.RU готовит большое обновление — и мы хотим учесть пожелания и интересы вас, наших читателей. Если вы готовы поделиться своим мнением об RB.RU, переходите по ссылке, чтобы заполнить короткую анкету.

Впрочем, Мэтью Гуздиал из Университета Альберты в Канаде, который использовал видео, чтобы обучить ИИ играть в Super Mario Bros., не думает, что это произойдет в ближайшее время. Действия в таких играх, как Minecraft и Super Mario Bros. выполняются нажатием кнопок. Действия в физическом мире гораздо сложнее, и машине труднее их освоить. «Это открывает целый ряд новых исследовательских проблем», — рассуждает Гуздиал.

«Эта работа — еще одно свидетельство возможностей масштабирования моделей и обучения на массивных наборах данных для достижения хорошей производительности», — говорит Наташа Жак, которая работает над обучением с многоагентным подкреплением в Google и Калифорнийском университете в Беркли.

Большие наборы данных размером с интернет, безусловно, откроют новые возможности для искусственного интеллекта, говорит Жак: «Мы видели это снова и снова, и это отличный подход». Но, по ее мнению, OpenAI слишком полагается только на большие датасеты, говорит она: «Лично я немного более скептически отношусь к тому, что данные могут решить любую проблему».

Тем не менее, Бейкер и его коллеги считают, что сбор более миллиона часов видеороликов Minecraft сделает их ИИ еще лучше. Вероятно, это лучший бот для игры в Minecraft на сегодняшний день, заявляет Бейкер: «Но с большим количеством данных и большими моделями я бы ожидал, что это будет напоминать наблюдение за человеком, играющим в игру, а не за ИИ, который пытается имитировать человека».

* Meta и входящие в нее Facebook и Instagram признаны экстремистскими организациями, деятельность которых запрещена в РФ.

Источник.

Фото на обложке: Ekaterina_Minaeva / Shutterstock

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Продолжается соревнование по распознаванию произведений искусства по фотографии от Codenrock
  2. 2 Machine Learning или Operations Research — что лучше использовать для роста бизнеса?
  3. 3 Digital на стройке: 4 технологии девелопмента, которые только набирают обороты
  4. 4 Стартовал ML-контест от российской ИТ-компании Brand Analytics на платформе DevChamp
  5. 5 Как развивалась дискуссия вокруг сознания нейросети Google
FutureFood
Кто производит «альтернативную» еду
Карта