Истории

Ученые из Беркли разработали робособаку, которая научилась ходить самостоятельно

Истории
Елена Лиханова
Елена Лиханова

Старший редактор RB.RU

Елена Лиханова

Обычно роботов обучают движениям на компьютерном симуляторе. Однако этот метод не универсален и требует значительных затрат, в том числе временных. Команда Калифорнийского университета в Беркли предложила решение проблемы — алгоритм Dreamer, основанный на обучении с подкреплением. Он позволяет роботу самостоятельно осваивать новые навыки и адаптироваться к изменениям вокруг. 

Ученые из Беркли разработали робособаку, которая научилась ходить самостоятельно

Робособака машет лапами в воздухе, как раздраженный жук. После 10 минут борьбы ей удается перевернуться на живот. Через полчаса робот делает свои первые неуклюжие шаги, как новорожденный теленок. Час спустя он уверенно расхаживает по лаборатории.

Особенность этого четвероногого робота в том, что он научился этому сам, без компьютерной симуляции.

Все сервисы и компании, связанные с релокацией, на одной карте

Для этого Данияр Хафнер и его коллеги из Калифорнийского университета в Беркли использовали метод обучения с подкреплением. Он подразумает, что алгоритм обучается и получает вознаграждения за желаемые действия. Команда использовала тот же алгоритм для успешного обучения трех других роботов. Один из них мог подбирать мячи и перемещать их с одного лотка на другой.

Обычно роботов обучают на компьютерном симуляторе, прежде чем они попытаются что-либо сделать в реальном мире. Например, пара робоног Кэсси научилась ходить с помощью обучения с подкреплением, но только после того, как она сделала это в симуляции.

«Проблема в том, что симулятор никогда не будет таким точным, как в реальном мире. Какие-то аспекты всегда будут упущены», — говорит Хафнер, который работал над проектом с коллегами Алехандро Эсконтрелой и Филиппом Ву, а сейчас проходит стажировку в DeepMind. По его словам, чтобы адаптировать уроки из симулятора, требуется дополнительное программирование.

Алгоритм команды, получивший название Dreamer, использует прошлый опыт для построения модели окружающего мира. Dreamer также позволяет роботу проводить вычисления методом проб и ошибок в компьютерной программе, в отличие от реального мира, путем прогнозирования результатов его потенциальных действий. Это позволяет ему учиться быстрее.

Как только робот научился ходить, он продолжал учиться и адаптироваться к неожиданным ситуациям, например, сопротивляться падению, если его толкнут палкой.

«Обучение роботов методом проб и ошибок — непростая задача, которая еще более усложняется из-за длительной подготовки, необходимого для такого обучения», — говорит Леррел Пинто, доцент кафедры компьютерных наук Нью-Йоркского университета, специализирующийся на робототехнике и машинном обучении. Dreamer показывает, что глубокое обучение с подкреплением и модели мира способны научить роботов новым навыкам за очень короткий промежуток времени, говорит он.

Джонатан Херст, профессор робототехники в Университете штата Орегон, говорит, что результаты, которые еще не прошли экспертную оценку, ясно показывают, что «обучение с подкреплением станет краеугольным камнем в будущем управления роботами».

У решения убрать тренажер из обучения роботов есть много преимуществ. По словам Хафнера, алгоритм может быть полезен для обучения роботов тому, как осваивать навыки в реальном мире и адаптироваться к таким ситуациям, как аппаратные сбои – например, робот может научиться перемещаться с неисправным двигателем на одной ноге.


Читайте по теме: Робопес от Boston Dynamics будет охранять Помпеи


Этот подход также может иметь огромный потенциал для более сложных вещей, таких как автономное вождение, которые требуют сложных и дорогостоящих симуляторов, говорит Стефано Альбрехт, доцент кафедры искусственного интеллекта в Эдинбургском университете. Новое поколение алгоритмов обучения с подкреплением могло бы «очень быстро освоиться в реальном мире, поняв, как работает окружающая среда», говорит Альбрехт.

Но есть несколько больших нерешенных проблем, говорит Пинто.

При обучении с подкреплением инженерам необходимо указать в своем коде, какое поведение является хорошим и, следовательно, вознаграждаемым, а какое — нежелательным. В этом случае переворачиваться и ходить — это хорошо, а не ходить — плохо.

«Специалисту по робототехнике нужно будет делать это для каждой задачи [или] проблемы, которую он хочет, чтобы робот решил», — говорит Пинто. Это потребует невероятно много времени, а запрограммировать поведение для непредвиденных ситуаций по-прежнему непросто. 


Читайте по теме: Увлекаетесь робототехникой? Представляем ведущих работодателей мира в этой области


И хотя симуляторы могут быть неточными, это же может быть и с моделями. «Модели мира начинаются с нуля, поэтому изначально прогнозы, сделанные на основе моделей, будут полностью одинаковыми», — говорит он. Требуется время, пока они не получат достаточно данных, чтобы сделать их точными.

В будущем, говорит Хафнер, было бы неплохо научить робота понимать произносимые команды. По его словам, команда также планирует подключить камеры к робособаке, чтобы дать ей зрение. Это позволило бы ему ориентироваться в сложных ситуациях внутри помещения, например отправиться в комнату, найти предмет или принести мяч.

Источник.

Фото на обложке: Danijar Hafner

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Какие сферы бизнеса больше всего выигрывают от подключения голосовых роботов?
  2. 2 В 2024 году на МКС начнутся испытания робота-хирурга
  3. 3 Идеальный сервис: чего хотят современные клиенты и как сделать их постоянными
  4. 4 Пермские ученые разработали робота-пациента для будущих стоматологов
  5. 5 Профессия «робототехник»: где учиться и как стать востребованным специалистом
Куда идти стартапу в США
Список полезных контактов, предпринимательских сообществ и инвесторов
Получить список