Ученые из Беркли разработали робособаку, которая научилась ходить самостоятельно

Истории 19 июля 2022

Елена Лиханова

Старший редактор RB.RU

Елена Лиханова

Обычно роботов обучают движениям на компьютерном симуляторе. Однако этот метод не универсален и требует значительных затрат, в том числе временных. Команда Калифорнийского университета в Беркли предложила решение проблемы — алгоритм Dreamer, основанный на обучении с подкреплением. Он позволяет роботу самостоятельно осваивать новые навыки и адаптироваться к изменениям вокруг.

Подписаться на RB.RU в Telegram

Робособака машет лапами в воздухе, как раздраженный жук. После 10 минут борьбы ей удается перевернуться на живот. Через полчаса робот делает свои первые неуклюжие шаги, как новорожденный теленок. Час спустя он уверенно расхаживает по лаборатории.

Особенность этого четвероногого робота в том, что он научился этому сам, без компьютерной симуляции.

Для этого Данияр Хафнер и его коллеги из Калифорнийского университета в Беркли использовали метод обучения с подкреплением. Он подразумает, что алгоритм обучается и получает вознаграждения за желаемые действия. Команда использовала тот же алгоритм для успешного обучения трех других роботов. Один из них мог подбирать мячи и перемещать их с одного лотка на другой.

Обычно роботов обучают на компьютерном симуляторе, прежде чем они попытаются что-либо сделать в реальном мире. Например, пара робоног Кэсси научилась ходить с помощью обучения с подкреплением, но только после того, как она сделала это в симуляции.

«Проблема в том, что симулятор никогда не будет таким точным, как в реальном мире. Какие-то аспекты всегда будут упущены», — говорит Хафнер, который работал над проектом с коллегами Алехандро Эсконтрелой и Филиппом Ву, а сейчас проходит стажировку в DeepMind. По его словам, чтобы адаптировать уроки из симулятора, требуется дополнительное программирование.

Алгоритм команды, получивший название Dreamer, использует прошлый опыт для построения модели окружающего мира. Dreamer также позволяет роботу проводить вычисления методом проб и ошибок в компьютерной программе, в отличие от реального мира, путем прогнозирования результатов его потенциальных действий. Это позволяет ему учиться быстрее.

Как только робот научился ходить, он продолжал учиться и адаптироваться к неожиданным ситуациям, например, сопротивляться падению, если его толкнут палкой.

«Обучение роботов методом проб и ошибок — непростая задача, которая еще более усложняется из-за длительной подготовки, необходимого для такого обучения», — говорит Леррел Пинто, доцент кафедры компьютерных наук Нью-Йоркского университета, специализирующийся на робототехнике и машинном обучении. Dreamer показывает, что глубокое обучение с подкреплением и модели мира способны научить роботов новым навыкам за очень короткий промежуток времени, говорит он.

Джонатан Херст, профессор робототехники в Университете штата Орегон, говорит, что результаты, которые еще не прошли экспертную оценку, ясно показывают, что «обучение с подкреплением станет краеугольным камнем в будущем управления роботами».

У решения убрать тренажер из обучения роботов есть много преимуществ. По словам Хафнера, алгоритм может быть полезен для обучения роботов тому, как осваивать навыки в реальном мире и адаптироваться к таким ситуациям, как аппаратные сбои – например, робот может научиться перемещаться с неисправным двигателем на одной ноге.

Читайте по теме: Робопес от Boston Dynamics будет охранять Помпеи

Этот подход также может иметь огромный потенциал для более сложных вещей, таких как автономное вождение, которые требуют сложных и дорогостоящих симуляторов, говорит Стефано Альбрехт, доцент кафедры искусственного интеллекта в Эдинбургском университете. Новое поколение алгоритмов обучения с подкреплением могло бы «очень быстро освоиться в реальном мире, поняв, как работает окружающая среда», говорит Альбрехт.

Но есть несколько больших нерешенных проблем, говорит Пинто.

При обучении с подкреплением инженерам необходимо указать в своем коде, какое поведение является хорошим и, следовательно, вознаграждаемым, а какое — нежелательным. В этом случае переворачиваться и ходить — это хорошо, а не ходить — плохо.

«Специалисту по робототехнике нужно будет делать это для каждой задачи [или] проблемы, которую он хочет, чтобы робот решил», — говорит Пинто. Это потребует невероятно много времени, а запрограммировать поведение для непредвиденных ситуаций по-прежнему непросто.

Читайте по теме: Увлекаетесь робототехникой? Представляем ведущих работодателей мира в этой области

И хотя симуляторы могут быть неточными, это же может быть и с моделями. «Модели мира начинаются с нуля, поэтому изначально прогнозы, сделанные на основе моделей, будут полностью одинаковыми», — говорит он. Требуется время, пока они не получат достаточно данных, чтобы сделать их точными.

В будущем, говорит Хафнер, было бы неплохо научить робота понимать произносимые команды. По его словам, команда также планирует подключить камеры к робособаке, чтобы дать ей зрение. Это позволило бы ему ориентироваться в сложных ситуациях внутри помещения, например отправиться в комнату, найти предмет или принести мяч.

Источник.

Фото на обложке: Danijar Hafner

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

ТЕГИ

Искусственный интеллект
Роботы
Технологии
США
Искусственный интеллект
Роботы
Технологии
США

Истории

Материалы по теме

Пройти курс «Как открыть бизнес по франшизе»
1 Российские ученые создали универсальную ИИ-модель для роботов и производственных процессов Vintix находится в открытом доступе 06 июня 12:39
2 Минэк рассмотрит возможность разрешить роботам-доставщикам передвигаться по тротуарам и велодорожкам Максимальную скорость на тротуарах ограничат 10 км/ч 19 мая 12:06
3 Минпромторг возместит половину затрат на рекламу роботов До 100% может доходить размер компенсации аренды площадей 09 апреля 17:03
4 Kawasaki представила робота-коня с водородным двигателем Массовое производство «железного коня» начнется только к 2050 году 06 апреля 15:13

Ученые из Беркли разработали робособаку, которая научилась ходить самостоятельно

Популярное

Налог на прибыль организаций

Большинство ритейлеров заявили о намерении увеличить бизнес без расширения штата

Торговая марка для компании: как проверить и зарегистрировать

Как законно уволиться без отработки?

Ошибка 502 Bad Gateway: причины и способы устранения

Материалы по теме