Новый подход к улучшению навигации робота в условиях большого скопления людей


alt

Встречная траектория робота, обученного с использованием стандартной стратегии исследования (слева), и успешная траектория робота, обученного с присущими вознаграждениями в тех же сценариях.  Martinez-Baselga, Riazuelo & Montano


Несмотря на то, что за последние несколько лет роботы становятся все более совершенными, большинство из них по-прежнему не могут надежно перемещаться в местах большого скопления людей, таких как общественные зоны или дороги в городских условиях. Однако для масштабного внедрения в умных городах будущего роботы должны быть способны перемещаться в этих условиях надежно и безопасно, не сталкиваясь с людьми или близлежащими объектами.


Исследователи из Университета Сарагосы и Института инженерных исследований Арагона в Испании недавно предложили новый подход, основанный на машинном обучении, который может улучшить навигацию роботов как в помещениях, так и на открытом воздухе. Этот подход, представленный в статье, предварительно опубликованной на сервере arXiv, предполагает использование внутренних вознаграждений, которые по сути являются "вознаграждениями", которые агент ИИ получает при выполнении действий, которые не связаны строго с задачей, которую он пытается выполнить.


"Автономная навигация робота - это открытая нерешенная проблема, особенно в неструктурированных и динамичных средах, где робот должен избегать столкновений с динамическими препятствиями и достигать цели", - сказал Диего Мартинес Басельга, один из исследователей, проводивших исследование, в интервью Tech Xplore. "Алгоритмы глубокого обучения с подкреплением доказали свою высокую эффективность с точки зрения вероятности успеха и времени достижения цели, но еще многое предстоит улучшить".


Метод, предложенный Мартинесом Баселгой и его коллегами, использует внутренние вознаграждения, вознаграждения, предназначенные для повышения мотивации агента к исследованию новых "состояний" (т. Е. Взаимодействий с окружающей средой) или для снижения уровня неопределенности в данном сценарии, чтобы агенты могли лучше прогнозировать последствия своих действий. действия. В контексте своего исследования исследователи специально использовали эти награды, чтобы побудить роботов посещать неизвестные области в окружающей среде и исследовать окружающую среду различными способами, чтобы со временем они могли научиться более эффективно ориентироваться в ней.


alt

Показатели обучения современного алгоритма по сравнению с тем же алгоритмом с ICM (intrinsic rewards) поверх него.  Martinez-Baselga, Riazuelo & Montano


"Большинство работ по обучению с глубоким подкреплением для навигации в толпе самых современных сосредоточены на улучшении сетей и обработке того, что чувствует робот", - сказал Мартинес Баселга. "Мой подход изучает, как исследовать окружающую среду во время обучения, чтобы улучшить процесс обучения. На тренировках вместо того, чтобы пробовать случайные или оптимальные действия, робот пытается делать то, чему, по его мнению, он может научиться больше ".


Мартинес Баселга и его коллеги оценили потенциал использования встроенных вознаграждений для решения задач навигации роботов в условиях большого скопления людей, используя два различных подхода. Первый из них объединяет так называемый "встроенный модуль любопытства" (ICM), в то время как второй основан на серии алгоритмов, известных как случайные кодеры для эффективного исследования (RE3).


Исследователи оценили эти модели в серии симуляций, которые проводились на симуляторе CrowdNav. Они обнаружили, что оба предложенных ими подхода, интегрирующие внутренние вознаграждения, превосходят ранее разработанные современные методы навигации роботов в условиях большого скопления людей.


В будущем это исследование может побудить других робототехников использовать внутренние вознаграждения при обучении своих роботов, чтобы улучшить их способность справляться с непредвиденными обстоятельствами и безопасно перемещаться в условиях высокой динамики. Кроме того, две встроенные модели, основанные на вознаграждении, протестированные Мартинесом Басельгой и его коллегами, вскоре могут быть интегрированы и протестированы в реальных роботах, чтобы еще больше подтвердить их потенциал.


"Результаты показывают, что, применяя эти интеллектуальные стратегии исследования, робот учится быстрее, а окончательная изученная политика лучше; и что они могут быть применены в дополнение к существующим алгоритмам для их улучшения", - добавил Мартинес Баселга. "В своих следующих исследованиях я планирую улучшить глубокое обучение с подкреплением в навигации роботов, чтобы сделать ее более безопасной и надежной, что очень важно для ее использования в реальном мире".

Не пропусти новости



Оставить комментарий:

0 comments:

Всегда рады услышать ваше мнение!