Обучение роботов — это утомительный, изматывающий процесс с постоянными ручными сбросами и непрерывным наблюдением. Каждый успешный действие робота, скорее всего, потребовало от человека десятки раз перезапускать сцену после неудач. Новый фреймворк под названием RoboClaw призван положить конец этому кошмару, обучая роботов одному навыку, которого им всегда не хватало: умению убирать за собой.
Разработка исследователей из AgiBot, Национального университета Сингапура и Шанхайского университета Цзяо Тун представляет собой концепцию под названием Entangled Action Pairs (EAP). Суть проста до боли: для каждого «прямого» навыка, который осваивает робот — скажем, помещение помады в держатель — он одновременно учится обратному действию: вынимать помаду обратно. Эти два поведения создают самоперезагружающийся цикл, позволяя роботу практиковать задачу, самостоятельно восстанавливать среду и повторять процесс, при этом собирая данные автономно. Никакого человеческого надзора не требуется.
Результаты, честно говоря, впечатляют. Исследователи сообщают о восьмикратном сокращении вмешательства человека в процессе обучения, сокращении общего времени человека на формирование датасета в 2,16 раза и повышении успешности на 25% при выполнении сложных многоэтапных задач по сравнению с базовыми моделями. Систему протестировали на многоэтапной задаче организации туалетного столика, где она автономно научилась обращаться с различными предметами и размещать их, исправляя собственные ошибки на ходу.
Почему это важно?
Настоящий прорыв — это не просто самоперезагружающийся цикл. Дело в том, что один и тот же агент, который обучает робота, также его и эксплуатирует. В большинстве робототехнических систем используются совершенно разные, не связанные между собой конвейеры для сбора данных, обучения модели и реального выполнения задач. RoboClaw объединяет все три компонента под единым управлением на основе модели Vision-Language-Model (VLM).
Это означает, что когда робот ошибается при выполнении реальной задачи, эта ошибка — не просто проблема, которую нужно исправить человеку; это новые данные для обучения, которые напрямую поступают в систему. Робот учится на собственных ошибках в полевых условиях, создавая замкнутый цикл, который постоянно совершенствуется. Это переводит робототехнику от хрупкой, заранее запрограммированной автоматизации к по-настоящему агентным системам, способным обучаться и адаптироваться в реальном мире.

