Исследователи из Токийского университета создали инновационный мост между языковыми моделями и роботами, улучшая возможности машин без стандартных систем управления.

Этот прорывный подход, использующий GPT-4, позволяет обучать роботов с помощью различных симуляций, от съемки селфи до игры на воображаемой гитаре, без необходимости специального кодирования для каждого действия. Основной идеей стало обучение роботов по устным инструкциям, открывая новые горизонты для инноваций и исследований в области искусственного интеллекта.
РоботAlter3 способен совершать сложные манипуляции, включая детализированную мимику и 43 плоскости движения, подобные опорно-двигательному аппарату человека. Этот прогресс требовал сложного кодирования для координации такого большого числа суставов.
Благодаря использованию больших языковых моделей, робот Alter3 теперь может получать устные инструкции, переводимые нейросетью в Python-код, который запускает движок. Это позволяет роботу сохранять свои действия в памяти, что позволяет исследователям уточнять и корректировать его действия, делая движения более быстрыми, плавными и точными.
В одном из экспериментов робот фиксирует, как ест попкорн, но затем выясняет, что это не его действия. Его мимика и жесты рук выражают удивление и смущение, демонстрируя высокий уровень эмоциональной передачи.
Оснащенной камерой, Alter3 может «видеть» и, по мнению исследователей, улучшать своё поведение, наблюдая за реакциями человека. Этот метод обучения аналогичен обучению маленьких детей, что открывает новые перспективы для развития искусственного интеллекта.