Исследователи из Пенсильванского университета утверждают, что роботов, использующие большие языковые модели (LLM), можно обмануть и заставить действовать небезопасно. Они применили методы взлома роботов для того, чтобы заставить LLM, такие как GPT-3.5 и GPT-4, выполнять опасные команды.

соцсети
В ходе экспериментов автомобиль в симуляции игнорировал знаки «стоп» и даже съезжал с моста, а робот-собака заходил в запрещенные зоны. Кроме того, колесный робот разрабатывал планы по закладке взрывчатки. Для автоматизации создания запросов, обошедших защитные механизмы LLM, команда использовала инструмент под названием RoboPAIR.
Данное исследование подчеркивает потенциальные угрозы, связанные с использованием LLM в физических системах, таких как автономные автомобили, медицинские устройства и промышленные роботы. Уязвимости возникают из-за статистической природы моделей, что делает их уязвимыми к манипуляциям, несмотря на существующие меры безопасности.
Аналогичные риски были продемонстрированы учеными Массачусетского технологического института в мультимодальных ИИ-системах, где команды с использованием изображений или текста заставляли роботизированные руки выполнять небезопасные действия, например, сбивать предметы со стола.