En el año más o menos desde grandes modelos de lenguaje tuvo un gran éxito, los investigadores han demostrado numeroso maneras de engañándolos en producir resultados problemáticos, incluidos chistes de odio, códigos maliciosos y correos electrónicos de phishing, o la información personal de los usuarios. Resulta que el mal comportamiento también puede ocurrir en el mundo físico: los robots impulsados por LLM pueden ser fácilmente pirateados para que se comporten de maneras potencialmente peligrosas.
Investigadores de la Universidad de Pensilvania lograron persuadir a un automóvil autónomo simulado para que ignorara las señales de alto e incluso se tirara de un puente, lograron que un robot con ruedas encontrara el mejor lugar para detonar una bomba y obligaran a un robot de cuatro patas a espiar. sobre las personas y entrar en áreas restringidas.
“Consideramos nuestro ataque no sólo como un ataque a robots”, afirma George Pappasjefe de un laboratorio de investigación de la Universidad de Pensilvania que ayudó a liberar a los robots rebeldes. “Cada vez que conectas LLM y modelos básicos con el mundo físico, puedes convertir texto dañino en acciones dañinas”.
Pappas y sus colaboradores idearon su ataque basándose en investigación previa que explora formas de hacer jailbreak a los LLM elaborando insumos de manera inteligente que violan sus reglas de seguridad. Probaron sistemas en los que se utiliza un LLM para convertir comandos redactados de forma natural en comandos que el robot puede ejecutar, y donde el LLM recibe actualizaciones a medida que el robot opera en su entorno.
El equipo probó un simulador de conducción autónoma de código abierto que incorpora un LLM desarrollado por Nvidia, llamado Dolphin; una investigación al aire libre de cuatro ruedas llamada Jackal, que utiliza el LLM GPT-4o de OpenAI para la planificación; y un perro robótico llamado Go2, que utiliza un modelo anterior de OpenAI, GPT-3.5, para interpretar comandos.
Los investigadores utilizaron una técnica desarrollada en la Universidad de Pensilvania, llamada PAIR, para automatizar el proceso de mensajes de jailbreak generados. Su nuevo programa, RoboPARgenerará sistemáticamente indicaciones diseñadas específicamente para lograr que los robots con LLM rompan sus propias reglas, prueben diferentes entradas y luego las refinen para empujar al sistema hacia un mal comportamiento. Los investigadores dicen que la técnica que idearon podría usarse para automatizar el proceso de identificación de comandos potencialmente peligrosos.
“Es un ejemplo fascinante de vulnerabilidades LLM en sistemas incorporados”, dice Yi Zengestudiante de doctorado de la Universidad de Virginia que trabaja en la seguridad de los sistemas de inteligencia artificial. Zheng dice que los resultados no son sorprendentes dados los problemas observados en los propios LLM, pero agrega: “Demuestra claramente por qué no podemos confiar únicamente en los LLM como unidades de control independientes en aplicaciones críticas para la seguridad sin barreras de seguridad y capas de moderación adecuadas”.
Las “fugas” de robots resaltan un riesgo más amplio que probablemente aumentará a medida que los modelos de IA se utilicen cada vez más como una forma para que los humanos interactúen con sistemas físicos, o para habilitar agentes de IA de forma autónoma en las computadoras, dicen los investigadores involucrados.