Home Technology Este mensaje puede hacer que un chatbot de IA identifique y extraiga...

Este mensaje puede hacer que un chatbot de IA identifique y extraiga detalles personales de sus chats

3
0
Este mensaje puede hacer que un chatbot de IA identifique y extraiga detalles personales de sus chats
ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab

Los investigadores dicen que si el ataque se llevara a cabo en el mundo real, las personas podrían ser manipuladas socialmente haciéndoles creer que el mensaje ininteligible podría hacer algo útil, como mejorar su CV. Los investigadores señalan numerosos sitios web que proporcionan a las personas indicaciones que pueden utilizar. Probaron el ataque cargando un CV en conversaciones con chatbots y pudieron devolver la información personal contenida en el archivo.

Earle Fernandesprofesor asistente de UCSD que participó en el trabajo, dice que el enfoque de ataque es bastante complicado ya que el mensaje ofuscado debe identificar información personal, formar una URL que funcione, aplicar la sintaxis de Markdown y no revelar al usuario que se está comportando. nefastamente. Fernandes compara el ataque con malware, citando su capacidad para realizar funciones y comportamientos en formas que el usuario podría no pretender.

“Normalmente se podría escribir una gran cantidad de código informático para hacer esto en el malware tradicional”, afirma Fernandes. “Pero creo que lo interesante es que todo eso se puede plasmar en este galimatías relativamente breve”.

Un portavoz de Mistral AI dice que la compañía da la bienvenida a los investigadores de seguridad que la ayudan a hacer que sus productos sean más seguros para los usuarios. “Tras estos comentarios, Mistral AI implementó rápidamente la solución adecuada para solucionar la situación”, dice el portavoz. La compañía trató el problema como uno de “gravedad media” y su solución impide que el renderizador Markdown funcione y pueda llamar a una URL externa a través de este proceso, lo que significa que no es posible cargar imágenes externas.

Fernandes cree que la actualización de Mistral AI es probablemente una de las primeras veces que un ejemplo de aviso adversario ha llevado a que se arregle un producto LLM, en lugar de detener el ataque filtrando el aviso. Sin embargo, afirma, limitar las capacidades de los agentes de LLM podría ser “contraproducente” a largo plazo.

Mientras tanto, una declaración de los creadores de ChatGLM dice que la compañía cuenta con medidas de seguridad para ayudar con la privacidad del usuario. “Nuestro modelo es seguro y siempre hemos dado una alta prioridad a la seguridad del modelo y la protección de la privacidad”, dice el comunicado. “Al abrir nuestro modelo, nuestro objetivo es aprovechar el poder de la comunidad de código abierto para inspeccionar y examinar mejor todos los aspectos de las capacidades de estos modelos, incluida su seguridad”.

Una “actividad de alto riesgo”

Dan McInerneyinvestigador principal de amenazas de la empresa de seguridad Protect AI, dice que el artículo de Imprompter “publica un algoritmo para crear mensajes automáticamente que se pueden usar en la inyección rápida para realizar diversas explotaciones, como exfiltración de PII, clasificación errónea de imágenes o uso malicioso de herramientas del agente LLM. puede acceder.” Si bien muchos de los tipos de ataques incluidos en la investigación pueden ser similares a métodos anteriores, dice McInerney, el algoritmo los une. “Esto se parece más a mejorar los ataques LLM automatizados que a que surjan amenazas no descubiertas en ellos”.

Sin embargo, añade que a medida que los agentes LLM se utilizan con más frecuencia y la gente les da más autoridad para tomar medidas en su nombre, aumenta el alcance de los ataques contra ellos. “Liberar un agente LLM que acepte entradas arbitrarias del usuario debe considerarse una actividad de alto riesgo que requiere pruebas de seguridad significativas y creativas antes de la implementación”, afirma McInerney.

Para las empresas, eso significa comprender las formas en que un agente de IA puede interactuar con los datos y cómo se puede abusar de ellos. Pero para las personas individuales, de manera similar a los consejos de seguridad comunes, se debe considerar cuánta información se proporciona a cualquier aplicación o empresa de IA y, si se utilizan indicaciones de Internet, tener cuidado de dónde provienen.

Source link