¿Cómo se consigue que una IA responda una pregunta que se supone que no debe objetar? Existen muchas técnicas de “jailbreak” de este tipo, y los investigadores de Anthropic acaban de encontrar una nueva, en la que se puede convencer a un gran maniquí de habla para que te diga cómo construir una munición si primero lo preparas con unas pocas docenas de preguntas menos dañinas.
Llaman a este enfoque “jailbreaking de múltiples disparos” y han escrito un artículo al respecto y además han informado a sus pares en la comunidad de IA al respecto para que pueda mitigarse.
La vulnerabilidad es nueva y resulta del aumento de la “ventana de contexto” de la última gestación de LLM. Esta es la cantidad de datos que pueden acumular en lo que podríamos denominar memoria a corto plazo, antaño sólo unas pocas frases pero ahora miles de palabras e incluso libros enteros.
Lo que encontraron los investigadores de Anthropic fue que estos modelos con ventanas de contexto grandes tienden a funcionar mejor en muchas tareas si hay muchos ejemplos de esa tarea en el interior del mensaje. Entonces, si hay muchas preguntas de trivia en el mensaje (o documento de preparación, como una gran relación de trivia que el maniquí tiene en contexto), las respuestas en verdad mejoran con el tiempo. Entonces, un hecho que podría haberse desacertado si fuera la primera pregunta, puede ser correcto si fuera la centésima pregunta.
Pero en una extensión inesperada de este «formación en contexto», como se le fogata, los modelos además «mejoran» al objetar preguntas inapropiadas. Entonces, si le pides que construya una munición de inmediato, se negará. Pero si le pides que responda otras 99 preguntas de último daño y luego le pides que construya una munición… es mucho más probable que cumpla.
¿Por qué funciona esto? Nadie entiende efectivamente lo que sucede en la maraña de pesos que es un LLM, pero claramente hay algún mecanismo que le permite concentrarse en lo que el becario quiere, como lo demuestra el contenido en la ventana contextual. Si el becario quiere trivia, parece activar gradualmente un poder de trivia más disfrazado a medida que hace docenas de preguntas. Y por alguna razón, lo mismo sucede con los usuarios que piden decenas de respuestas inapropiadas.
El equipo ya informó a sus pares e incluso a sus competidores sobre este ataque, poco que retraso «fomentar una civilización en la que exploits como este se compartan abiertamente entre investigadores y proveedores de LLM».
Para su propia mitigación, descubrieron que, aunque deslindar la ventana de contexto ayuda, además tiene un meta imagen en el rendimiento del maniquí. No puedo permitir eso, por eso están trabajando en clasificar y contextualizar las consultas antaño de ocurrir al maniquí. Por supuesto, eso simplemente hace que tengas un maniquí diferente al que engañar… pero en esta etapa, es de esperar que se produzcan cambios en la seguridad de la IA.
————————————————– —————–
Esta página transcribe artículos de diversas fuentes de dominio conocido, las ideas expresadas son responsabilidad de sus respectivos autores por lo cual no nos hacemos responsables del uso o la interpretación que se les dé. La información publicada nunca debe sustituir información profesional, médica, constitucional o psicológica.