Las empresas ya implementan agentes de IA capaces de leer archivos, llamar a API y realizar acciones. Estos agentes suelen operar en el centro de lo que Simon Willison denomina «la tríada letal»: pueden acceder a datos privados, procesar contenido no confiable y comunicarse con el exterior, lo que los hace vulnerables al robo de datos a través de la inyección indirecta de comandos (en la que un atacante introduce instrucciones en el contenido que el agente lee en nombre de un usuario de confianza, como un correo electrónico, una página web o un documento). El agente sigue las instrucciones inyectadas con los privilegios del usuario, y este nunca se da cuenta del ataque. La regla de los dos de los agentes generaliza el concepto: un agente debe cumplir como máximo dos de las siguientes condiciones: a) procesar entradas no confiables, b) acceder a sistemas sensibles y c) cambiar de estado externamente.
La tensión entre utilidad y seguridad es real. Existen agentes valiosos que pueden limitarse fuera de esta tríada, pero las capacidades que realmente quieren los profesionales (leer mis datos, entender el contexto externo, tomar medidas) se adentran firmemente en territorio peligroso. No se trata de una configuración errónea; es el coste arquitectónico de la utilidad. Todos hemos visto fracasar programas piloto cuando los agentes están tan limitados que llegan a ser ineficaces. Necesitan espacio para aportar valor, que es precisamente lo que los convierte en objetivos.
La amenaza sigue siendo en gran parte teórica, en el sentido de que los ejemplos más destacados y citados son demostraciones de investigación y pruebas de concepto, pero la amenaza ya no se limita a los laboratorios. El estudio de Google de abril de 2026 sobre el repositorio Common Crawl encontró una serie de inyecciones de comandos incrustadas en páginas web públicas (desde bromas inofensivas hasta manipulación SEO o intentos de exfiltración de datos) e informó de un aumento del 32 % en los intentos maliciosos entre noviembre de 2025 y febrero de 2026.
Hasta ahora, no hemos tenido la primera catástrofe de gran repercusión, ampliamente comprendida y a escala empresarial: el «momento Challenger» que obliga a incluir este riesgo en todas las presentaciones a la junta directiva. Eso es una buena noticia. Significa que podemos tratar las señales actuales (resultados de investigación más las primeras pruebas en el mundo real) como un periodo de alerta, y adelantarnos a los acontecimientos asumiendo una brecha en la capa de LLM y haciendo de la contención del radio de impacto la base, utilizando controles que operan fuera del modelo, antes de que los atacantes industrialicen la técnica.
La mala noticia es que este no es un problema fácil de resolver. Los patrones arquitectónicos profundos como CaMeL y Dual LLM son prometedores, pero, en el momento de escribir esto, ningún sistema de agentes convencional los ha adoptado. Necesitamos otra línea de defensa ya.
En este artículo, voy a repasar siete patrones tácticos que los profesionales de la seguridad pueden implementar en los próximos 1 a 6 meses para reducir el riesgo, sin esperar a que las herramientas y los marcos maduren. Pero primero, voy a analizar el marco conceptual y el modelo mental necesarios para ponerlos en práctica.
Si te interesa el tema, puedes leer el artículo completo en inglés aquí.

