Gli agenti AI in grado di leggere file, chiamare API ed eseguire azioni sono già in fase di implementazione nelle aziende. Questi agenti operano spesso al centro di quella che Simon Willison definisce la “tripletta letale”: possono accedere a dati privati, elaborare contenuti non affidabili e comunicare verso l’esterno, diventando così vulnerabili al furto di dati tramite indirect prompt injection.
In questo tipo di attacco, un aggressore inserisce istruzioni malevole all’interno di contenuti che l’agente legge per conto di un utente fidato – ad esempio un’email, una pagina web o un documento. L’agente esegue le istruzioni utilizzando i privilegi dell’utente, senza che quest’ultimo si accorga dell’attacco.
La cosiddetta Agents Rule of Two generalizza ulteriormente il concetto: un agente dovrebbe soddisfare al massimo due delle seguenti condizioni:
- elaborare input non affidabili,
- accedere a sistemi sensibili,
- modificare stati o sistemi esterni.
La tensione tra utilità e sicurezza è reale. Esistono agenti molto utili che possono essere mantenuti al di fuori della tripletta, ma le capacità che le aziende desiderano davvero – leggere dati aziendali, comprendere contesti esterni e agire autonomamente – portano inevitabilmente verso aree di rischio elevato. Non si tratta di una configurazione errata: è il costo architetturale dell’utilità stessa.
Molti hanno già visto fallire programmi pilota in cui gli agenti erano stati limitati a tal punto da risultare inefficaci. Gli agenti hanno bisogno di libertà operativa per generare valore – ed è proprio questo che li rende bersagli interessanti.
La minaccia rimane ancora in gran parte teorica, nel senso che gli esempi più noti e citati pubblicamente sono soprattutto dimostrazioni di ricerca e proof-of-concept. Tuttavia, il rischio non è più confinato ai laboratori.
Uno studio di Google dell’aprile 2026 sul repository Common Crawl ha individuato diversi casi di prompt injection incorporati in pagine web pubbliche: da semplici scherzi a manipolazioni SEO fino a tentativi di esfiltrazione di dati. Lo studio ha inoltre rilevato un aumento del 32% dei tentativi malevoli tra novembre 2025 e febbraio 2026.
Finora non si è ancora verificato il primo disastro aziendale su larga scala, evidente e universalmente compreso – il cosiddetto “momento Challenger” capace di portare questo rischio in ogni presentazione ai board aziendali. Ed è una buona notizia. Significa che possiamo considerare gli attuali segnali – risultati di ricerca e primi tentativi osservati nel mondo reale – come una fase di avvertimento preliminare, anticipando il problema.
Per farlo, è necessario assumere fin da subito la possibile compromissione del layer LLM e rendere il contenimento del blast radius il principio base della sicurezza, adottando controlli esterni al modello prima che gli attaccanti industrializzino queste tecniche.
La cattiva notizia è che non si tratta di un problema semplice da risolvere. Pattern architetturali avanzati come CaMeL e Dual LLM sono promettenti, ma al momento non risultano adottati dai principali framework per agenti AI.
Serve quindi una linea di difesa aggiuntiva, subito.
In questo articolo verranno illustrati sette approcci tattici che i professionisti della sicurezza possono implementare nei prossimi 1-6 mesi per ridurre il rischio, senza attendere la maturazione degli strumenti e dei framework dedicati agli agenti AI. Prima, però, è necessario comprendere il contesto e il modello mentale indispensabili per applicarli correttamente.
Leggi tutto l’articolo: https://www.sophos.com/en-us/blog/inside-the-lethal-trifecta-blast-radius-reduction-in-ai-agent-deployments

