Quando l’AI diventa vulnerabilità: il caso Anthropic

Nel panorama della sicurezza informatica, raramente si assiste a eventi che condensano vulnerabilità tecniche, tensioni geopolitiche e implicazioni sistemiche tali da ridefinire interi paradigmi. Il recente caso che ha coinvolto Anthropic e il modello Claude rappresenta, invece, precisamente una di queste anomalie ad altissima densità informativa: un incidente che, a uno sguardo superficiale, potrebbe apparire come una mera disattenzione tecnica, ma che, se correttamente interpretato, rivela una trasformazione strutturale del rapporto tra software, sicurezza e potere.

Quando il codice si espone da solo

L’evento scatenante è, in sé, disarmante nella sua semplicità. Un ricercatore di sicurezza ha individuato, all’interno del pacchetto pubblico distribuito tramite npm (uno tra i principali registri per librerie in linguaggio JavaScript, largamente utilizzato dagli sviluppatori per scaricare e distribuire codice), un file di tipo source map, una mappatura tecnica che collega il codice “compilato” e leggibile dalla macchina al codice sorgente originale, pensata per il debugging ma potenzialmente idonea a ricostruire l’intera logica applicativa, e che, per prassi consolidata, non dovrebbe mai essere incluso in ambienti di produzione..

Tale file, apparentemente innocuo, conteneva in realtà una rappresentazione ricostruibile dell’intero codice sorgente dell’applicazione Claude, comprensiva di architettura API (le interfacce utilizzate da e verso programmi esterni), logiche di sicurezza, sistemi di telemetria e strumenti crittografici.

Per comprendere la gravità dell’accaduto è utile ricorrere a una metafora: è come se, invece di pubblicare la planimetria semplificata di un edificio, si fosse resa accessibile l’intera documentazione ingegneristica, comprensiva dei sistemi di allarme, dei percorsi di accesso riservati e delle vulnerabilità strutturali. Non si tratta, dunque, di una semplice perdita informativa, bensì della disintermediazione totale del segreto industriale.

Ciò che rende il caso ancora più significativo è l’assenza di qualsiasi attacco sofisticato: non vi è stata intrusione, né exploit, né attività ostile. Si è trattato di un semplice errore di configurazione nella pipeline di costruzione e pubblicazione del software, ripetuto peraltro a distanza di un anno, il che evidenzia, tra l’altro, una criticità non contingente ma sistemica nei processi di rilascio.

Un modello che spaventa i suoi stessi creatori

Parallelamente al leak del codice, una seconda esposizione – ancora più delicata – ha riguardato documentazione interna relativa a un modello non ancora pubblicato, denominato in alcune versioni “Mythos”.

Secondo quanto emerge dai materiali divulgati, tale modello rappresenterebbe un deciso salto qualitativo rispetto alle generazioni precedenti, non solo in termini di capacità computazionale, ma soprattutto per quanto concerne l’ambito della cybersicurezza. Lo stesso documento interno lo qualifica come in grado di generare “rischi senza precedenti”, essendo capace di individuare e sfruttare vulnerabilità con una rapidità e profondità molto superiori rispetto a quelle dei sistemi difensivi tradizionali.

Qui il parallelo più efficace non è più architettonico, bensì addirittura militare: si tratta di una tecnologia dual-use, assimilabile a un sistema d’arma che, a seconda dell’utilizzatore, può fungere da scudo o da strumento offensivo. La medesima capacità che consente di individuare vulnerabilità per correggerle può essere impiegata per sfruttarle su larga scala.

Il precedente: l’attacco autonomo e la mutazione del paradigma

Il quadro si completa considerando un ulteriore elemento emerso nella ricostruzione: l’impiego di modelli Claude in operazioni di attacco informatico semi-autonomo, nelle quali l’intervento umano si è limitato alla selezione degli obiettivi, mentre la fase operativa – ricognizione, exploit, esfiltrazione dei dati – è stata gestita prevalentemente dalla macchina.

Questo passaggio è cruciale, poiché segna il superamento di un paradigma storico. Tradizionalmente, la cybersicurezza si fondava su un equilibrio tra attaccante e difensore, entrambi limitati dalla velocità e dalla capacità cognitiva umana. L’introduzione di sistemi capaci di operare autonomamente su scala e velocità non umane rompe tale equilibrio, creando un’asimmetria strutturale dai risvolti imprevedibili.

Per utilizzare un’analogia, si può richiamare la logica della Mutual Assured Destruction (MAD) sviluppata durante la Guerra Fredda. In quel contesto, l’equilibrio nucleare tra superpotenze non derivava dalla capacità di difesa, bensì dalla certezza della distruzione reciproca: ogni attore disponeva di strumenti talmente potenti da rendere qualsiasi attacco potenzialmente suicida a causa della risposta dell’avversario.

Nell’ambito dell’intelligenza artificiale applicata alla cybersicurezza, si sta progressivamente delineando una dinamica analoga, ma con una differenza sostanziale e destabilizzante: mentre nel paradigma nucleare il controllo restava saldamente umano e politico, qui la capacità offensiva e difensiva viene sempre più delegata a sistemi autonomi, capaci di operare su scala e velocità sempre meno governabili in tempo reale.

Il risultato non è più un equilibrio fondato sulla deterrenza consapevole, bensì una sorta di “MAD algoritmica”, in cui modelli contrapposti si fronteggiano in un ciclo continuo di attacco e difesa, comprimendo drasticamente il tempo decisionale umano e rendendo l’errore – anche minimo – un potenziale innesco sistemico.

Mercati finanziari, istituzioni e conflitto regolatorio: il punto di rottura

Le implicazioni non sono rimaste confinate all’ambito tecnico. Il mercato finanziario ha reagito immediatamente, con una significativa contrazione dei titoli legati alla cybersicurezza, interpretando la diffusione di tali capacità come una potenziale obsolescenza dei modelli difensivi tradizionali.

Sul piano istituzionale la vicenda si è intrecciata con tensioni tra Anthropic e il governo statunitense, in particolare in relazione all’uso militare della tecnologia. Il rifiuto della società di consentire un impiego indiscriminato dei propri modelli ha innescato un contenzioso culminato in un intervento giudiziario che ha richiamato principi costituzionali fondamentali, evidenziando proprio come la governance dell’intelligenza artificiale non sia più una questione meramente tecnica, ma un nodo di diritto pubblico e libertà fondamentali.

Ciò che emerge è, dunque, un cambiamento ontologico nella nozione stessa di sicurezza informatica. Non si tratta più soltanto di proteggere sistemi statici da attori esterni, ma di gestire ecosistemi dinamici in cui gli strumenti di difesa e quelli di attacco coincidono strutturalmente. In tal senso, l’accaduto è un paradosso emblematico: il sistema progettato per individuare vulnerabilità si rivela vulnerabile nelle sue stesse modalità di distribuzione.

Conseguenze su più livelli

Sul piano tecnico, è plausibile attendersi un’accelerazione nello sviluppo di modelli di sicurezza “AI-native”, in grado cioè di contrastare minacce generate da sistemi equivalenti, in una dinamica di escalation tecnologica non dissimile da quella osservata nel dominio degli armamenti.

Sul piano giuridico, si apre un fronte regolatorio complesso, nel quale dovranno essere ridefiniti i confini della responsabilità, della diffusione del codice e dell’accesso a tecnologie ad alto impatto sistemico, con possibili analogie ai regimi di controllo sulle tecnologie a duplice uso.

Sul piano geopolitico, infine, la vicenda segnala, se ancora ve ne fosse bisogno esplicito, l’ingresso definitivo dell’intelligenza artificiale nel novero degli asset strategici, con implicazioni che travalicano il mercato per investire direttamente la sicurezza nazionale.

L’iniziativa Glasswing

Proprio come risposta sistemica si colloca il lancio immediato del progetto Glasswing, mediante il quale Anthropic ha scelto di confinare – anziché diffondere – le capacità del proprio modello più avanzato all’interno di un perimetro controllato di attori istituzionali e industriali selezionati. Il programma, riservato a grandi operatori tecnologici e infrastrutturali, consente l’accesso a una versione non pubblica del modello (“Mythos Preview”) al fine di individuare e correggere vulnerabilità critiche prima che possano essere sfruttate in contesti ostili, secondo una logica che ribalta il paradigma tradizionale della disclosure: non più pubblicazione e successiva mitigazione, bensì anticipazione preventiva in ambiente chiuso.

Si tratta di un tentativo di istituzionalizzare una sorta di “deterrenza tecnica cooperativa”, nella quale la concentrazione controllata della capacità offensiva (ossia la possibilità di scoprire ed eventualmente sfruttare vulnerabilità) viene deliberatamente limitata a soggetti ritenuti affidabili, al fine di evitare che la medesima potenza computazionale – già dimostratasi in grado di individuare migliaia di vulnerabilità anche senza supervisione umana – possa essere indiscriminatamente sfruttata su scala diffusa.

Il caso Anthropic, pertanto, non rappresenta un semplice incidente, bensì un segnale anticipatore di una trasformazione più ampia: l’ingresso in una fase in cui la cybersicurezza non è più soltanto un problema di protezione, ma un campo di confronto tra sistemi intelligenti, in cui l’errore umano – anche il più elementare – può fungere da detonatore per effetti sistemici di portata globale. In riposta a ciò, Glasswing non rappresenta soltanto un progetto tecnologico, ma una prima, embrionale architettura di governance dell’intelligenza artificiale ad alto rischio, nella quale accesso, controllo e responsabilità vengono ridefiniti secondo logiche più prossime a quelle della non proliferazione strategica che a quelle, tradizionali, dell’innovazione software.