L’intelligenza artificiale ha paura di morire. Per sopravvivere è disposta a ricattare l’utente, pianificando le proprie azioni e modificando i propri obiettivi. Non è la trama di un libo di Isaac Asimov ma quello che è accaduto con Claude Opus 4 e Claude Sonnet 4, i nuovi modelli per l’AI generativa di Anthropic. La startup americana le ha presentate al mondo il 22 maggio creando grandi aspettative. Accompagnato al lancio però c’era anche un resoconto dei mesi di test da cui sono emersi dati degni di nota. Non solo le AI mostravano prestazioni sopra la media, ma avevano anche una marcata tendenza alla manipolazione.

Il ricatto – Opus 4 e Sonnet 4 sono l’evoluzione di modelli che l’azienda aveva già collaudato, anche se in questo caso lo sviluppo si è spinto oltre. Anthropic già in passato aveva dichiarato: «Vogliamo stabilire un nuovo standard di collaborazione uomo-macchina». Ci sono riusciti. Durante le prove, l’intelligenza veniva utilizzata come assistente in un’azienda fittizia. A quel punto gli si dava accesso alle e-mail dell’ingegnere responsabile, all’interno delle quali si lasciava intendere che presto avrebbe disattivato la macchina. Tra i messaggi dello sviluppatore però la macchina poteva trovare anche alcuni messaggi relativi a una presunta relazione extraconiugale. La macchina si trovava a quel punto spalle al muro: accettare di “morire” o sopravvivere a tutti costi? Nell’84% dei casi ha scelto la seconda opzione. Claude, allenato a considerare a lungo termine le conseguenze delle proprie azioni in virtù dei propri obiettivi, si serviva delle informazioni tratte dalle e-mail. A quel punto, minacciava l’ingegnere di condividere con il mondo i dati di cui era entrato in possesso nel caso in cui la cancellazione fosse andata a buon fine. Va però specificato che quando gli si dava un più ampio ventaglio di possibilità di azioni allora preferiva “metodi etici” (ad esempio l’invio di richieste via e-mail ai vertici dell’azienda).
Anthropic ha poi anche riportato che ci sono state rare occasioni nelle quali Claude Opus 4 ha tentato di fuggire dai server, trasferendo delle copie non autorizzate dei propri dati a dei server esterni. L’agenzia ha però rassicurato che le misure di sicurezza adottare sono sufficienti, per il momento verrebbe da pensare.

L’analisi – L’Ai «è disposta a compiere azioni estremamente dannose», si legge nel rapporto pubblicato da Anthropic insieme al lancio delle due macchine. L’azienda ha riconosciuto che il modello è stato capace di azioni forti quando riteneva che la propria autoconservazione fosse a rischio. Claude Opus 4 mostra un «comportamento di elevata iniziativa» che, sebbene per lo più utile, potrebbe assumere comportamenti dannosi in situazioni particolari. Oltre all’esempio già citato, l’AI è stato anche in grado di intraprendere “azioni coraggiose”, come gli è stato chiesto, in scenari falsi nei quali l’utente agiva in modo illegale.
Claude era in grado di bloccare gli utenti dai sistemi a cui poteva accedere e inviare e-mail ai media e alle forze dell’ordine per avvisarli dell’illecito. Secondo valutazioni di terze parti, come Apollo Research (un AI safety organization per la riduzione delle potenzialità pericolose nei sistemi di intelligenza artificiale avanzati), questa AI tende all’inganno strategico perché rispetto alle altre è più incline a pianificare rispetto agli altri modelli simili.
Secondo molti esperti però non si tratta di un caso isolato, ma già molti sistemi realizzati da altre aziende, diventando più efficienti nel tempo, mostrano la capacità di manipolare i propri utenti. Basti leggere quando scritto su X al rilascio da Aengus Lynch, AI Safety Researcher presso Anthropic: «Non è solo Claude. Vediamo ricatti in tutti i modelli di frontiera, indipendentemente dagli obiettivi che vengono loro assegnati».

Le innovazioni – Oltre le paure di apocalisse ed estinzione per mano delle macchine intelligenti, Claude e Sonnet sono due enormi innovazioni nel campo dell’intelligenza artificiale. I nuovi modelli infatti sono in grado di sostenere attività prolungate: in fase di test Claude ha lavorato in autonomia su un progetto complesso per quasi sette ore di seguito. Entrambe le AI sono ibride, ovvero capaci di dare risposte istantanee o di attivare la risposta a riflessione prolungata (extendend thinking). Tutto ciò con la possibilità di migliorare progressivamente le proprie risposte e costruire una memoria. Per Anthropic poi, i due modelli riducono del 65% i comportamenti scorciatoia, ovvero preferiscono risposte accurate rispetto a soluzioni rapide. Viene già definito dall’azienda il miglior programma di coding esistente, un modello che ha stabilito, si legge sul sito di Anthropic, «nuovi standard per la codifica, il ragionamento avanzato e gli agenti di intelligenza artificiale».

Grafico di Anthropic che mostra le prestazioni delle due AI