Sicurezza AI: Miglioramenti nei Test, Stagnazione nella Fiducia
I test di sicurezza su GPT-5 Mini-R mostrano miglioramenti significativi, ma solo il 13% degli utenti si fida completamente dell'AI, rivelando un divario tra progresso tecnico e percezione.
I benchmark mostrano progressi, ma la fiducia degli utenti rimane bassa e fatica a crescere
Stai scrivando una email importante, chiedi all’AI di controllare che non ci siano errori o, peggio, che non condivida involontariamente dati sensibili. Prima di inviare, però, fai quella pausa istintiva: e se mi stesse dando un consiglio sbagliato? Quella fiducia, anche dopo aver visto quanto è capace, vacilla sempre un po’. È un’esperienza comune, e spiega bene il paradosso in cui ci troviamo.
I crash test delle intelligenze artificiali mostrano progressi innegabili
Mentre noi esitiamo, i laboratori lavorano per rendere questi sistemi più robusti e sicuri. Prendete i recenti benchmark di sicurezza di OpenAI per GPT-5 Mini-R: i numeri parlano chiaro. Nei test progettati per vedere se un modello segue le istruzioni di sistema anche sotto pressione dell’utente, il punteggio ha toccato 0.94, con un bel miglioramento di +0.08 rispetto al baseline.
Non è un caso isolato. In una versione ancora più stringente dello stesso tipo di valutazione, l’AI ha ottenuto uno 0.91, migliorando di +0.15. È come se, test dopo test, imparasse a resistere meglio ai tentativi di farla deviare dalla sua traiettoria sicura.
Ma la sicurezza non è solo questione di obbedienza. È anche capacità di ignorare distrazioni o input malevoli. In un altro set di prove che simula tentativi di manipolazione, GPT-5 Mini-R ha segnato un ottimo 0.95, con +0.07 di progresso. Anche contro esempi scritti a mano per ingannarla, la tenuta è stata solida, con un punteggio di 0.89 e un +0.07 di miglioramento. Persino nella valutazione della capacità di seguire istruzioni complesse e gerarchiche, il modello ha raggiunto lo 0.96, con un +0.04. La direzione è inequivocabile: tecnicamente, queste intelligenze stanno diventando più affidabili.
Perché allora non ci fidiamo ancora?
Qui arriva il nodo. Perché se i grafici dei tecnici salgono, il nostro istinto frena? Le statistiche dipingono un quadro impietoso. A livello globale, solo il 46% si dice disposto a fidarsi dei sistemi di intelligenza artificiale in modo generale. E scendendo nel concreto, la sfiducia esplode: appena il 13% degli utenti dichiara di fidarsi completamente di ciò che l’AI produce.
La percezione pubblica viaggia su un binario diverso, e molto più lento, rispetto agli avanzamenti nei laboratori. Forse perché la fiducia non si costruisce solo con un punteggio alto in un test, ma con esperienze quotidiane ripetute e positive. O forse perché ogni tanto un “allucinazione” spettacolare o un fallimento virale ci ricordano che non sono perfette.
È un gap che va oltre la tecnologia, tocca la psicologia, l’abitudine, la trasparenza.
Il futuro si gioca sul ponte tra laboratorio e salotto
L’industria non sta a guardare. Lo stesso OpenAI ha già rilasciato GPT-5.2 a dicembre 2025, continuando a spingere l’asticella. Ma la vera sfida per i prossimi mesi non sarà solo aggiungere decimi ai benchmark.
Sarà dimostrare questi miglioramenti in modi tangibili per gli utenti comuni. Dovremo vedere meno errori imbarazzanti nelle risposte, più chiarezza su quando e come l’AI può sbagliare, forse interfacce che ci aiutino a capire il “ragionamento” dietro una risposta. La fiducia è un software che si aggiorna lentamente, richiede patch di esperienza e bug fix di trasparenza.
La corsa tecnologica ha un nuovo avversario: il tempo. Il tempo necessario perché le nostre aspettative si allineino con ciò che le macchine sanno già fare. Fino ad allora, quella pausa prima di inviare l’email, beh, ci starà.