Perché la ricerca interna di Google considera inaffidabile la pratica comune di valutazione dell'IA?

La ricerca evidenzia che affidarsi a 1, 3 o 5 valutatori umani per giudicare una risposta di intelligenza artificiale è spesso un azzardo statistico. Per una parvenza di affidabilità, servono spesso più di 10 giudici per ogni singolo elemento, poiché le metriche attuali non reggono un esame statistico serio.

Quali sono le due strategie di valutazione presentate da Flip Korn e Chris Welty e in cosa differiscono?

La strategia 'foresta' (forest) punta su tanti elementi con pochi valutatori ciascuno, è economica e veloce ma appiattisce le sfumature e silenzia le voci di minoranza. La strategia 'albero' (tree) prevede meno elementi ma molti più valutatori per ognuno, è più costosa e lenta ma cattura lo spettro completo delle opinioni umane, risultando significativa per la sicurezza etica e sociale.

Perché non si adottano ampiamente metodi di valutazione più solidi?

La risposta è negli incentivi di mercato: la velocità di lancio batte la solidità. Annunciare nuovi modelli fa lievitare le azioni, mentre investire tempo e risorse in valutazioni robuste no. Le aziende hanno interesse a minimizzare costi e tempi.

Esiste una regolamentazione per il processo di valutazione che determina se un'IA è 'sicura'?

No, è una terra di nessuno. Il GDPR e le leggi antitrust si concentrano su uso dei dati e potere di mercato, ma nessuno regola il processo di valutazione stesso, lasciandolo all'autoregolamentazione delle aziende.

Qual è il rischio principale dell'attuale approccio alla valutazione?

Il rischio è costruire sistemi di IA che permeeranno ogni aspetto della nostra vita sulla base di un protocollo di testing opaco e inadeguato, affidando la definizione di confini etici e di sicurezza all'istinto di pochi annotatori sottopagati, con potenziali conseguenze sistemiche.

Editorials Pick's 2 hours ago

Google ha scoperto un problema nei test di sicurezza dell’IA

Q: Esiste una soluzione tecnica al problema della valutazione?

Sì, Google stessa mostra che un'ottimizzazione del rapporto tra elementi e valutatori può portare a risultati riproducibili con circa 1.000 annotazioni totali, dimostrando che non servono milioni di giudizi ma un disegno sperimentale intelligente.

Google rivela che i test di sicurezza AI con 1-5 valutatori sono statisticamente deboli. Servono oltre 10 giudici per elemento per risultati affidabili su tossicità e bias.

La ricerca rivela che servono almeno 10 valutatori per risposta per avere dati statisticamente affidabili.

Quante volte avete sentito dire che un modello AI è “sicuro” perché ha superato tutti i test? E se quei test fossero costruiti su una base di sabbia, con un pugno di valutatori umani a decidere cosa è accettabile per miliardi di persone?

La domanda non è oziosa. È il cuore di una ricerca interna di Google che smaschera un’illusione pericolosa. Il framework di Google per benchmark AI più solidi parte da un dato scomodo: la pratica comune di affidarsi a 1, 3 o 5 valutatori umani per giudicare una risposta di intelligenza artificiale è spesso un azzardo. Per risultati che abbiano una parvenza di affidabilità, servono spesso più di 10 giudici per ogni singolo elemento.

Pensateci: stiamo costruendo il futuro dell’informazione e dell’automazione su metriche che non reggono un esame statistico serio.

L’albero della diversità o la foresta dell’efficienza? Il compromesso che nessuno vi dice

Flip Korn e Chris Welty, in un post del 31 marzo 2026, hanno presentato un metodo per ottimizzare le risorse. Ma la loro analisi rivela soprattutto quanto sia profondo il problema. Prendete due dataset usati per addestrare e valutare modelli su temi delicatissimi: tossicità e bias. Il dataset “Toxicity” per la valutazione AI conta su oltre 17.000 valutatori per 107mila commenti. Quello “Jobs”, sul bias occupazionale, ha solo 5 valutatori per ciascuno di 2000 tweet. Quale dei due credete possa cogliere la complessità del linguaggio e del pregiudizio umano?

La risposta della ricerca è duplice. Se l’obiettivo è misurare una semplice accuratezza, cioè se l’AI produce la risposta che la maggioranza della gente si aspetta, allora conviene la strategia “foresta”: tanti elementi, pochi valutatori ciascuno. È l’approccio ‘forest’ per il voto di maggioranza grezzo dei valutatori. È economico, veloce. E terribilmente riduttivo. Appiattisce le sfumature, silenzia le voci di minoranza, costruisce un’IA che obbedisce a una normalità fittizia.

Se invece si vuole davvero capire lo spettro delle reazioni umane, serve la strategia “albero”: meno elementi, ma molti più valutatori per ognuno. Solo così si può catturare lo spettro completo delle opinioni umane con l’approccio ‘tree’. È più costoso, più lento. Ma è l’unico che abbia un senso quando parliamo di sicurezza etica e sociale, non solo di performance tecnica. Perché un modello che sembra “non tossico” per 5 tester bianchi e maschi potrebbe essere devastante per altri gruppi.

Chi ha paura del benchmark costoso? Gli interessi in gioco dietro l’AI “safe”

Il vero paradosso è che la soluzione tecnica esiste. Google stessa mostra che l’ottimizzazione del rapporto porta a risultati riproducibili con circa 1.000 annotazioni totali. Non servono milioni di giudizi, serve un disegno sperimentale intelligente. Allora perché non si fa? La risposta è negli incentivi. Nel mercato dell’AI, la velocità di lancio batte la solidità. Annunciare un nuovo modello “state-of-the-art” come Gemini in Sheets secondo gli aggiornamenti AI di Google del marzo 2026 fa lievitare le azioni. Investire mesi e milioni in valutazioni robuste no.

E mentre i big giocano con benchmark di comodo, la tecnologia avanza in aree sempre più critiche. Prendete le performance web: il benchmark JetStream 3 per applicazioni web ad alte prestazioni assegna al WebAssembly un peso del 15-20%. È un segnale: carichi di lavoro sempre più complessi migrano sul browser. Se l’AI che gestirà quelle applicazioni sarà valutata con criteri approssimativi, le conseguenze per sicurezza e privacy saranno sistemiche.

Dove sono i regolatori in tutto questo? Il GDPR e le leggi antitrust si concentrano sull’uso dei dati e sul potere di mercato. Ma chi regola il processo di valutazione che determina se un’IA è abbastanza “sicura” per essere immessa sul mercato? Nessuno. È una terra di nessuno, lasciata all’autoregolamentazione delle aziende che hanno tutto l’interesse a minimizzare costi e tempi. La domanda quindi non è solo tecnica, è politica: possiamo davvero permettere che la sicurezza di sistemi che permeeranno ogni aspetto della nostra vita sia decisa da un protocollo di testing opaco e inadeguato?

Il futuro sarà valutato (male) da una folla solitaria?

L’ironia finale è amara. Costruiamo macchine che dovrebbero comprendere la complessità umana, ma rifiutiamo di investire nella complessità necessaria per testarle. Ci fidiamo dell’istinto di pochi annotatori sottopagati, spesso tramite piattaforme di crowdsourcing, per definire i confini del giusto e dell’ingiusto, del sicuro e del pericoloso.

La ricerca di Google è un grido d’allarme interno, uno schiaffo di realismo in un’industria ubriaca di retorica. Dimostra che gli attuali benchmark sono un castello di carte. Ma perché questa verità scomoda esce proprio ora? Forse perché l’adozione su larga scala si avvicina, e i rischi di scandali e cause legali diventano concreti. Forse perché qualcuno, dentro quei laboratori, ha davvero paura.

L’alternativa è chiara: continuare a credere all’illusione della sicurezza, finché un fallimento catastrofico non ci costringerà a guardare in faccia la negligenza. O ammettere che costruire un’intelligenza che rispetti la nostra richiede un impegno di valutazione altrettanto intelligente. Siamo disposti a pagare quel prezzo, o preferiamo raccontarci la favola dell’IA sicura, testata da una folla solitaria di cinque fantasmi?

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode.

Google insegna la GEO a Shanghai