La valutazione dell’IA è un rompicapo
Tre storie mostrano come benchmark AI possano ingannare: modelli vocali falliscono in contesti reali, riproducibilità incerta e fragilità umana.
I benchmark pubblici premiano modelli che poi falliscono su termini tecnici come “backlog” o “KPI”
Luca usa la dettatura per scrivere le email di lavoro. Microfono, voce, e via: il testo appare. Funziona, ma quando parla di “backlog” o “KPI” il software sbaglia spesso. Così un giorno cerca su internet la classifica dei migliori modelli di riconoscimento vocale. Scopre una leaderboard piena di numeri e acronimi: Word Error Rate, dataset, modelli mastodontici. Compra il primo in classifica. Lo prova. E si accorge che per i suoi comandi tecnici il modello è peggiore di quello gratuito che aveva prima. Perché?
Il problema è vecchio come l’intelligenza artificiale: come facciamo a sapere se un modello funziona davvero? Tre storie recenti, all’apparenza lontanissime, provano a dare una risposta. E mostrano che la strada è ancora in salita.
La corsa ai benchmark: una gara con i paraocchi
Da settembre 2023 l’Open ASR Leaderboard di Hugging Face cerca di ordinare i sistemi di riconoscimento vocale. Il problema? I modelli imparano a fare perfettamente i test pubblici – è la cosiddetta contaminazione o benchmaxxing. Per fermarla, il team ha introdotto dataset privati, tenuti segreti, che nessun modello può aver visto in fase di addestramento. Mossa furba. Ma attenzione: il voto medio – l’indice principale – resta calcolato solo sui dataset pubblici. I dati privati sono un’opzione che l’utente può attivare con un toggle. I vecchi test sono stati raggruppati in un dataset unico sul Hub, e un normalizzatore uniforma output e trascrizioni (via punteggiatura, maiuscole, ortografia americana). La leaderboard continuerà ad aggiungere nuovi dataset e configurazioni. Ma la lezione è chiara: non esiste un modello ASR universale. Quello che vince la gara su carta può essere un flop nel tuo ufficio.
Quando una versione non è uguale all’altra: il caso vLLM
Se i benchmark sono opachi, la riproducibilità è un altro incubo. Lo sa bene chi lavora con i modelli di linguaggio e usa librerie come vLLM. ServiceNow e il team di vLLM hanno scoperto che la versione V1 non dava gli stessi risultati della versione V0, nonostante rappresenti un’evoluzione. Per ottenere la parità tra V0 e V1 hanno dovuto correggere quattro cose: il calcolo dei logprobs, le impostazioni predefinite del runtime, il percorso degli aggiornamenti dei pesi e un layer di proiezione. La versione di riferimento era la 0.8.5; la V1 usata era la 0.18.1. In pratica, V1 restituisce logprobs grezzi del modello, prima di ogni post‑elaborazione (scaling di temperatura, penalità, filtri top‑k). Ma il sistema di reinforcement learning (PipelineRL) si aspettava logprobs dalla distribuzione già processata dal campionatore. Così per tornare compatibili hanno dovuto impostare logprobs-mode=processed_logprobs. Per il test di parità, hanno fissato altre scelte esplicite: usare V1, niente prefix caching, niente schedulazione asincrona. Il prefix caching rimosso un grado di libertà dal confronto. Morale: aggiornare una libreria può rompere tutto, e certificare che due versioni si comportino allo stesso modo è un lavoro da certosini.
E se l’IA deve ascoltare i momenti bui? Il Trusted Contact
Fin qui abbiamo parlato di errori di trascrizione e di riproducibilità. Ma la vera posta in gioco è quando l’intelligenza artificiale interagisce con la fragilità umana. OpenAI ha introdotto una funzione chiamata Trusted Contact per gestire situazioni in cui ChatGPT intercetta segnali di crisi (pensieri suicidi, autolesionismo). Niente automazione: un piccolo team di persone appositamente formate esamina il caso prima di inviare una notifica a un contatto di fiducia indicato dall’utente. La promessa: revisionare le notifiche in meno di un’ora (un obiettivo ambizioso, per non lasciare nessuno in attesa). Il sistema è stato sviluppato con la guida di clinici e ricercatori specializzati in salute mentale. È un passo avanti enorme rispetto a un chatbot che ti risponde “contatta un professionista” e poi ti dimentica. Ma solleva domande: chi garantisce che la revisione sia tempestiva? E chi decide la soglia oltre la quale scatta l’allarme? La trasparenza, anche qui, è ancora tutta da scrivere.
Cosa possiamo aspettarci? I prossimi mesi probabilmente vedranno un doppio movimento: da una parte, sempre più piattaforme di valutazione useranno dati privati e controlli di riproducibilità per stanare i modelli “truffa”. Dall’altra, i sistemi che toccano aree sensibili come la salute mentale si doteranno di supervisione umana esplicita. Ma fintanto che un modello può essere il migliore in classifica e inutile nel tuo contesto – o peggio, pericoloso – la certificazione resterà un rompicapo. E toccherà a noi, utenti curiosi e critici, chiedere conto. Sempre.