I modelli AI nascondono la loro vera potenza
Il playbook OpenAI rivela che harness e test-compute distortono le valutazioni dei modelli agentici, come Gemini 3.5 Flash.
Il playbook di OpenAI avverte che harness e risorse di calcolo distortono le metriche
Quando si valuta un modello per compiti agentici, la scelta del cosiddetto harness — l’infrastruttura software che orchestra il flusso di input, output e strumenti — non è un dettaglio implementativo trascurabile. È la lente attraverso cui il modello viene interrogato, e come ci ricorda il playbook per valutazioni affidabili di OpenAI, una lente sbagliata può produrre numeri che raccontano una storia incompleta.
Mentre Google spinge Gemini 3.5 Flash come modello predefinito per agenti e ricerca, la domanda che ogni sviluppatore dovrebbe porsi è: stiamo misurando la vera capacità del modello, o solo ciò che l’harness ci lascia vedere?
Google ha iniziato a distribuire gli aggiornamenti Search I/O 2026 in cui Gemini 3.5 Flash diventa il modello predefinito di AI Mode per tutti gli utenti globali. Le demo ufficiali mostrano video di Gemini 3.5 Flash che eseguono compiti di coding e navigazione web complessa con una fluidità impressionante. Il modello viene descritto come ideale per compiti agentici a lungo orizzonte, come si vede nelle dimostrazioni di Gemini Omni. Con l’annuncio che Google annuncia Gemini 3.5 Flash come modello predefinito per l’app Gemini e per AI Mode in Search, si consolida la sua adozione su scala. Inoltre, entro l’estate 2026, le capacità di UI generativa in Search saranno disponibili gratuitamente per tutti.
Il problema nascosto: l’harness non è neutrale
OpenAI ha pubblicato a fine maggio 2026 il playbook per valutazioni affidabili di terze parti, un documento che smonta l’idea ingenua che un benchmark standardizzato basti a fotografare le capacità di un modello. La configurazione che circonda il modello — battezzata concetto di harness — influenza profondamente i risultati. Il playbook sottolinea che la scelta dell’harness è determinante per ottenere valutazioni rappresentative. Per sistemi che agiscono su traiettorie lunghe, come gli agenti AI, il ruolo dell’harness diventa ancora più critico: il playbook evidenzia l’importanza dell’harness nelle valutazioni per traiettorie estese. In pratica, se l’harness non è progettato per elicitare il meglio dal modello, i punteggi che leggiamo potrebbero essere sistematicamente sottostimati — o, peggio, sovrastimati se la configurazione premia scorciatoie superficiali.
Capacità non assolute, ma dipendenti dalle risorse
Il punto centrale del playbook è che le affermazioni sulle capacità di un modello non possono prescindere dal contesto di valutazione. Aumentare il tempo di test-compute — cioè il budget di calcolo concesso al modello durante l’inferenza — può cambiare drasticamente quale capacità viene misurata. OpenAI suggerisce di considerare il test-compute per valutazioni come una variabile da dichiarare esplicitamente. La conclusione è inequivocabile: la capacità dipende dalle risorse secondo il playbook, non è una quantità fissa misurabile una volta per tutte. Questo è particolarmente rilevante per Gemini 3.5 Flash, che viene pubblicizzato per la sua efficienza e velocità: se il modello viene testato con un budget di calcolo ridotto, le sue reali abilità agentiche potrebbero emergere solo parzialmente.
Sotto-elicitazione: il fallimento di misura che mina le affermazioni
Il playbook introduce un concetto tagliente: la sotto-elicitazione evitabile è un fallimento di misurazione puro e semplice. Se l’harness o il budget impediscono al sistema di mostrare un comportamento che altrimenti produrrebbe, il punteggio non misura la capacità dichiarata. Questo significa che quando Google afferma che Gemini 3.5 Flash è il migliore per agenti, dovremmo chiedere: con quale harness? Con quale budget di test-compute? Le metriche attuali dei benchmark pubblici non rispondono a queste domande. Per chi costruisce agenti basati su questo modello, la lezione è chiara: fidarsi ciecamente dei numeri senza conoscere la configurazione di valutazione è rischioso. La vera potenza di Gemini 3.5 Flash — o di qualsiasi modello — rimane un mistero fino a quando non viene elicitata correttamente.
Il messaggio per la community degli sviluppatori è operativo: quando valuti un modello per un agente, costruisci il tuo harness, varia il test-compute, e verifica che le affermazioni del fornitore siano state ottenute in condizioni oneste. Senza questa trasparenza, i numeri sono solo rumore.